Я сканирую несколько томов книг по теории музыки. Помимо создания одного pdf/djvu для каждой книги, я хочу логически упорядочить содержимое по томам в доступном для поиска, собираемом виде. (Без OCR)
Пример: допустим, « Большая книга по теории музыки » - это серия из 6 томов. Каждый том имеет около десятка глав. Определенная тема, обсуждаемая в Томе 1 (скажем, на Метре), разработана в Томе 2. Поэтому я хотел бы иметь возможность объединить эти две главы вместе и посмотреть.
Я хотел бы просматривать страницы и добавлять теги / ключевые слова / текстовые описания вручную ко всей странице или регионам и извлекать страницы с помощью поиска. Я хотел бы иметь возможность создавать тематические представления, которые извлекают страницы через представления. (В нашем примере Метр)
Поиск, сбор и представление контента в разных видах не новы для нас. Но,
- Существует ли (набор) программного обеспечения, предпочтительно с открытым исходным кодом, для того же самого на отсканированных страницах.
- Если нет, и если мне нужно взломать, как лучше начать (держите отсканированные страницы свободными; djvu с контуром, скрытый текст; epub ...)