Я хотел бы получить весь текст из (без DRM) файла prc
под Linux. Есть ли инструмент для этого? Распаковка файла epub
- это всего лишь prc
, так что я надеюсь, что подобный прием / инструмент есть и для prc
файлов.
2 ответа
На самом деле вы обращаете внимание на формат исполняемых файлов PalmOS, который (по причинам, которые я не понимаю) повторно использовал в качестве формата электронных книг для "Mobipocket". Смотрите здесь для фона и низкоуровневое описание формата файла.
Поскольку вы утверждали, что исходный файл не DRMed, это означает, что весь текст находится где-то в готовом для преобразования формате. Так что все, что вам нужно, - это библиотека для правильного считывания данных.
Моя любимая программа для Linux для конвертации между различными форматами электронных книг (или полностью из форматов электронных книг) - это Caliber - она поддерживает незашифрованные файлы prc
.
Если сам Caliber не может извлечь текст в формат, который вы можете использовать, и может конвертировать его только в форматы, которые вы не можете использовать, то я бы порекомендовал вам проверить библиотеки низкого уровня, которые калибр использует в качестве зависимостей для чтения файлов prc
, Затем вы можете использовать пример кода из этой библиотеки, чтобы разработать инструмент для чтения данных PRC на высоком уровне, определения местоположения текста и записи его в файл. Это должно быть достаточно просто, если вы разработчик.
Это хороший вопрос. +1.
KindleUnpack работает хорошо. Это можно загрузить с GitHub.
См. Также: KindleUnpack (MobiUnpack): извлекает текст, изображения и метаданные из файлов Kindle/Mobi на форумах MobileRead.