Здравствуйте, у меня есть страницы книг в формате изображений TIFF, и я хочу извлечь текст из этих страниц в текстовый файл, но я не получаю текст по мере необходимости, потому что текст в изображениях является курсивным, поэтому трудно преобразовать их в текст, пожалуйста Кто-нибудь найдет мне решение для их преобразования в текст. Я уже перепробовал много решений онлайн, но ни одно из них не помогло мне, поэтому, пожалуйста, дайте мне какой-нибудь ресурс, который сможет мне помочь.
2 ответа
Я бы посоветовал сначала посмотреть, отсканировал ли Google книгу для вас.
По логике это должно быть легко выполнить OCR с известным шрифтом. Однако я не слышал ни о каком программном обеспечении, которое фокусировалось бы на этой конкретной проблеме. Большинство программ OCR имеют универсальные алгоритмы для распознавания любого (или нескольких) шрифта (ов).
К сожалению, качество распознавания несколько пропорционально сумме денег, которую вы платите за программное обеспечение. Похоже, проприетарное программное обеспечение дает гораздо лучшие результаты. И бесплатное программное обеспечение, независимо от того, насколько разработчики хвастаются этим, довольно часто терпит неудачу и страдает от низкого качества.
Так что, если вы заинтересованы в получении хороших результатов, будьте готовы заплатить за это хорошую цену.
Кстати, эта тема на SO, охватывает точно такую же проблему, как и ваша. Ответ Андрея Кэша там перечисляет несколько достойных программ.
Я лично рекомендую ABBYY Lingvo, так как я использовал его сам и результаты в порядке.
Удачи