2

Я пытался использовать комбинацию

  • мой домашний сканер для создания документов «300 точек на дюйм», «документ», «pdf» (параметры Canon all-in-one)
  • ZoHoViewer для создания файла RTF или TXT
  • Google Документы для перевода

Я не уверен, насколько хорош или плох продукт ZoHoViewer, но следующее:

Als Arbeitsmarkbehörde haben wir den gesetzlichen Auftrag, die Vermittelbarkeit von

превращается в:

AlsArbeitsmarktbeh6rde habenwirdengesetzlichenAuftrag, dieVermittelbarkeit vonSt ...

следовательно, goog docs делает завтрак свиньи, пытаясь перевести его.

У кого-нибудь есть лучшие предложения (желательно бесплатные онлайн-сервисы)

3 ответа3

5

На SuperUser было несколько других вопросов о OCR, которые, возможно, стоит проверить на предмет возможных решений.

В частности, этот ответ Молли выглядит многообещающе:

Мне действительно нравится TopOCR, безусловно, отличное дополнение к вашим средствам сканирования:

  • Невероятная точность распознавания, до 99,8% с 3 Мп камерой
  • Нет ограничений на количество страниц, не требуются дополнительные загрузки или компоненты
  • Обрабатывает изображения со смешанным текстом и графикой (ручное или автоматическое зонирование)
  • Выдерживает перекос и неравномерное освещение
  • Несколько форматов вывода текста, включая PDF и HTML с возможностью поиска
  • Умеет читать 11 разных языков
  • Мощная, простая в использовании обработка изображений с искажением изображения
  • Поддерживает смартфоны: см. Некоторые образцы смартфонов
  • Включает встроенные полнофункциональные текстовые и графические редакторы WYSIWYG
  • Проверка орфографии пост-обработки для всех 11 языков
  • Встроенное программное обеспечение Text-To-Speech. Как насчет OCR в MP3?
  • Включает встроенный многоязычный текстовый переводчик
  • Поддерживает интерфейс командной строки и графический интерфейс
  • Создание высокопроизводительной системы поиска и индексации документов
  • Browser Helper Mode поддерживает создание бесплатных аудио книг
  • С WebOC Engine TopOCR легко добавлять новые функции

альтернативный текст

это очень точно и отлично работает с изображениями низкого качества, такими как фотографии страниц / документов

TopOCR является бесплатным (может быть сделан переносимым с помощью Universal Extractor)

Дальнейшее чтение:

Какое программное обеспечение для распознавания текста имеет больше всего вариантов?

Практическое решение для оптического распознавания текста для преобразования большой книги в цифровой формат?

Как извлечь текст с помощью OCR из PDF в Linux?

4

Учитывая, что OCR преобразовал:

Als Arbeitsmarkbehörde ...

чтобы:

AlsArbeitsmarktbeh6rde ...

На ум приходит пара вещей.

  1. Попробуйте сканировать с более высоким разрешением. Похоже, что он не может распознать пробел между словами, более высокое значение dpi может улучшить это.

  2. Вы можете установить язык своей программы OCR? Я вижу, что это преобразовало "ö" в "6". Хотя это может быть проблемой, вызванной разрешением, может также оказаться, что, поскольку "ö" не является повседневной частью английского языка, программа выбирает "следующую наилучшую" подборку - в данном случае "6".

0

Не на 100% идеально, но лучшее из всего, что я пробовал:

http://www.paperfile.net/ в сочетании с языковым пакетом (бесплатно загружать инструкции в приложении) скопируйте и вставьте весь текст в документ Google, затем используйте инструменты> перевести в документах Google

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .