Evernote распознает изображения, которые вы сохраняете. Есть ли способ получить полнотекстовый эквивалент изображения в Evernote или OCR предназначен только для поиска?
6 ответов
Evernote API имеет функции для получения текста и прямоугольника, где этот текст присутствует внутри изображения. См. Http://evernote.com/about/developer/api/evernote-api.htm, ознакомьтесь с «XML-форматом индекса распознавания Evernote» и функциями для его получения. Проблема в том, что они не выполняют традиционное распознавание текста ... их алгоритм распознавания может создавать разные слова для одного "слова" на изображении. Все, что они используют - это поиск, так что это хорошо для них, но не подходит для использования в качестве механизма распознавания. (Хотя они дают вам вес для каждого альтернативного слова, так что, возможно, вы можете использовать это)
Кроме того, Evernote, по-видимому, не решает, что конкретное изображение эквивалентно ровно одному слову - например, Evernote не определяет, что конкретное изображение является "ключом" и не "должным образом". Скорее, он будет отслеживать оба, и поиск любого из них вернет одно и то же изображение. Следовательно, нет никакого способа получить полнотекстовый эквивалент, потому что Evernote не решает, что на самом деле представляет собой полный текст, а только то, каким он может быть.
evernote платит приличную сумму создателю ocr-материала ИЛИ платит приличную сумму за совместную работу. таким образом, я действительно сомневаюсь, что они позволят вам получить извлеченный текст (+ позиционирование на изображении).
(может быть бизнес-модель, чтобы сканировать изображения других людей и обеспечить хороший ocr :))
Итак, ответ: нет.
Я не уверен, какая изощренность вам нужна, но так как я также использую Adobe Acrobat, я просто щелкаю правой кнопкой мыши на своем вложении Evernote, чтобы открыть его с помощью Acrobat.
Затем в Acrobat я выбираю «Документ | Распознавание текста», затем сохраняю документ в виде обычного текста.
Это хорошо работает для меня, так как мне нужно только случайное преобразование OCR.
Если бы вы могли получить все изображения из Evernote, вы могли бы сделать OCR с Google Docs.
Вы можете загрузить папку изображений в Документы Google и преобразовать их в Документы, которые будут содержать как изображение, так и текст OCRed.
Затем вы можете пакетно загрузить все эти документы в виде обычного текста, который вычеркнет изображение.
Если вы называете все изображения Evernote с помощью хэша (например, md5
), должно быть легко связать простые текстовые файлы, загруженные из Документов Google, с исходным изображением.
Я нахожусь на Windows и использую Adobe Acrobat Pro и Word, поэтому я делаю следующее:
- если файл не сохранен в формате JPG, щелкните значок глазного яблока в верхнем левом углу изображения в Evernote, чтобы открыть его в Photo Viewer, и выберите "Файл"> "Сделать копию", чтобы сохранить его в формате JPG.
- перейдите к файлу изображения в проводнике
- щелкните его правой кнопкой мыши и выберите "Преобразовать в Adobe PDF" (файл откроется в Acrobat)
- нажмите "Файл"> "Сохранить как" и выберите "Расширенный текстовый формат" в раскрывающемся списке "Сохранить как тип", чтобы сохранить его в виде расширенного текстового файла (обработка файла занимает минуту)
- найдите файл RTF в Проводнике и дважды щелкните, чтобы открыть в Word
- редактировать при необходимости