Документы Google в настоящее время тестируют новую функцию API, которая использует оптическое распознавание символов (OCR) для изображений и PDF-файлов.
Из операционной системы Google:
Google Docs API тестирует новую функцию, которая позволяет выполнять оптическое распознавание символов на изображении.
Демонстрация этой функции демонстрируется в режиме реального времени: вы можете загрузить изображение в формате JPG, GIF или PNG с высоким разрешением менее 10 МБ, а Документы Google извлекут текст и преобразуют его в новый документ. Google упоминает, что «в настоящее время операция может занимать до 40 секунд», а небольшой тест показал, что служба еще не надежна: она медленная и часто возвращает ошибки.

Результаты далеки от идеальных, и вы найдете много ошибок, но сервис бесплатный и постоянно совершенствуется. Вот результат распознавания для этого отсканированного документа:

Редактировать: Упс! Кряк напомнил мне, что я забыл последний шаг! Документ Google Docs можно экспортировать в различных форматах, включая HTML, OpenOffice и Word:
