Мне интересно, есть ли способ разделить отсканированную копию страницы (то есть изображение) на изображения составляющих ее слов. Сканируемая книга написана на индийском языке, для которого OCR (оптическое распознавание символов) не будет работать.
Цель состоит в том, чтобы иметь цифровую версию книги (на том же языке), и для этого я подумал сделать следующее:
- отсканировать книгу
- разделить содержимое страницы на составляющие слова
- отправьте изображения слов транскриберам, которые могут напечатать слово на изображении
- собрать слова на каждой странице
Поскольку сопоставление изображения с изображением является достаточно хорошим, изображения одного и того же слова могут быть идентифицированы, и, таким образом, не нужно будет транскрибировать повторно.
Любая помощь будет отличной!