Боюсь, что вы ищете что-то чрезвычайно сложное и вряд ли будет надежным, даже если это можно найти.
Я думаю, что лучшее, на что вы могли бы надеяться, это использовать Microsoft OneNote (часть Office) или Evernote (имеет бесплатную версию).
Они оба способны распознавать изображения в заметках - в фоновом режиме - оставляя любой обнаруженный текст доступным для поиска. Я не уверен, что они будут брать заголовок заметки из текста, хотя они могут, если вы убедитесь, что в заметке нет другого текста. Дай им попробовать.
Имейте в виду, что распознавание даже хорошо отсканированных типизированных или набранных документов далеко не надежно, и даже в этом случае знание того, что представляет собой заголовок, хотя его легко анализировать людям, является очень сложной задачей для компьютера.
ОБНОВЛЕНИЕ: Сложность проистекает из ряда вещей.
Распознавание изображения в текст достаточно сложно для машины. В языке так много сложностей, что очень трудно выделить смысл из изображения, даже когда это изображение набрано. Даже набранные символы сильно различаются, особенно при сканировании из-за ограничений сканирования, изменений угла, нечеткого или иным образом поврежденного исходного текста (например, сгиба на бумаге) и так далее.
Во-вторых, что такое заголовок? Очевидно, вы могли бы подумать - что-то большего размера, чем "среднее" в верхней части страницы? Как система определяет средний размер шрифта? Само по себе значительное задание, так как для этого нужно "разобрать" весь скан. Тогда есть много комбинаций макета - какие из них должен попытаться распознать машину? Возьмем, к примеру, средний бизнес-отчет, он может содержать несколько текстовых элементов, похожих на заголовки.
Каждый из этих этапов обработки займет значительное время даже на современном ПК и потребует больших объемов обработки данных: очистите изображение, выровняйте изображение (распознавая края и "строки" текста), выберите стили шрифта, чтобы понять, что это текст, а что нет, попытка распознать текст (возможно, применяя правила орфографии и грамматики), определить размеры и средний размер шрифта, определить повторяющиеся элементы (верхние / нижние колонтитулы), которые следует игнорировать, попытаться определить более крупный текст в начале документа , Угадайте заголовок, проверьте, является ли оно действительным именем файла для платформы, измените, если нет, убедитесь, что имя уникально и не используется. Уф!
В лучшем случае большинство инструментов OCR стремятся обеспечить точность около 90% от стандартного сканирования с чистыми документами с прямой подачей. Хотите ли вы иметь 90% документов с точным названием? Это может быть хорошо для вас, но будут ли клиенты продукта терпеть это? После всех разработок риск будет стоить того для продавцов?
Я не знаю ответов на эти вопросы. Я вижу, что это может быть отличной функцией, но я не знаю, что кто-то предлагает это (я также сделал быструю проверку через Google).
Было бы проще, если бы все ваши документы имели одинаковый макет. Тогда вы можете использовать "зонирование", то, что предлагает большинство лучших инструментов, и взять соответствующую зону в качестве основы для имени файла. Это было бы более (но не полностью) надежно. Возможно, вам следует узнать у некоторых поставщиков, заинтересованы ли они в этом.