У меня есть книга с нотами в формате PDF, из которой мне нужно извлечь текст. Мне не нужно извлекать музыкальные ноты или что-нибудь, только стихи текста.

Я не могу выделить одну строку текста отдельно - она всегда выделяет другие части страницы. Копирование всей страницы расставляет все по местам. Есть также дефисы между слогами, которые я хотел бы удалить.

Это первая песня в формате PDF:http://bradshawfamily.net/~samuel/zzz/34832_kek_h1.pdf

1 ответ1

1
  1. Моей первой мыслью было скопировать и вставить весь текст в notepad++ и выполнить некоторые действия регулярного выражения, чтобы отфильтровать только допустимые символы. Это не удалось, потому что после их вставки строки перепутались.

  2. Вторая мысль: используйте онлайн-распознавание текста, например, onlineocr.net или ocrconvert.com. Это было не так плохо, как я ожидал. Тем не менее, вы должны удалить некоторые неверные интерпретации


    Нажмите для полного примера

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .