Я ищу способ конвертировать папку, полную HTML-файлов, в обычный текст. Я хочу, чтобы текстовые файлы были максимально похожи на то, что я получил бы, если бы выделил весь текст в веб-браузере, скопировал его и вставил текст в простой текстовый файл.
НЕТ, ДЕЙСТВИТЕЛЬНО, Я ХОЧУ НЕФОРМАТИВНЫЙ ПРОСТАЙТЕ ТЕКСТ. Все решения, которые я нахожу, производят Markdown или что-то похожее на него, или пытается сохранить макет, или использует звездочки и подчеркивания для обозначения форматирования текста, или сохраняет содержимое скриптов в выходном файле, или какую-то умную чертову штуку ,
Все, что я хочу, это слова, написанные автором в том порядке, в котором автор их написал. Меня даже не волнует, преобразует ли обработка все элементы списка в один абзац или даже сворачивает весь документ в один абзац. Все это намного лучше, чем давать мне что-либо, кроме языка, который содержится в документе.
Я бы хотел терминальное приложение или скрипт Python, но я возьму все, что смогу получить.