В настоящее время я работаю над исследованием контента Stack Exchange и пытаюсь найти эффективный способ перенести контент в мою CAQDAS. Я использую CAQDAS - это DeDoose.
Моя проблема в том, что поддержка HTML довольно скудная, она не поддерживает форматирование, поэтому это беспорядок. Я пробовал различные варианты, такие как Печать в формате PDF (но поддержка PDF тоже довольно плохая). Поэтому я хочу превратить его в форматированный текст.
У меня есть тысячи страниц для лечения. Я проверил расширение Chrome под названием ReaderView. Это делает довольно хорошую работу, но удаляет некоторые вещи, которые мне нужны, такие как форматирование и пользовательская информация. В настоящее время лучшим вариантом, который я могу придумать своими навыками, является копирование HTML-кода каждой страницы в InDesign и создание сценария с использованием GREP, чтобы избавиться от ненужных мне вещей.
Моим приложением мечты был бы редактор HTML, где я мог бы просто снять все ненужные элементы HTML/CSS и экспортировать их как RTF или что-то в этом роде ...
Кто-нибудь из вас знает лучший способ сделать это?
Это выглядит как хороший пример, но я совсем не разбираюсь в Python ...