Я хочу очистить папки с закладками, избавившись от дубликатов / ссылок. я создал программу, которая будет импортировать 2 текстовых файла, которые содержат URL-адрес, как это

Файл 1:

http://www.google/com
http://anime.stackexchange.com/
https://www.fanfiction.net/guidelines/
https://www.fanfiction.net/anime/Magical-Girl-Lyrical-Nanoha/?&srt=1&g1=2&lan=1&r=103&s=2

Файл 2:

http://scifi.stackexchange.com/
http://scifi.stackexchange.com/questions/56142/why-didnt-dumbledore-just-hunt-voldemort-down
http://anime.stackexchange.com/
http://scifi.stackexchange.com/questions/5650/how-can-the-doctor-be-poisoned

Программа сравнивает 2 списка и создает один основной список с удаленными дублирующимися URL-адресами.

Теперь у меня есть несколько папок закладок Backup в Firefox, которые иногда я добавляю в закладки всех вкладок в новую папку с датой резервной копии, прежде чем закрыть вкладки или перезагрузить компьютер. каждая папка может содержать от 1000 до 2000 закладок, иногда есть куча страниц, которые продолжают добавляться в закладки, то есть у меня есть ~ 50 страниц в Wiki Magical Girl Lyrical Nanoha с различными заклинаниями, персонажами и терминологией, к которым я обычно обращаюсь.

Я хотел бы знать, как я могу экспортировать папку с закладками, чтобы у меня был список URL, аналогичный тому, который я использую в своей программе

1 ответ1

2

Лучший способ, о котором я могу подумать, - это использовать функцию экспорта, которая будет экспортировать ваши закладки в html-файл, а затем использовать grep для извлечения URL-адресов в текстовый файл.

Вы можете попробовать что-то вроде ...

find * -exec cat {} \; | grep http | grep -shoP 'http.*?[" >]' > output.txt

Который будет искать все файлы в каталоге и выводить в текстовый файл или

cat bookmark.html | grep http | grep -shoP 'http.*?[" >]' > output.txt

Который будет искать конкретный файл (в данном случае bookmark.html) для URL-адресов и затем выводить в текстовый файл.

Но есть много других способов достичь желаемого - это только один пример.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .