5

После ручной очистки результатов поиска Google с помощью легального подключаемого модуля Chrome у меня появляется следующая информация (только для двух результатов поиска):

The History Teacher (@THTjournal) | Twitter
https://twitter.com/thtjournal  https://twitter.com/thtjournal
Vertaal deze pagina https://translate.google.nl/translate?hl=nl&sl=en&u=https://twitter.com/thtjournal&prev=search
Jim Carroll (@jcarrollhistory) | Twitter
https://twitter.com/jcarrollhistory https://twitter.com/jcarrollhistory
Vertaal deze pagina https://translate.google.nl/translate?hl=nl&sl=en&u=https://twitter.com/jcarrollhistory&prev=search

Моя цель состоит в том, чтобы создать список с URL-адресами в Twitter, например:

https://twitter.com/thtjournal

https://twitter.com/jcarrollhistory

У меня есть Блокнот ++, так как я могу использовать его, чтобы получить список только с URL-адресами? Все остальное должно быть удалено.

2 ответа2

3
  • Ctrl+H
  • Найти что: ^.*?(\bhttps://twitter\.com/\w+)?.*$
  • Заменить на: (?1$1:)
  • проверить обернуть
  • проверьте регулярное выражение
  • НЕ ПРОВЕРИТЬ . matches newline
  • Заменить все

Объяснение:

^                           # beginning of line
  .*?                       # 0 or more any character but newline, not greedy
  (                         # start grpup 1
    \b                      # word boundary
    https://twitter\.com/   # literally
    \w+                     # 1 or more word character
  )?                        # end group, optional
  .*                        # 0 or more any character but newline
$                           # end of line

Замена:

(?1$1:)         # if group 1 exists, then use it as replacement, else replace with nothing

Результат для данного примера:

https://twitter.com/thtjournal


https://twitter.com/jcarrollhistory
2

Предположим, что у вас есть выражение регулярного выражения, которое определяет URL, и давайте назовем его регулярным выражением.

Используйте в Блокноте ++ диалоговое окно «Найти» на вкладке «Заменить», чтобы заменить все регулярные выражения на \n$1\n . Это разделит все URL-адреса на строки, которые содержат только URL-адрес, перемежающийся строками мусора.

Снова в диалоговом окне «Найти» на вкладке «Отметить» отметьте все строки, содержащие регулярное выражение, с помощью параметра « Закладка строки» с помощью операции « Отметить все» .

Наконец, в меню « Поиск => Закладка» выберите параметр « Удалить незаблокированные строки».

Хорошее выражение регулярных выражений для URL смотрите в этом посте:
Какое регулярное выражение лучше всего проверить, является ли строка допустимым URL-адресом? ,

Для получения дополнительной информации и скриншотов см. Эту статью для аналогичного случая:
Notepad++, как извлечь адреса электронной почты из файла.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .