У меня есть это меню в почти 2000 файлов HTML. Каждая ссылка имеет номер в квадратных скобках в финале (это число соответствует номерам статей, которые у меня есть в этом разделе).

<li><a href="link_one.html" title="Link One">Love and Letters (25)</a></li>
<li><a href="link_two.html" title="Link Two">Books and Readers (23)</a></li>
<li><a href="link_3.html" title="Link 3">Windows and Doors (24)</a></li>
<li><a href="link_4.html" title="Link 4">Names and Addresses (5)</a></li>
<li><a href="link_5.html" title="Link 5">Other Stuff (14)</a></li>
<li><a href="link_6.html" title="Link 6">Cars and Roses (14)</a></li>
<li><a href="link_7.html" title="Link 7">Mobile and Laptop (36)</a></li>

Теперь я должен проверить, есть ли другие номера, отличные от этих, во всех HTML-файлах меню 2.000. Например, я хочу найти те страницы .html, которые имеют разные номера, на первой (26) или на 5 (13) ссылке, как в этом меню:

<li><a href="link_one.html" title="Link One">Love and Letters (26)</a></li>
<li><a href="link_two.html" title="Link Two">Books and Readers (23)</a></li>
<li><a href="link_3.html" title="Link 3">Windows and Doors (24)</a></li>
<li><a href="link_4.html" title="Link 4">Names and Addresses (5)</a></li>
<li><a href="link_5.html" title="Link 5">Other Stuff (13)</a></li>
<li><a href="link_6.html" title="Link 6">Cars and Roses (14)</a></li>
<li><a href="link_7.html" title="Link 7">Mobile and Laptop (36)</a></li>

По сути, мне нужно сравнить и обнаружить цифры, которые не совпадают с теми, что указаны в первом меню. Кто-нибудь может дать мне идею? Помните, у меня есть 2.000 файлов, поэтому я могу сравнить один за другим :(

2 ответа2

1

Обработка 2000 файлов вручную будет непрактичной, поэтому я искал способы сделать это автоматически и нашел этот сайт, который утверждает, что объединяет несколько файлов Excel в один. Я попытался и мог объединить 2 файла, которые я затем скачал в свою коробку. так что я думаю, что они могут это сделать.

http://www.docsoso.com/excel/combine-excel.aspx

Нет гарантии с моей стороны. Я погуглил до этого и попытался.

загрузить свои 2000 файлов Excel (вы можете загрузить много файлов за один раз) на сайт и получить один файл Excel. Если сайт не допускает столько файлов за один раз, по крайней мере, объедините столько файлов, сколько позволяет сайт, чтобы у вас осталось 5 или 10 файлов, которые по-прежнему можно обрабатывать вручную.

После того, как был создан один файл, ссылки, которые вы даете выше, должны быть в столбце А.

Откройте файл и выберите все данные в столбце A и сортируйте

Выберите все данные в столбце A, перейдите в Меню - Данные - нажмите Удалить дубликаты.

Он удалит все повторяющиеся записи, то есть записи из разных файлов с одинаковым номером статьи.

У вас остались только те строки, которые имеют разное количество статей.

0

Я нахожу ответ с помощью регулярных выражений. Чтобы проверить формулу ниже, сравните эти 2 меню в моем основном посте. Это регулярное выражение выберет все строки во втором меню, номера которых не совпадают с номерами в первом меню.

ПОИСК:

\s+<li><a href=".*\.html" title=".*">.* (?:(?!\b(25|23|24|5|14|14|36)\b).)*<\/a><\/li>$

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .