Я пытаюсь очистить 1265 html-файлов за раз, чтобы получить названия и описания предметов, которые есть у меня на сайте.
У меня есть разрешение от оптовика на копирование этих данных, но я не хочу тратить дни только на то, чтобы получить описания, так есть ли способ очистить данные в следующем формате?

    <h1 class="CWproductName">ADINA BLACK TV UNIT</h1>

а также

    <div id="CWproductInfo">


 <br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
                <p class="CWcontShop">

что я хочу сделать, это скопировать информацию между

  <div id="CWproductInfo"> and <p class="CWcontShop">

так что я остался с

    <h1 class="CWproductName">ADINA BLACK TV UNIT</h1>

  <br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />

но с нескольких страниц одновременно, даже лучше, если он может быть вставлен в электронную таблицу

1 ответ1

1

Я бы попробовал для этого надстройку Power Query - она может перебирать страницы веб-сайта и извлекать из них данные, если страницы и их URL-адреса совпадают.

Вот пример:

http://kzhendev.wordpress.com/2014/04/14/scraping-the-web-with-power-query/

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .