1

У меня есть огромный список URL-адресов. Это выглядит примерно так:

www.example.com/api/users/1.json
www.example.com/api/users/2.json
www.example.com/api/users/3.json

И продолжается около 400 000 раз. Цель состоит в том, чтобы найти определенную строку текста на всех страницах. Кто-нибудь знает, как мне поступить?

1 ответ1

0

У меня нет опыта работы с этим проектом, но, покинув, я нашел такой, который называется Scrapy. Он написан на Python и обсуждается в нескольких местах, например:

2-я ссылка выше также показывает этот пример:

from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class ElectronicsSpider(CrawlSpider):
    name = "electronics"
    allowed_domains = ["www.olx.com.pk"]
    start_urls = [
        'https://www.olx.com.pk/computers-accessories/',
        'https://www.olx.com.pk/tv-video-audio/',
        'https://www.olx.com.pk/games-entertainment/'
    ]

    rules = (
        Rule(LinkExtractor(allow=(), restrict_css=('.pageNextPrev',)),
             callback="parse_item",
             follow=True),)

    def parse_item(self, response):
        print('Processing..' + response.url)

Вы можете изменить вышеупомянутое, чтобы включить все ваши URL-адреса или поместить их в отдельный файл, и прочитать этот файл через Python.

На вашем месте я бы начал с 3-й ссылки, quotesbot, поскольку этот проект звучит очень похоже на то, чего вы в конечном итоге пытаетесь достичь.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .