У меня нет опыта работы с этим проектом, но, покинув, я нашел такой, который называется Scrapy. Он написан на Python и обсуждается в нескольких местах, например:
2-я ссылка выше также показывает этот пример:
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class ElectronicsSpider(CrawlSpider):
name = "electronics"
allowed_domains = ["www.olx.com.pk"]
start_urls = [
'https://www.olx.com.pk/computers-accessories/',
'https://www.olx.com.pk/tv-video-audio/',
'https://www.olx.com.pk/games-entertainment/'
]
rules = (
Rule(LinkExtractor(allow=(), restrict_css=('.pageNextPrev',)),
callback="parse_item",
follow=True),)
def parse_item(self, response):
print('Processing..' + response.url)
Вы можете изменить вышеупомянутое, чтобы включить все ваши URL-адреса или поместить их в отдельный файл, и прочитать этот файл через Python.
На вашем месте я бы начал с 3-й ссылки, quotesbot, поскольку этот проект звучит очень похоже на то, чего вы в конечном итоге пытаетесь достичь.