Мы создаем гибридный сайт, который извлекает информацию из многих источников по всей сети. Многие из этих сайтов не предоставляют RSS-каналы или API для доступа к информации, которую они предоставляют. Это оставляет нам использование скриншота в качестве метода сбора данных.
Существует множество инструментов сценариев, написанных на разных языках сценариев для очистки экрана, которые требуют написания сценариев очистки на языке, на котором был написан скребок. Scrapy, scrAPI и scrubyt - это несколько написанных на Ruby и Python.
Есть и другие веб-инструменты, которые я видел, например, Dapper, которые создают XML или RSS-каналы на основе веб-страницы. Он имеет красивый веб-интерфейс, который не требует навыков написания сценариев. Это было бы отличным инструментом, если бы он мог проходить по нескольким страницам для сбора данных из сотен страниц результатов.
Нам нужно что-то, что будет собирать информацию с разбитых на страницы веб-сайтов, подобно scrubyt, но с пользовательским интерфейсом, который может использовать непрограммист. Мы напишем наше собственное решение, если потребуется, возможно, используя scrubyt, но если есть лучшее решение, мы хотим его использовать. Существует ли что-нибудь подобное?