3

Мы создаем гибридный сайт, который извлекает информацию из многих источников по всей сети. Многие из этих сайтов не предоставляют RSS-каналы или API для доступа к информации, которую они предоставляют. Это оставляет нам использование скриншота в качестве метода сбора данных.

Существует множество инструментов сценариев, написанных на разных языках сценариев для очистки экрана, которые требуют написания сценариев очистки на языке, на котором был написан скребок. Scrapy, scrAPI и scrubyt - это несколько написанных на Ruby и Python.

Есть и другие веб-инструменты, которые я видел, например, Dapper, которые создают XML или RSS-каналы на основе веб-страницы. Он имеет красивый веб-интерфейс, который не требует навыков написания сценариев. Это было бы отличным инструментом, если бы он мог проходить по нескольким страницам для сбора данных из сотен страниц результатов.

Нам нужно что-то, что будет собирать информацию с разбитых на страницы веб-сайтов, подобно scrubyt, но с пользовательским интерфейсом, который может использовать непрограммист. Мы напишем наше собственное решение, если потребуется, возможно, используя scrubyt, но если есть лучшее решение, мы хотим его использовать. Существует ли что-нибудь подобное?

4 ответа4

2

Yahoo Pipes приходит на ум, его легко использовать для не программиста, хотя вы должны действительно изучить регулярные выражения, чтобы получить его полный потенциал.

1

Scrapinghub (от создателей Scrapy) предлагает платную услугу для непрограммистов, похожих на Mozenda.

1

Я использовал iMacros для очистки данных с веб-сайтов. Он может использоваться кем-то, у кого нет опыта программирования, и с некоторыми базовыми навыками программирования вы можете значительно расширить его возможности. Вот учебник.

iMacros особенно полезен, если вам нужно выполнить какое-то действие для извлечения данных. Он может нажимать на кнопки, перемещаться по вспышке, выбирать из меню, заполнять формы и т.д.

Есть также Scraperwiki, который требует навыков программирования. Непрограммисты могут платить за помощь.

Надеюсь, Datatracker скоро выйдет. Он нацелен именно на такую работу, но для пользователей без каких-либо навыков программирования.

0

Эта статья в Википедии содержит много информации на эту тему, включая список из 15 поисковых роботов с открытым исходным кодом:

Веб-сканер

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .