Программное обеспечение для очистки экрана, которое будет проходить по страницам

Question

Мы создаем гибридный сайт, который извлекает информацию из многих источников по всей сети. Многие из этих сайтов не предоставляют RSS-каналы или API для доступа к информации, которую они предоставляют. Это оставляет нам использование скриншота в качестве метода сбора данных.

Существует множество инструментов сценариев, написанных на разных языках сценариев для очистки экрана, которые требуют написания сценариев очистки на языке, на котором был написан скребок. Scrapy, scrAPI и scrubyt - это несколько написанных на Ruby и Python.

Есть и другие веб-инструменты, которые я видел, например, Dapper, которые создают XML или RSS-каналы на основе веб-страницы. Он имеет красивый веб-интерфейс, который не требует навыков написания сценариев. Это было бы отличным инструментом, если бы он мог проходить по нескольким страницам для сбора данных из сотен страниц результатов.

Нам нужно что-то, что будет собирать информацию с разбитых на страницы веб-сайтов, подобно scrubyt, но с пользовательским интерфейсом, который может использовать непрограммист. Мы напишем наше собственное решение, если потребуется, возможно, используя scrubyt, но если есть лучшее решение, мы хотим его использовать. Существует ли что-нибудь подобное?

score 2 · Answer 1 · 2011-03-09T19:38:42

Yahoo Pipes приходит на ум, его легко использовать для не программиста, хотя вы должны действительно изучить регулярные выражения, чтобы получить его полный потенциал.

score 1 · Answer 2 · 2011-03-09T19:38:42

Scrapinghub (от создателей Scrapy) предлагает платную услугу для непрограммистов, похожих на Mozenda.

score 1 · Answer 3 · 2011-03-09T19:38:42

Я использовал iMacros для очистки данных с веб-сайтов. Он может использоваться кем-то, у кого нет опыта программирования, и с некоторыми базовыми навыками программирования вы можете значительно расширить его возможности. Вот учебник.

iMacros особенно полезен, если вам нужно выполнить какое-то действие для извлечения данных. Он может нажимать на кнопки, перемещаться по вспышке, выбирать из меню, заполнять формы и т.д.

Есть также Scraperwiki, который требует навыков программирования. Непрограммисты могут платить за помощь.

Надеюсь, Datatracker скоро выйдет. Он нацелен именно на такую работу, но для пользователей без каких-либо навыков программирования.

score 0 · Answer 4 · 2011-03-09T19:38:42

Эта статья в Википедии содержит много информации на эту тему, включая список из 15 поисковых роботов с открытым исходным кодом:

Веб-сканер

Сейчас выбран русский

Программное обеспечение для очистки экрана, которое будет проходить по страницам

4 ответа4

Всё ещё ищете ответ? Посмотрите другие вопросы с метками web.

Связанные

Программное обеспечение для очистки экрана, которое будет проходить по страницам

4 ответа4

Всё ещё ищете ответ? Посмотрите другие вопросы с метками web.

Связанные

Похожие