2

Я работаю над исследовательским проектом, который использует несколько баз данных, предоставленных частными компаниями. Мне нужно получить огромное количество информации из одной из этих баз данных, чтобы выполнить статистический тест информации. Проблема в том, что сайт не очень удобен для пользователя и позволяет мне загружать только 10 случаев (один лист) за раз (будет загружено около 25 000 листов ...). Какие-либо предложения?

Это то, что я пробовал до сих пор:- DownThemAll (приложение для веб-браузера Firefox) позволяет мне получить 10 листов за один раз. Это здорово, но все еще далеко от того, что мне нужно. Проблема здесь в том, что мне нужно было бы нажать кнопку "Далее", чтобы увидеть количество следующих листов для загрузки - и DownThemAll не замечает, что он должен нажать эту кнопку и приступить к загрузке листов, перечисленных на этой странице, и продолжайте повторять процесс.

Был бы какой-нибудь язык программирования, который я мог бы использовать для следующих действий: выполнить цикл for, попросив его войти в базу данных, получить часть информации, выйти из системы, затем войти снова, получить больше информации, выйти из системы и т.д. пока я не получу всю информацию?


Обновить

Просто пишу, чтобы поблагодарить вас всех - у меня недостаточно представителя, чтобы проголосовать за ваши ответы - или просто оставить комментарий, поблагодарив за ваше время.

2 ответа2

0

Как указал slhck, вы можете сделать это практически на любом языке программирования общего назначения.

Однако обработка файлов cookie и других специфических действий браузера может потребовать дополнительной работы.

Существуют библиотеки, которые в какой-то степени пытаются эмулировать браузер, проверьте механизм http://wwwsearch.sourceforge.net/mechanize/ (python)

и curl http://curl.haxx.se/libcurl/, который имеет порты и привязки к нескольким языкам AFAIK.

Конечно, мы предполагаем, что вы можете / должны сделать это.

0

Вы можете попробовать рекурсивный загрузчик веб-сайтов, который поддерживает вход в систему, такой как Offline Explorer Pro (не бесплатно). Он позволяет вам использовать свой внутренний браузер для входа в систему и будет использовать полученный файл cookie для сканирования сайта. Обсуждение на форуме по этому вопросу.

Если бы существовало свободное программное обеспечение, которое делает это, я бы хотел знать.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .