Иногда я нахожу сайты, которые публикуют контент (файлы) в виде ссылок на JavaScript. В тех случаях, когда ссылки публикуются с использованием традиционной конструкции <a href="...">
, можно легко проанализировать HTML-код, найти ссылку и загрузить контент. Даже такие приложения, как Acrobat, способны справиться с этим и создать PDF-файл соответствующей области сайта.
Не так с ссылками на JavaScript.
Вот пример сайта, который имеет контент (публичный доступ, логин или пароль не требуется), но использует ссылки на JavaScript.
Как можно загрузить файлы PDF здесь программно?
http://www.oml.ago.state.ma.us/
Есть вкладки для каждого года, возьмите эту на 2013 год.
http://www.oml.ago.state.ma.us/Default.aspx?sectionYear=1&year=2013
Здесь есть несколько сотен ссылок, но если не нажимать на каждую, я не могу найти способ найти цель и загрузить ее.