У меня есть файл «source.txt», который содержит список некоторых URL. Например:
source.txt:
http://www.amazon.com/gp/product/B007OZNZG0/ref=s9_pop_gw_g349_ir05/176-5131847-6150405?pf_rd_m=ATVPDKIKX0DER&pf_rd_s=center-2&pf_rd_r=02R1PYSDAPM8P0XF7HXW&pf_rd_t=101&pf_rd_p=1263340922&pf_rd_i=507846
http://www.amazon.com/gp/product/B0083PWAPW/ref=s9_pop_gw_g424_ir04/176-5131847-6150405?pf_rd_m=ATVPDKIKX0DER&pf_rd_s=center-2&pf_rd_r=02R1PYSDAPM8P0XF7HXW&pf_rd_t=101&pf_rd_p=1263340922&pf_rd_i=507846
Я хочу получить каждую ссылку внутри «source.txt», выполнить поиск по html каждой из них и извлечь из них все ссылки, содержащие «/gp/product», а затем сохранить их в файле «extract.txt», который будет похож на :
extracted.txt:
http://www.amazon.com/gp/product/B008GFRB9E/ref=fs_j
http://www.amazon.com/gp/product/B008GFUA4C/ref=fs_2
...
Я использую Windows 7 (64-разрядная версия) и Cygwin, поэтому я также могу запускать команды Linux.