Как вы указываете wget рекурсивно сканировать веб-сайт и загружать только определенные типы изображений?
Я попытался использовать это для сканирования сайта и загрузки только изображений в формате JPEG:
wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html
Однако, несмотря на то, что page1.html содержит сотни ссылок на подстраницы, которые сами имеют прямые ссылки на изображения, wget сообщает о таких вещах, как «Удаление subpage13.html, поскольку оно должно быть отклонено», и никогда не загружает изображения, поскольку ни одно из них не имеет прямой ссылки на со стартовой страницы.
Я предполагаю, что это потому, что мой --accept используется для направления сканирования и фильтрации содержимого для загрузки, тогда как я хочу, чтобы он использовался только для направления загрузки содержимого. Как я могу заставить wget сканировать все ссылки, но загружать только файлы с определенными расширениями, такими как * .jpeg?
РЕДАКТИРОВАТЬ: Кроме того, некоторые страницы являются динамическими и генерируются с помощью сценария CGI (например, img.cgi?fo9s0f989wefw90e). Даже если я добавлю cgi в свой список принятия (например, --accept = jpg, jpeg, html, cgi), они все равно будут отклонены. Это можно обойти?