Я пытаюсь придумать список возможных имен для нашего следующего мальчика и просматривал сайт IndiaParenting. У каждого имени на сайте есть страница с подробной информацией по URL-адресу, подобному этому http://www.indiaparenting.com/babynames/meaning-of-Aadesh.shtml
. Мне бы хотелось, чтобы имя было похоже на нашего первенца, и я пытаюсь сделать следующее:
- WGET все страницы сайта, содержащие «значение», в одну папку на моем жестком диске, например
wget -nc -c -nd -r -l1 -k http://www.indiaparenting.com/babynames/hindu-boy-names.php -A "meaning-of*" -I /babynames
- Сделайте что-то вроде
dir > filenames.txt
чтобы поместить все в один текстовый файл. - Разобрать сгенерированный файл для конкретного регулярного выражения, чтобы найти возможные имена. Первого сына зовут Ранвир, и мы ищем имена, начинающиеся с N или R, поэтому регулярное выражение, вероятно, выглядит примерно так:
[NR][aeiou][^aeiou][^aeiou][aeiou]{2}[^aeiou]
. - Вручную пройдите окончательный список с мадам и выберите имя!
У меня проблема с Wget. Страница создается с помощью PHP, а внизу находится навигатор страниц, который не ссылается на URL другой страницы, как обычно:
Я посмотрел и нашел функцию paging JS:
function pagingFunction(labelName){
vpage = document.getElementById("pageNum");
pageNm = labelName;
vpage.value = pageNm;
document.getElementById("frmPaging").submit();
}
Вопрос: я думал, что рекурсивное WGETting страницы будет идти постранично, но это не так. Есть ли способ справиться с этим с помощью WGET? Если нет, есть ли другой вариант?
Другая информация: я думал о создании списка на основе регулярного выражения, но он был бы слишком длинным и в любом случае имел бы слишком много недопустимых имен, поэтому я хотел бы основывать его на реальных именах с одного из этих сайтов имен детей. Я также собираюсь связаться с сайтом, чтобы узнать, могут ли они просто выполнить запрос к своей БД и поместить имена в файл для меня, а если ничего не помогает, есть другие сайты, чтобы проверить.