Лекторы университетов часто имеют свои собственные веб-страницы в университетской области и обмениваются ресурсами там. Если профессора зовут Джон Смит, то его веб-сайт может быть harvard.edu/~jsmith.
Я хочу найти все такие страницы на данном веб-сайте, т.е. все страницы, которые выглядят как website.edu/~[some_string] - обратите внимание на тильду. Причина в том, что я ищу некоторые ресурсы, которые, как я знаю, есть, но я не знаю имени человека, который поделился им.
Я уже попробовал:
Поиск Гугл. Не очень эффективно, так как однажды я случайно наткнулся на что-то, что искал, но это было по гиперссылке на другой веб-странице в этом домене, и Google не возвращал это, когда я искал это до этого - возможно, это вообще не проиндексировано, не уверен об этом.
Используя сайт модификатора поиска Google:«websitename.edu/~», но это не сработало - я ожидал этого, так как этот модификатор принимает только точку в качестве разделителя.
Теоретически, я предполагаю, что можно было бы попытаться получить доступ ко всем возможным веб-сайтам в форме website.edu/~[string], где [string] - некоторая последовательность символов, и попробовать все возможности вплоть до некоторого ограничения на количество символов, и сохранить эти ссылки. которые не возвращают сообщение об ошибке. Но должен быть какой-то более простой способ.
Есть ли у вас какие-либо идеи?