У меня есть список известных авторов, для которых я пытаюсь найти данные, особенно их пол и национальность. Есть ли способ запросить это в командной строке? Например, curl something-magic.com 'Frances Burney' и можно ли найти хороший абзац, который я затем смогу найти для информации о поле и национальности? Или, еще лучше, что-то более структурированное, что я могу разобрать проще? Я на Linux, если это поможет.

1 ответ1

1

Если вам повезло, и ваш автор существует в вики И его / ее имя существует там только один раз (не однозначно), то вы можете использовать этот подход:

$ cat mywiki.sh

NAME=$(echo $@ | tr " " "_")

wget -O $NAME.html https://en.wikipedia.org/wiki/$NAME
lynx -dump $NAME.html > $NAME.txt
dataurl=$(awk 'sub(/.*www.\wikidata\.org/, "http://wikidata.org") {print; exit}' $NAME.txt)
lynx -dump -nolist $dataurl > $NAME.dat

Таким образом, у вас будет html-код страницы, txt с той же информацией, но без html-тэгов, и дата с содержит основные данные автора (и вики-страницу) в строках фактов. Другой сценарий фильтрации может быть написан для фильтрации этих файлов и записи таблицы csv/html, при открытии которой легко получить обзор того, что необходимо исследовать вручную.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .