Как я могу загрузить определенный набор базы данных Википедии? В частности, я заинтересован в загрузке всех статей, которые попадают под портал математики и, возможно, портал компьютерных наук. Как я могу это сделать?
4 ответа
Вы можете использовать программу под названием Kiwix, которая действительно проста в использовании.
РЕДАКТИРОВАТЬ
Википедия предоставляет инструмент для извлечения подмножества его контента. Вы можете найти "Математика" здесь, а затем экспортировать каждую статью в этой категории. Вы получите XML-файл, который вы можете просмотреть с помощью одного из перечисленных здесь инструментов.
Вы можете взять *-pages-articles.xml.bz2
с сайта резервных копий Викимедиа и обработать их с помощью WikiTaxi(скачать в левом верхнем углу). Инструмент импорта Wikitaxi создаст .taxi
(около 15 Гб для Википедии) из .bz2
. Этот файл будет использоваться программой WikiTaxi для поиска статей. Этот опыт очень похож на работу браузера:все статьи доступны на момент создания дампа, но без изображений.
Или вы можете использовать Kiwix быстрее для настройки, потому что база данных уже создана (но довольно старая), но WikiTaxi имеет то преимущество, что вы можете иметь последнее обновленное содержимое.
Вы можете использовать Media Wiki API.
перейдите на en.wikipedia.org на левой боковой панели, в разделе "Инструменты", нажмите "Специальные страницы".
На новой странице в разделе "Инструменты страницы" нажмите "Экспортировать страницы".
на новой странице введите название каждой категории, которую вы хотите. Например, введите математика (как показано на рисунке ниже) и нажмите Добавить.
Затем вы должны установить Mediawiki и перейти по аналогичному пути и выбрать "импортировать страницы".