11

Я ищу источник существительных, наречий, прилагательных и глаголов на нескольких языках.

Я бы хотел, чтобы списки уже были разделены, и не нужно было проходить через OED (и неанглийские эквиваленты) вручную, создавая указанные списки.

Меня не особо волнуют определения, и я понимаю, что некоторые слова могут состоять из нескольких частей речи - это прекрасно - такие слова, как "многие", могут быть существительными или прилагательными и могут появляться в обоих списках.

Кто-нибудь здесь знает о таком источнике? Если нет, то может ли кто-нибудь указать мне правильное направление?

Я в порядке с форматом, являющимся любым из следующего (или подобный, если у людей есть идеи):

  • csv: <word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
  • текстовые файлы, такие как "существительные", "глаголы" и т. д.
  • MySQL таблица
  • так далее

3 ответа3

8

Я использовал WordNet из Принстонского университета для некоторых проектов. Это лексическая база данных на английском языке. Global WordNet является расширением проекта, пытающегося сделать то же самое для всех языков.

Вы также можете быть заинтересованы в связанных проектах на http://wordnet.princeton.edu/wordnet/related-projects/

4

Это может не помочь вообще, я не знаю. Но MediaWiki имеет API для отображения всех страниц, относящихся к определенной категории. Вы можете попробовать использовать его на Wiktionary.org.

Заметки:

  • Каждый запрос возвращает только 500 результатов. Однако в конце он также указывает параметр, который будет использоваться в другом запросе для получения следующих 500 результатов.
  • Включает в себя все в указанной категории, даже другие подкатегории.
  • Результаты, кажется, в алфавитном порядке, хотя все, начинающееся с заглавной буквы, предшествует чему-либо в нижнем регистре.

Примеры:

Надеюсь, это поможет, это то, что я мог придумать.

1

Я буду вторым предложением @ teknikqa о wordnet, но я бы посоветовал вам проверить их API;

STORYTIME: у меня был курс ИИ, в котором была часть анализа языка; Я использовал perl API Wordnet для автоматического поиска трех верхних типов определений и для классификации фраз по сравнению с почти в реальном времени END OF STORYTIME

Там есть API для многих языков

К вашему сведению: проект получил A+

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .