Выделение базовой части слов

При обработки естественного языка в машинном обучении мы сталкиваемся с множеством форм слова, например, демократия и демократизация. Для машин очень важно понимать, что эти разные слова имеют одинаковую базовую форму.
Таким образом, было бы полезно при анализе текста извлекать базовые формы слов. Можно сказать, что для процесса выделения базовой части слова необходимо обрезать концы слов.
В модуле Python NLTK (Natural Language Toolkit Package) есть различные пакет, связанные с данным процессом выделения базовой части и использующие разные алгоритмы.
Один за пакетов, snowball, использует алгоритм соответственно Snowball, разработанный Мартином Портером. Алгоритм поддерживает большинство популярных языков.
Подписывайтесь на канал 👉@python_of
Источник: https://vk.ru/wall-216361171_2425 #ИТобразование #курсыIT #ITкурсы #ИТ #IT #ИТкурсы #курсыИТ #программирование #ITобразование #информационныетехнологии

Выделение базовой части слов - 5387747560204

Комментарии

Комментариев нет.