Лемма

"Лемма" - что это такое, определение термина

Лемма
— это основная форма слова, представленная в словарной статье, которая используется для обозначения всех его грамматических вариантов. Например, для глаголов это инфинитив, а для существительных — единственное число именительного падежа.

Детальная информация

Лемма — это основная форма слова, которая используется в словарях для представления всей парадигмы словоформ. Она служит точкой отсчёта при анализе и систематизации языковых единиц. В русском языке леммой для существительных является именительный падеж единственного числа, для глаголов — инфинитив.

В лингвистике и компьютерной обработке текстов лемматизация — это процесс приведения словоформы к её лемме. Это необходимо для корректного поиска, анализа или статистического учёта слов. Например, словоформы "бегу", "бежишь", "бежал" сводятся к лемме "бежать".

Леммы широко применяются в машинном обучении, автоматической обработке естественного языка и создании словарей. Они упрощают работу с текстами, позволяя системам распознавать разные формы одного слова как единую сущность. Без использования лемм анализ больших текстовых массивов стал бы значительно сложнее.

Существуют алгоритмы и инструменты для автоматической лемматизации, такие как TreeTagger, SpaCy или pymorphy2 для русского языка. Они используют морфологические правила и словарные базы для точного определения леммы. Однако в некоторых случаях, особенно для редких или омонимичных слов, может потребоваться ручная проверка.