Фундаментальный компонент понимания естественного языка, маркировка семантической роли (МСР) проясняет связь между предикатами и их аргументами, тем самым позволяя выполнять такие действия, как извлечение информации, машинный перевод и ответы на вопросы. Хотя было проведено много исследований МСР для языков с высоким уровнем ресурсов, языки с низким уровнем ресурсов, такие как казахский, все еще относительно мало изучены. Эта работа заполняет пробел, предлагая как уникальные наборы данных, так и архитектуры моделей, специально разработанные для казахского МСР. Начиная с аннотированных наборов данных МСР, которые отражают богатые морфологические характеристики казахского языка, включая агглютинативные суффиксы и модели маркировки падежей, мы строим. Основываясь на этих источниках данных, мы создаем и сопоставляем множество моделей МСР, от традиционных методов машинного обучения на основе признаков до нейронных архитектур, улучшенных морфологическими выстраиваниями. Наши результаты показывают, как использование уникальных языковых черт казахского языка повышает производительность и привлекает внимание к текущим проблемам, вызванным разреженностью данных и сложной морфологией. Мы также рассматриваем прагматические вопросы генерации набора данных, согласованности аннотаций и обобщения на другие тюркские языки. Результаты подчеркивают возможность высококачественного МСР в условиях ограниченных ресурсов и открывают новые пути для изучения NLP на казахском языке.
СЕМАНТИЧЕСКАЯ РОЛЬ МАРКИРОВКИ ДЛЯ КАЗАХСКОГО ЯЗЫКА: МОДЕЛИ И НАБОРЫ ДАННЫХ
Опубликован March 2026
0
0
Аннотация
Язык
English
Как цитировать
[1]
Әйтім A. 2026. СЕМАНТИЧЕСКАЯ РОЛЬ МАРКИРОВКИ ДЛЯ КАЗАХСКОГО ЯЗЫКА: МОДЕЛИ И НАБОРЫ ДАННЫХ. Вестник КазНПУ имени Абая. Серия: Физико-математические науки. 93, 1 (мар. 2026), 128–140. DOI:https://doi.org/10.51889/2959-5894.2026.93.1.011.
https://orcid.org/0000-0003-2982-214X