SEMANTIC ROLE LABELING FOR KAZAKH: MODELS AND DATASETS

Ә.Қ. Әйтім

doi:10.51889/2959-5894.2026.93.1.011

Том 93 № 1 (2026)

СЕМАНТИЧЕСКАЯ РОЛЬ МАРКИРОВКИ ДЛЯ КАЗАХСКОГО ЯЗЫКА: МОДЕЛИ И НАБОРЫ ДАННЫХ

Опубликован March 2026

3

2

Ә.Қ. Әйтім⁺⁻

Международный Университет Информационных Технологий, г. Алматы, Казахстан

https://orcid.org/0000-0003-2982-214X

Международный Университет Информационных Технологий, г. Алматы, Казахстан

DOI: 10.51889/2959-5894.2026.93.1.011

Аннотация

Фундаментальный компонент понимания естественного языка, маркировка семантической роли (МСР) проясняет связь между предикатами и их аргументами, тем самым позволяя выполнять такие действия, как извлечение информации, машинный перевод и ответы на вопросы. Хотя было проведено много исследований МСР для языков с высоким уровнем ресурсов, языки с низким уровнем ресурсов, такие как казахский, все еще относительно мало изучены. Эта работа заполняет пробел, предлагая как уникальные наборы данных, так и архитектуры моделей, специально разработанные для казахского МСР. Начиная с аннотированных наборов данных МСР, которые отражают богатые морфологические характеристики казахского языка, включая агглютинативные суффиксы и модели маркировки падежей, мы строим. Основываясь на этих источниках данных, мы создаем и сопоставляем множество моделей МСР, от традиционных методов машинного обучения на основе признаков до нейронных архитектур, улучшенных морфологическими выстраиваниями. Наши результаты показывают, как использование уникальных языковых черт казахского языка повышает производительность и привлекает внимание к текущим проблемам, вызванным разреженностью данных и сложной морфологией. Мы также рассматриваем прагматические вопросы генерации набора данных, согласованности аннотаций и обобщения на другие тюркские языки. Результаты подчеркивают возможность высококачественного МСР в условиях ограниченных ресурсов и открывают новые пути для изучения NLP на казахском языке.

pdf (English)

Ключевые слова

казахский язык маркировка семантических ролей языки с низкими ресурсами модели маркировки семантических ролей ресурсы данных обработка естественного языка

Язык

English

Как цитировать

[1]

Әйтім A. 2026. СЕМАНТИЧЕСКАЯ РОЛЬ МАРКИРОВКИ ДЛЯ КАЗАХСКОГО ЯЗЫКА: МОДЕЛИ И НАБОРЫ ДАННЫХ. Вестник КазНПУ имени Абая. Серия: Физико-математические науки. 93, 1 (мар. 2026), 128–140. DOI:https://doi.org/10.51889/2959-5894.2026.93.1.011.

СЕМАНТИЧЕСКАЯ РОЛЬ МАРКИРОВКИ ДЛЯ КАЗАХСКОГО ЯЗЫКА: МОДЕЛИ И НАБОРЫ ДАННЫХ

Скачать ссылку