В данной статье рассматривается критическое ограничение систем генерации с дополнением извлеченными данными (RAG) в задачах ответов на вопросы по доменно-специфическому коду: неточное извлечение контекста активно вводит в заблуждение малые языковые модели, снижая точность ниже базового уровня. Предложена архитектура гибридного поиска с учетом сущностей, которая извлекает целевую кодовую сущность (имя класса или функции) непосредственно из вопроса и применяет её как жёсткий фильтр для извлекаемых чанков. Система интегрирует семантический векторный поиск (ChromaDB) с kNN-графом знаний (NetworkX, 53 585 узлов), объединяемых методом WRRF. Двухуровневый механизм контроля качества (fallback) отклоняет низкорелевантный контекст до генерации. Оценка на датасете srsRANBench (1 502 вопроса с множественным выбором по кодовой базе srsRAN объемом более 500 000 строк C++) показала, что граф-улучшенная система достигает точности 65.51% против 63.65% у Vector-only, при этом ROUGE-L составил 0.1820 - наилучший среди всех систем. Анализ ошибок показывает, что граф знаний «спасает» 87 случаев, где векторный поиск давал неверный ответ. Феномен «RAG вредит» - когда извлечённый контекст вводит в заблуждение LLM с 3 млрд параметров - систематически проанализирован и показано, что извлечение сущностей значительно его смягчает.
ГИБРИДНАЯ RAG-СИСТЕМА С ГРАФОМ ЗНАНИЙ ДЛЯ ДОКУМЕНТАЦИИ 5G/O-RAN
Опубликован July 2026
0
Аннотация
Язык
English
Как цитировать
[1]
Марламбеков D., Қасымбек N., Нұрахов Y., Мұханбет A. и Мұхамбетжанов S. 2026. ГИБРИДНАЯ RAG-СИСТЕМА С ГРАФОМ ЗНАНИЙ ДЛЯ ДОКУМЕНТАЦИИ 5G/O-RAN. Вестник КазНПУ имени Абая. Серия: Физико-математические науки. 94, 2 (июл. 2026).