Что ломается

RAG-система может находить похожие документы, но пропускать нужный фрагмент, смешивать версии или отвечать уверенно при пустом контексте.

Как проверять

Нужны golden datasets, негативные запросы, трассировка retrieved chunks и отдельные метрики для retrieval и generation.

Практический вывод

Eval-пакет стоит собирать до запуска. Иначе команда не поймёт, улучшает ли новый индекс ответы или просто меняет стиль формулировок.