RAG без eval превращается в поиск с красивым интерфейсом
Команды внедряют retrieval augmented generation, но часто поздно добавляют проверку полноты, релевантности и устойчивости ответов.
Тег
Публикации DigestAI по теме evals.
Команды внедряют retrieval augmented generation, но часто поздно добавляют проверку полноты, релевантности и устойчивости ответов.
Громкий research-result полезен редакции только после проверки датасета, методики, baseline и доступности материалов для повторения.
Без единого журнала решений редактор или владелец процесса не сможет понять, почему агент выбрал источник или действие.
RAG-система должна измерять возраст документов, скорость обновления индекса и долю ответов на устаревших источниках.
Размер фрагмента влияет на полноту ответа, цитирование и стоимость retrieval, поэтому нужен небольшой, но стабильный набор вопросов.
Смена модели или prompt-шаблона должна проходить через набор вопросов, источников и ожидаемых ограничений.