Как измерить ИИ-агента, если он каждый раз отвечает по-разному
LLM — вероятностная машина: одинаковый запрос при ненулевой температуре даёт разные ответы. Фреймворк RAGAS предлагает два инструмента, которые переводят «кажется, работает» в измеримые цифры — Factual Correctness и Summarization Score.