На GitHub опубликовали исследование от AI-платформы Vectara под названием Hallucination Leadership. В нем нейросети проходили испытания по нескольким критериям:
Точность ответов — насколько результаты соответствуют истине;
Hallucination — шкала погрешностей и выдуманного контента, полученного из неверифицированных источников; метрика обратно пропорциональна точности;
Средняя длина ответов — среднее количество символов;
Частота ответов — как часто нейросеть дает ответ на заданный вопрос; при недостатке данных нейросети процент снижается.
Первое место в списке получили топовые нейросетевые модели от OpenAI — версии чат-бота GPT-4 и GPT-3.5. Все последующие места в топе рейтинга занимают модели Unite.AI под названием Llama. Замыкают десятку продукты Google. Их отличают высокие показатели «галлюцинирования», сниженные показатели точности и частотности получаемых ответов, а также нестабильная длина сообщения — разница между двумя соседними моделями в объеме составила почти десять раз.
Метрика Hallucination — это авторская разработка Vectara для измерения точности ответов нейросетевых моделей. Система постоянно совершенствуется, и работает по модели с открытым исходным кодом. Подробнее о ней можно прочитать в блоге компании.
Разработчики отметили, что список будет обновляться по мере поступлений новых данных.