LLM

Исследование MIT: рейтинги больших языковых моделей могут быть нестабильными

Heli
Автор
Heli
Опубликовано 09.02.2026
0,0
Views 6

Компании, выбирая LLM для обработки отчётов или обращений клиентов, зачастую ориентируются на рейтинги специализированных платформ. Однако учёные из MIT показали: такие рейтинги часто зависят от нескольких голосов — иногда даже от одного или двух. Удаление крайне малой доли данных (менее 0,01 %) способно перестроить топ моделей.

В ходе работы исследователи разработали быстрый метод проверки устойчивости рейтингов. Он позволяет выявить и проанализировать те конкретные голоса, которые сильнее всего влияют на итоговую таблицу. По словам Тамары Бродерик, ведущего автора исследования, если позиция лидера зависит от нескольких случайных решений пользователей (ошибочный клик, невнимательность), её нельзя считать надёжным показателем качества.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Похожие новости