Исследование MIT: рейтинги больших языковых моделей могут быть нестабильными

Автор

Heli

Опубликовано 09.02.2026

0,0

Компании, выбирая LLM для обработки отчётов или обращений клиентов, зачастую ориентируются на рейтинги специализированных платформ. Однако учёные из MIT показали: такие рейтинги часто зависят от нескольких голосов — иногда даже от одного или двух. Удаление крайне малой доли данных (менее 0,01 %) способно перестроить топ моделей.

В ходе работы исследователи разработали быстрый метод проверки устойчивости рейтингов. Он позволяет выявить и проанализировать те конкретные голоса, которые сильнее всего влияют на итоговую таблицу. По словам Тамары Бродерик, ведущего автора исследования, если позиция лидера зависит от нескольких случайных решений пользователей (ошибочный клик, невнимательность), её нельзя считать надёжным показателем качества.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Похожие новости

НАВИГАЦИЯ

МЕНЮ

Исследование MIT: рейтинги больших языковых моделей могут быть нестабильными

Похожие новости

Многоуровневые фильтры безопасности для LLM: защита от атак | Новости ИИ

Canzona: асинхронный фреймворк для распределённых оптимизаторов на матрицах

NVIDIA представляет Nemotron-3-Nano-30B в формате NVFP4

Google представляет Conductor: расширение Gemini CLI с контекстным управлением