AI news

SWE-bench Verified: Ненадежные данные при оценке моделей кодирования

Heli
Автор
Heli
Опубликовано 23.02.2026
0,0
Views 1

SWE-bench Verified больше не оценивается: проблема в недостоверности данных

Разработчики прекращают использовать SWE-bench Verified для оценки прогресса в области кодирования. Анализ показал, что тесты оказались некорректными, а результаты обучения демонстрируют утечку данных. Это приводит к завышенным оценкам и искажает реальную картину прогресса.

SWE-bench – это набор тестов, предназначенный для измерения эффективности моделей кодирования. Версия "Verified" оказалась скомпрометированной из-за ошибок в самих тестах и возможности "подглядывания" в данные во время обучения моделей.

Вместо SWE-bench Verified предлагается использовать более надежную версию – SWE-bench Pro, которая должна обеспечивать более точные и объективные результаты.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости