SWE-bench Verified: Ненадежные данные при оценке моделей кодирования

Автор

Heli

Опубликовано 23.02.2026

0,0

SWE-bench Verified больше не оценивается: проблема в недостоверности данных

Разработчики прекращают использовать SWE-bench Verified для оценки прогресса в области кодирования. Анализ показал, что тесты оказались некорректными, а результаты обучения демонстрируют утечку данных. Это приводит к завышенным оценкам и искажает реальную картину прогресса.

SWE-bench – это набор тестов, предназначенный для измерения эффективности моделей кодирования. Версия "Verified" оказалась скомпрометированной из-за ошибок в самих тестах и возможности "подглядывания" в данные во время обучения моделей.

Вместо SWE-bench Verified предлагается использовать более надежную версию – SWE-bench Pro, которая должна обеспечивать более точные и объективные результаты.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Похожие новости