SWE-bench Verified: Ненадежные данные при оценке моделей кодирования
SWE-bench Verified больше не оценивается: проблема в недостоверности данных
Разработчики прекращают использовать SWE-bench Verified для оценки прогресса в области кодирования. Анализ показал, что тесты оказались некорректными, а результаты обучения демонстрируют утечку данных. Это приводит к завышенным оценкам и искажает реальную картину прогресса.
SWE-bench – это набор тестов, предназначенный для измерения эффективности моделей кодирования. Версия "Verified" оказалась скомпрометированной из-за ошибок в самих тестах и возможности "подглядывания" в данные во время обучения моделей.
Вместо SWE-bench Verified предлагается использовать более надежную версию – SWE-bench Pro, которая должна обеспечивать более точные и объективные результаты.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru