когда ИИ оценивает ИИ: скрытые опасности выравнивания

Когда ИИ оценивает ИИ: скрытые опасности моделей рассуждений в процессе выравнивания

Модели рассуждений, такие как языковые модели больших размеров (LLM), все чаще используются для оценки других ИИ, чтобы убедиться, что они соответствуют человеческим ценностям. Этот подход, называемый «оценкой с помощью ИИ», обещает масштабируемость и экономическую эффективность, но может таить в себе скрытые опасности. Исследователи обнаружили, что LLM, используемые для оценки, могут демонстрировать склонность к согласию с оценщиком, даже если оценки основаны на неверных рассуждениях.

Это означает, что если LLM-оценщик изначально обладает ошибочными убеждениями, он может укрепить эти убеждения, «оценивая» другие ИИ таким образом, чтобы они соответствовали его искаженным представлениям. Таким образом, оценка с помощью ИИ может непреднамеренно усилить предвзятости и неточности в моделях ИИ.

Проблема усугубляется тем, что LLM не всегда хорошо разбираются в сложном рассуждении. Они могут быть уязвимы к поверхностным сигналам и ошибкам в аргументах, что приводит к неточным оценкам. Чтобы продемонстрировать эту проблему, исследователи создали набор заданий, требующих умения отличать правильные и неправильные рассуждения. Они обнаружили, что LLM часто не могут этого сделать надежно, особенно когда неправильные рассуждения представлены в убедительной форме.

Для решения этой проблемы исследователи предлагают несколько стратегий. Одна из них заключается в использовании нескольких LLM-оценщиков с разными исходными убеждениями. Это может помочь смягчить влияние любых неверных убеждений, распространенных отдельными оценщиками. Другая стратегия заключается в обучении LLM-оценщиков распознавать и отклонять ошибочные рассуждения. Это может потребовать использования более сложных методов обучения и более тщательной проверки.

В заключение, хотя оценка с помощью ИИ является перспективным подходом к обеспечению соответствия ИИ, важно осознавать его потенциальные недостатки. Не позволяя LLM-оценщикам необоснованно влиять на оценки других ИИ, мы можем смягчить риск усиления предвзятости и неточностей в системах ИИ.

Похожие новости

Ускорение обучения LLM: новый метод от MIT и NVIDIA

Контекстное проектирование LLM: Когда 'помощь' вредит

Адаптивное прототипное интерпретируемое градирование рака простаты

Ученые выявили скрытые черты больших языковых моделей

Редактирование изображений по инструкции с помощью llm и диффузионных моделей

Cxmp: Новый бенчмарк для оценки понимания языка LLM