Опасения по поводу claude mythos и открытых весов моделей

В последнее время вокруг моделей с открытыми весами, особенно в контексте Claude Mythos, возникла новая волна опасений. Основной аргумент заключается в том, что наша цифровая инфраструктура не будет готова к открытой версии этой модели, что позволит проводить атаки множеству сторон. Критика открытых моделей после новостей о Mythos смешивает слишком много общих неизвестных в простое, широкое политическое предложение, которое на самом деле может ослабить готовность к кибербезопасности. Мы уже сталкивались с этим раньше – открытые модели обсуждались как крайне опасные, когда OpenAI скрыла веса GPT-2 в 2019 году, и когда OpenAI выпустила GPT-4 в 2023 году. Обе эти волны прошли. Основная ошибка заключается в том, что разрыв между открытыми и закрытыми моделями считается статичным во времени, и в связывании возможности открытых весов в целом с конкретными проблемами. Я недавно писал о том, что лучшие открытые модели, вероятно, отстанут от лучших закрытых моделей по общим возможностям в ближайшем будущем. Я также писал о том, что экосистема открытых весов должна адаптироваться к этому. Это один из моментов для индустрии ИИ, когда я повторю, что это огромное благо иметь 6-18-месячный перерыв между тем моментом, когда определенная возможность доступна в закрытой лаборатории, и ее воспроизведением в открытом доступе. Это хороший баланс безопасности и мониторинга переднего края систем ИИ, позволяющий существовать и процветать полезной экосистеме с открытым исходным кодом. Основной аргумент, на котором я сосредоточился в вопросе временного разрыва между открытыми и закрытыми моделями, касается общих возможностей – то есть, для моделей общего назначения, передового уровня, таких как Claude Opus 4.X или GPT Thinking 5.X. Способность этих закрытых моделей устойчиво решать и работать в различных ситуациях как агенты остается недостижимой для лучших открытых моделей. Лучшим в открытых моделях было быстрое соответствие ключевым бенчмаркам (что, безусловно, в некоторой степени помогает дистилляция). Эта дискуссия совершенно иная, она связана с тем, смогут ли открытые модели идти в ногу с конкретными навыками, связанными с кибербезопасностью, и когда мы можем ожидать появления открытой версии этой модели в мире. Случай с открытой моделью Claude Mythos, честно говоря, более нюансирован, чем предыдущие опасения по поводу открытых весов. Там, где GPT-4 был связан с более гипотетическим риском, особенно в таких областях, как биориск, явная и непосредственная реальность уязвимости кибер-инфраструктуры для атак является более ощутимой. Тем не менее, многие из этих нюансов в данный момент сводятся к незнанию полных деталей возможностей системы (то есть Mythos) и состояния окружающей среды, в которой она будет действовать (то есть нашей цифровой инфраструктуры). Чтобы правильно оценить этот риск, нам нужно знать, что требуется для создания и развертывания модели масштаба Claude Mythos. Это включает в себя три компонента: 1) обучение и выпуск весов, 2) систему, которая дает модели эффективные инструменты, которыми она умеет пользоваться, и 3) вычислительные ресурсы и программное обеспечение для вывода. Текущие оценки размера ведущих моделей, таких как Claude Opus 4.6 или GPT 5.4, составляют примерно 3-5 триллионов параметров. В настоящее время самые большие модели с открытым исходным кодом, поступающие из китайских лабораторий, составляют около 1 триллиона параметров. Предварительная цена Claude Mythos в 5 раз выше, чем у Opus, что может быть связано с простым мультипликативным увеличением количества активных параметров (при той же конструкции сервисной системы), гораздо более высоким масштабированием времени вывода, более сложными системами, которые делают вывод менее эффективным, более низкими ожиданиями использования и так далее. Самая простая гипотеза заключается в том, что это смесь всего вышеперечисленного, примерно в 2 раза больше параметров и гораздо менее эффективно в работе. Это огромная модель, вероятно, похожая на GPT 4.5, но действительно хорошо прошедшая пост-обучение. С размером приходит вызов - фактически обучить модель, поскольку более крупные модели всегда сопровождаются новыми техническими проблемами, которые необходимо решить для раскрытия возможностей. В случае кибербезопасности, я полагаю, что большинства возможностей можно достичь, обучив модель быть суперчеловеком в программировании. В отличие от некоторых областей, таких как знания, медицина, право и т.д., программирование можно изучать и значительно улучшать с помощью общедоступных данных, таких как GitHub. Я более оптимистичен в отношении того, что открытые модели будут довольно близки к передовому уровню в узких областях выполнения и обработки кода, но я не понимаю полного объема навыков, необходимых для того, чтобы быть суперчеловеком в понимании кибербезопасности. Сколько экспертных знаний и секретных ингредиентов было вложено в обучение Claude Mythos? Это существенный источник моей погрешности. Во-вторых, мы ничего не знаем о том, как работает модель под капотом. Сегодня модели представляют собой сложные системы, которые включают в себя гораздо больше, чем просто веса. Им требуются сложные инструменты и инфраструктура для их работы, среди которых Claude Code является наиболее знакомым. Mythos, вероятно, имеет свои собственные инновации здесь. Моя оценка количества графических процессоров, необходимых для обслуживания модели MoE с 8 триллионами параметров, составляет около O(100) H100 GPU, что стоит примерно 10 000 долларов в день (и это может быть очень медленно с точки зрения токенов в секунду). Даже официальный маркетинговый слоган системы Nvidia GB200 VL72: «Разблокировка триллион-параметрических моделей в реальном времени» на стойке. Поместится ли Mythos на одной стойке? Важно не полагаться на мою конкретную оценку в качестве эталона для политики, а повторить, что запуск ведущих систем ИИ является очень дорогим и не тем, что можно сделать на ноутбуке или в самообслуживании в облаке. Существует гораздо меньше субъектов, которые могут получить доступ к этим ресурсам, чем тех, кто может скачать модель. Конечно, их все еще много, но важно рассмотреть все детали того, что потребуется для распространения возможностей модели, подобной Mythos. В заключение, инструменты, такие как Mythos, сделают лучших злоумышленников обладателями более мощных инструментов, но они не отдадут ядерное оружие каждому подростку, подключенному к Интернету. Interconnects AI — это публикация, поддерживаемая читателями. Рассмотрите возможность стать подписчиком. Лично я признаю, что существует вероятность того, что злоупотребление в области кибербезопасности является красной линией, которая делает выпуск текстовых моделей с открытыми весами выше определенного порога морально сомнительным. Многие люди думали, что эта красная линия наступит раньше, где-то между GPT-2 и GPT-4, через ось вреда дезинформации, но у нее были другие узкие места. Для моделей генерации изображений мы уже пересекли первую красную линию, которая заключается в создании легкодоступных дипфейков с использованием моделей с открытыми весами без согласия. Мы находимся в балансе между реальностью этих страхов, которые уже не раз возникали, и технологией, которая становится все более мощной. Поэтому мой второй большой источник погрешности — это «насколько это плохо» в отношении состояния кибербезопасности. Сколько могут исправить люди в наиболее важном программном обеспечении за месяцы приватного доступа к модели, подобной Claude Mythos? Что никогда не будет исправлено? Например, если мы получим открытые модели, близкие по возможностям к Claude Mythos, смогут ли они быть настроены организациями для повышения безопасности своих инструментов? В настоящее время еще слишком рано говорить об этом как об общем основании для прекращения прогресса в открытых моделях. Когда Claude Mythos закрыт для такого небольшого числа партнеров, наличие сильных открытых моделей, близких к этому порогу, в некотором смысле облегчает оценку опасности. Полная зависимость от одной частной компании для определения безопасности важной международной инфраструктуры не является стабильным балансом. В заключение, я призываю людей изучить три вещи: Как измерить возможности, связанные с кибербезопасностью, в открытых и закрытых моделях. С этим, реально ли открытые модели отстают на 6-9 месяцев, или они только поддерживают актуальность в других областях кодирования? Как независимо измерить фактическое влияние Claude Mythos и Project Glasswing на существующие проблемы кибербезопасности? Если модели соответствуют стандартам, а защитные возможности Claude Mythos слабы, как мы можем лучше контролировать (и при необходимости регулировать) целенаправленные возможности открытых моделей в узких областях? Цель состоит в том, чтобы ограничить страхи об открытых моделях, оставаясь очень конкретными. Любой общий запрет на открытые модели в стране немедленно и, вероятно, необратимо лишит эту страну возможности влиять на важнейшую, расплывчатую технологию. Если мы прекратим создание лучших открытых моделей в США, то другая страна сделает это и станет центром технологии. От полной ликвидации открытых моделей невозможна, только влияние, понимание и направление.

Похожие новости

Открытые веса и кибербезопасность: риски и перспективы

Открытые веса моделей ИИ и опасения вокруг claude mythos

Открытые веса ai: разбираемся с риском и преимуществами

Безопасные конвейеры llm с outlines и pydantic и ещё 15 новости

Саморазвивающаяся система навыков на основе openspace и ещё 16 новости

context hub: новый инструмент для кодирующих агентов от эндрю нга и ещё 12 но...