Открытые веса моделей: мифы о безопасности и реальность задержки

Claude Mythos — это новая модель, объявленнаяAnthropic, обладающая заявленно высокими возможностями, особенно в области кибербезопасности. В ответ на это возросла волна критики в адрес моделей с открытыми весами. Основной аргумент противников: цифровая инфраструктура не будет готова вовремя к выпуску версии этой модели с открытыми весами, что позволит проводить атаки множеством сторон.

Критика моделей с открытыми весами после анонса Mythos смешивает слишком много неопределённостей в одну простую, широкую рекомендацию, которая может фактически ослабить готовность к кибербезопасности.

Уже ранее подобные волны критики возникали: например, когда OpenAI в 2019 году удержала веса GPT-2, и когда в 2023 году выпустила GPT-4. Обе волны прошли. Основная ошибка заключается в смешении двух вопросов: 1) принятие того, что разрыв между закрытыми и открытыми моделями статичен во времени, и 2) связывание жизнеспособности моделей с открытыми весами в целом с конкретными проблемами.

Автор ранее писал о том, что лучшие модели с открытыми весами, находящиеся на переднем крае, в ближайшем будущем, вероятно, отстанут от лучших закрытых моделей по общим возможностям. Также он отмечал, что экосистема моделей с открытыми весами должна адаптироваться к этой реальности. Одно из ключевых преимуществ временной задержки между появлением способности в закрытой лаборатории и её воспроизведением в открытой — от 6 до 18 месяцев — это баланс между безопасностью и контролем за передовыми достижениями ИИ, при этом позволяя открытой экосистеме развиваться и процветать.

Ранее автор фокусировался на этом временном разрыве в контексте общих способностей — например, для таких передовых общих моделей, как Claude Opus 4.X или GPT Thinking 5.X. Способности этих закрытых моделей надёжно решать и работать в разнообразных ситуациях в качестве агентов пока выходят за рамки возможностей лучших моделей с открытыми весами. Однако в случае с кибербезопасностью вопрос другой: могут ли модели с открытыми весами удерживать темп в конкретных навыках, связанных с кибербезопасностью, и когда мы можем ожидать появления открытой версии модели подобного уровня?

Случай с Claude Mythos, по мнению автора, более сложен, чем предыдущие негативные сценарии вокруг моделей с открытыми весами. В отличие от GPT-4, где риски, особенно в биобезопасности, носили скорее гипотетический характер, угроза цифровой инфраструктуре от атак — реальная и осязаемая. Тем не менее, большая часть этой сложности объясняется отсутствием полной информации о возможностях системы (например, Mythos) и о состоянии среды, в которой она будет действовать.

Для корректной оценки риска необходимо знать, что требуется для построения и развёртывания модели уровня Claude Mythos. Это включает три компонента: 1) обучение и выпуск весов, 2) инструментарий, обеспечивающий модели эффективные инструменты, которым она умеет пользоваться, и 3) вычислительные ресурсы и программное обеспечение для инференса.

Современные оценки указывают, что размер ведущих моделей, таких как Claude Opus 4.6 или GPT 5.4, составляет примерно 3–5 триллионов параметров. Самые крупные открытые модели (в основном от китайских лабораторий) — около 1 триллиона параметров. Цена Preview Claude Mythos в 5 раз выше, чем у Opus, что может означать как увеличение активных параметров, так и более сложную архитектуру, снижающую эффективность инференса. Простейшая гипотеза — это гибрид: параметры около 2× больше, но значительно менее эффективный инференс. Это огромная модель, вероятно, похожая на GPT 4.5, но прошедшую более качественную посттренировку.

С увеличением масштаба возникают новые технические сложности обучения. Что касается кибербезопасности, большинство нужных навыков, по мнению автора, можно выучить, сделав модель суперчеловеческой в программировании. В отличие от таких сфер, как медицина или право, кодирование может эффективно развиваться на публичных данных, таких как GitHub. Автор более оптимистичен относительно способности открытых моделей оставаться близкими к передовым в узких областях, связанных с обработкой и выполнением кода, но отмечает, что не понимает полного набора навыков, необходимых для суперчеловеческого уровня в кибербезопасности. То, насколько сильно использовались экспертные знания и «секретные рецепты» при обучении Claude Mythos, остаётся одной из главных неопределённостей.

Кроме того, мы ничего не знаем о внутреннем устройстве модели. Современные модели — сложные системы, требующие не только весов, но и сложной инфраструктуры. Claude Code — лишь один из популярных примеров; Mythos, вероятно, включает собственные инновации в этом направлении.

По оценке автора, для обслуживания 8-триллионной модели современной архитектуры MoE требуется примерно 100 чипов H100, что стоит около $10 000 в сутки (и может быть медленным по скорости обработки токенов). Даже официальное описание системы Nvidia GB200 VL72 гласит: «Раскрытие реального времени для моделей с триллионами параметров на один стойку». Соответствует ли Mythos одному стойку — неизвестно. Цель не в том, чтобы использовать точные цифры как основу для политических решений, а подчеркнуть, что запуск передовых ИИ-систем крайне дорого и невозможно реализовать на ноутбуке или обычных облачных сервисах.

СравнительноFew компаний могут получить доступ к таким ресурсам, хотя их всё равно достаточно. Важно рассмотреть все аспекты распространения возможностей модели уровня Mythos: такие инструменты, как Mythos, дадут наиболее сильным атакующим более мощные инструменты, но не вручат «ядерную бомбу» каждому подключённому к интернету подростку.

Автор признаёт, что в отношении кибербезопасности существует шанс, что злоупотребление подобными моделями может стать «красной линией», после которой выпуск моделей с открытыми весами выше определённого порога может оказаться морально спорным. Раньше многие считали, что эта линия будет пересечена раньше — между GPT-2 и GPT-4, в сфере дезинформации, однако для этого существовали другие ограничения. В случае генерации изображений мы уже перешли первую такую линию — появление неавторизованных глубоких фейков с помощью открытых моделей.

Автор балансирует между тем, что подобные опасения уже неоднократно проходили, и тем, что технология неуклонно развивается.

Таким образом, вторая главная неопределённость — «насколько плохо это на самом деле» в контексте текущего состояния кибербезопасности. Сколько улучшений может внести человек в важнейшее ПО за месяцы приватного доступа к модели уровня Claude Mythos? Что может остаться неисправленным?

Например, если появятся открытые модели, близкие по возможностям к Mythos, возможно ли их дообучение для укрепления безопасности внутренних систем?

На данный момент слишком рано делать общий вывод о необходимости остановить прогресс в области открытых моделей. Когда Claude Mythos доступен лишь нескольким партнёрам, наличие сильных открытых моделей рядом с этим порогом позволяет лучше оценить угрозы. Полагаться исключительно на одну частную компанию для определения безопасности международной инфраструктуры — неприемлемо.

Автор призывает исследовать три вопроса:

Как измерять способности моделей в области кибербезопасности — как открытых, так и закрытых? Действительно ли открытые модели отстают на 6–9 месяцев, или сохраняют актуальность только в других аспектах программирования?
Как независимо оценить реальное влияние Claude Mythos и Project Glasswing на существующие проблемы кибербезопасности?
Если окажется, что открытые модели справляются хорошо, а защитные возможности Mythos слабы, как лучше отслеживать (и, при необходимости, регулировать) целевые навыки моделей с открытыми весами в узких областях?

Цель — держать страхи перед открытыми моделями специфичными. Любая общая запретительная мера в отношении открытых моделей в одной стране немедленно и, вероятно, безвозвратно лишит её возможности влиять на важную и нечётко очерченную технологию. Если США перестанут создавать лучшие открытые модели, это возьмёт на себя другая страна. Полностью остановить открытые модели невозможно — можно только влиять, понимать и направлять их развитие.

Похожие новости

Опасения по поводу claude mythos и открытых весов моделей

Открытые веса и кибербезопасность: риски и перспективы

ИИ: разделение на открытые модели и системы с ограниченным доступом

Пятиуровневая структура безопасности для автономных агентов llm и ещё 17 новости

Безопасные конвейеры llm с outlines и pydantic и ещё 15 новости

Открытые веса моделей ИИ и опасения вокруг claude mythos