Открытые веса и кибербезопасность: риски и перспективы

Недавние сообщения в прессе, касающиеся "открытых весов", вызвали значительные дискуссии в сообществе искусственного интеллекта. В частности, анонс модели Claude Mythos и её заявленные возможности, особенно в области кибербезопасности, породили опасения, что открытые веса моделей могут представлять риски.

Основная обеспокоенность заключается в том, что открытые модели могут быть использованы для проведения атак, поскольку их смогут использовать многочисленные стороны. Критика открытых моделей, возникшая после новостей о Mythos, объединяет множество неопределенностей в простое, широкое политическое предложение, которое на самом деле может ослабить готовность к обеспечению кибербезопасности.

Мы уже сталкивались с этим раньше – открытые модели обсуждались как крайне опасные, когда OpenAI задержала выпуск весов GPT-2 в 2019 году, и когда OpenAI выпустила GPT-4 в 2023 году. Обе эти волны прошли. Основная ошибка заключается в восприятии разрыва между открытыми и закрытыми моделями как статичного во времени и в связывании жизнеспособности открытых весов вообще с конкретными проблемами.

В последнее время я писал о том, что лучшие открытые модели на передовом уровне в конечном итоге отстанут от лучших закрытых моделей по общим возможностям в ближайшем будущем. Я также писал о том, что открытая экосистема должна адаптироваться к этому. Задержка в 6-18 месяцев между появлением определенной возможности в закрытой лаборатории и её воспроизведением в открытом доступе – это благо, позволяющее обеспечивать безопасность и контролировать развитие систем искусственного интеллекта, сохраняя при этом полезную экосистему с открытым исходным кодом.

Основной аргумент, который я рассматривал, связан с разрывом во времени между открытыми и закрытыми моделями в отношении общих возможностей – то есть для моделей общего назначения, таких как Claude Opus 4.X или GPT Thinking 5.X. Способность этих закрытых моделей надёжно решать задачи и работать в различных ситуациях как агенты пока недоступна для лучших открытых моделей. Открытые модели, как правило, быстрее осваивают ключевые бенчмарки (что, безусловно, в некоторой степени подпитывается дистилляцией). Эта дискуссия принципиально иная, она связана с тем, смогут ли открытые модели угнаться за конкретными навыками в области кибербезопасности и когда мы сможем увидеть открытую версию этой модели.

Случай с открытой моделью уровня Claude Mythos, признаюсь, более сложный, чем предыдущие критические замечания в отношении открытых весов. В отличие от GPT-4, где речь шла о более гипотетическом риске, в особенности в таких областях, как био-риск, реальная и существующая угроза атак на цифровую инфраструктуру более ощутима. Тем не менее, большая часть этой тонкости в данный момент связана с тем, что мы не знаем всех деталей о том, на что способна система (то есть Mythos) и в каком окружении она будет работать (то есть наша цифровая инфраструктура).

Чтобы правильно оценить этот риск, нам нужно знать, что требуется для создания и развертывания модели масштаба Claude Mythos. Это включает в себя три компонента: 1) обучение и выпуск весов, 2) инструменты, которые дают модели эффективные возможности, 3) вычислительные ресурсы и программное обеспечение для вывода.

Текущие оценки показывают, что размер ведущих моделей, таких как Claude Opus 4.6 или GPT 5.4, составляет около 3-5 триллионов параметров. В настоящее время крупнейшие модели с открытым исходным кодом, поступающие из китайских лабораторий, составляют около 1 триллиона параметров. Предварительная цена Claude Mythos в 5 раз выше, чем у Opus, что может быть связано с простым увеличением количества активных параметров (при той же конструкции сервисной системы), более высокой стоимостью масштабирования времени вывода, более сложными инструментами, снижающими эффективность вывода, более низкими ожиданиями использования и т. д. Наиболее простой вывод состоит в том, что это комбинация всего вышеперечисленного, например, в два раза больше параметров и гораздо меньшая эффективность обслуживания. Это огромная модель, вероятно, аналогичная GPT 4.5, но хорошо обученная после обучения (GPT 4.5 был опережающим).

С увеличением размера модели появляются новые технические проблемы, которые необходимо решить для раскрытия возможностей. В случае кибербезопасности, предполагаю, что большинства возможностей можно добиться, обучив модель быть сверхчеловеком в программировании. В отличие от некоторых возможностей, таких как работа со знаниями, медицина, юриспруденция и т. д., программирование можно изучать и значительно улучшать с помощью общедоступных данных, таких как GitHub. Я более оптимистичен в отношении того, что открытые модели смогут оставаться близкими к передовым в узких областях выполнения и обработки кода, но я не полностью понимаю объём навыков, необходимых для сверхчеловеческого понимания кибербезопасности. Сколько экспертных знаний и "секретных ингредиентов" было вложено в обучение Claude Mythos? Это является существенным источником погрешности в моей оценке.

Во-вторых, мы ничего не знаем о том, как работает модель под капотом. Сегодня модели являются сложными системами, включающими в себя не только веса. Им требуются сложные инструменты и инфраструктура для работы, такие как Claude Code. Mythos, вероятно, имеет свои собственные инновации.

Моя оценка количества графических процессоров, необходимых для обслуживания модели MoE с 8 триллионами параметров, составляет примерно O(100) H100 GPU, что стоит около 10 000 долларов в день (и это может быть очень медленным в плане tok/s). Официальный маркетинговый текст системы Nvidia GB200 VL72 гласит: "Открытие моделей с триллионом параметров в реальном времени" на стойке. Поместится ли Mythos на одной стойке? Суть не в том, чтобы использовать мою конкретную оценку в качестве ссылки на политику, а в повторении того факта, что запуск ведущих систем искусственного интеллекта очень дорогостоящий и не то, что можно сделать на ноутбуке или самообслуживании в облаке.

Существуют гораздо меньше игроков, которые могут получить доступ к этим ресурсам, чем тех, кто может загрузить модель. Конечно, их всё ещё много, но важно понять все детали того, что потребуется для распространения возможностей модели, подобной Mythos. В заключение, такие инструменты, как Mythos, сделают лучших злоумышленников более мощными, но не предоставят ядерное оружие каждому подростку, подключённому к Интернету.

Признаюсь, существует вероятность, что кибербезопасность является критической точкой, после которой публикация открытых текстовых моделей с определённым пороговым уровнем возможностей становится морально сомнительной. Многие люди считали, что эта критическая точка наступит раньше, где-то между GPT-2 и GPT-4, из-за вреда, связанного с дезинформацией, но у этого были другие узкие места. В случае моделей генерации изображений мы уже преодолели первую критическую точку, которая заключается в создании нежелательных искусственных дипфейков с помощью общедоступных открытых моделей. Мы балансируем реальность того, что эти страхи уже возникали и разрешались ранее, с технологией, которая становится всё более мощной.

Поэтому мой второй большой источник погрешности – "насколько это на самом деле плохо" в отношении состояния кибербезопасности. Насколько хорошо люди могут исправить наиболее важные программные продукты с доступом к модели, такой как Claude Mythos, на несколько месяцев? Что никогда не будет исправлено?

Например, если у нас появятся открытые модели, близкие по возможностям к Claude Mythos, смогут ли они быть доработаны организациями для повышения безопасности своих инструментов?

В настоящее время слишком рано говорить о том, что это является общей причиной для прекращения прогресса в открытых моделях. Когда Claude Mythos закрыт для столь немногих партнеров, наличие сильных открытых моделей, близких к порогу, в некотором смысле облегчает оценку опасности. Полная зависимость от одной частной компании для определения безопасности важной международной инфраструктуры не является устойчивым состоянием.

В заключение, я призываю людей к дальнейшему изучению трёх вещей: Как мы измеряем возможности, связанные с кибербезопасностью, в открытых и закрытых моделях. При этом, действительно ли открытые модели отстают на 6-9 месяцев или поддерживают производительность в других областях кодирования? Как мы можем независимо измерить реальное влияние Claude Mythos и Project Glasswing на существующие проблемы кибербезопасности? Если модели всё-таки успевают, а оборонные возможности Claude Mythos слабы, как мы можем лучше отслеживать (и, при необходимости, регулировать) целевые возможности открытых моделей в узких областях? Цель состоит в том, чтобы сосредоточить опасения по поводу открытых моделей на конкретных вещах. Любой общий запрет на открытые модели в стране немедленно и, вероятно, необратимо лишит эту страну возможности влиять на важную и постоянно меняющуюся технологию. Если мы прекратим создавать лучшие открытые модели в США, то другая страна сделает это и станет центром этой технологии. Невозможно полностью уничтожить открытые модели, а только влиять на них, понимать и направлять их развитие.

Похожие новости

Открытые веса моделей ИИ и опасения вокруг claude mythos

Саморазвивающаяся система навыков на основе openspace и ещё 16 новости

Будущее искусственного интеллекта и науки и ещё 12 новости

context hub: новый инструмент для кодирующих агентов от эндрю нга и ещё 12 но...

Пятиуровневая структура безопасности для автономных агентов llm и ещё 17 новости

Безопасные конвейеры llm с outlines и pydantic и ещё 15 новости