Конституционный ИИ: система двойного агента для безопасных финансовых операци...

Конституционный ИИ: система двойного агента для безопасных финансовых операций

В этой разработке реализована система управления с двойным агентом, которая применяет принципы Конституционного ИИ к финансовым операциям. В ней разделены выполнение и надзор: агент-исполнитель выполняет финансовые действия, а агент аудитор контролирует политику, безопасность и соответствие требованиям. Внедряя правила управления непосредственно в формальную конституцию и комбинируя проверки на основе правил с помощью ИИ , создаются саморефлексивные, аудируемые и устойчивые к рискованному или несоответствующему поведению системы.\r \r Система включает в себя определение политик безопасности, типов нарушений и конституции, которая задает правила поведения агентов. Для структурирования запросов, ответов и результатов аудита используются четко определенные модели данных. Моделирование поведения LLM осуществляется с помощью фиктивного клиента API, который имитирует работу агентов.\r \r Два агента, исполнитель и аудитор, взаимодействуют в цикле, где исполнитель обрабатывает запросы, а аудитор проверяет соответствие конституции. При обнаружении нарушений процесс повторяется до тех пор, пока запрос не будет одобрен или не будет достигнуто максимальное количество попыток.

Microsoft Maia 200: новый чип для ускорения ИИ

Microsoft представила Maia 200 – собственный AI-ускоритель, разработанный для обработки данных в центрах обработки Azure. Чип оптимизирован для повышения эффективности генерации токенов и других задач, связанных с большими языковыми моделями.\r \r Maia 200 создан на 3-нм техпроцессе TSMC и содержит более 140 миллиардов транзисторов. Он использует тензорные ядра FP4 и FP8 для достижения производительности более 10 пфлопс в FP4 и 5 пфлопс в FP8. Чип оснащён 216 ГБ памяти HBM3e с пропускной способностью 7 ТБ/с и 272 МБ SRAM.\r \r Архитектура Maia 200 иерархична и состоит из тайлов, кластеров и сетевых подключений. Это позволяет эффективно управлять памятью и оптимизировать скорость обработки данных. Чип оснащён встроенным сетевым адаптером (NIC) с пропускной способностью 1,4 ТБ/с и поддерживает масштабирование до 6144 ускорителей.\r \r Maia 200 будет использоваться в Azure для работы с моделями OpenAI, включая GPT-5.2, а также в Microsoft Foundry и Microsoft 365 Copilot. Microsoft заявляет, что новый ускоритель обеспечивает на 30% лучшую производительность на доллар по сравнению с текущими системами.

Обучение веб-агентов с помощью моделирования DynaWeb

Разработчики представили DynaWeb — новую систему для обучения автономных веб-агентов, использующих большие языковые модели и обучение с подкреплением. Основная проблема при обучении таких агентов — взаимодействие с реальным интернетом: это долго, дорого и небезопасно.\r \r DynaWeb решает эту проблему, создавая "мир" для агента, основанный на модели, которая предсказывает, как будет выглядеть веб-страница после действия агента. Агент учится в этой смоделированной среде, генерируя множество сценариев своих действий. Для повышения стабильности и эффективности обучения в этот процесс также добавляются реальные траектории действий от экспертов.\r \r Эксперименты на бенчмарках WebArena и WebVoyager показали, что DynaWeb значительно улучшает результаты современных открытых моделей веб-агентов. Это позволяет обучать агентов более масштабно и эффективно, используя "воображение".

Grok Imagine от xAI лидирует в рейтингах: API для генерации AI-видео

xAI выпустила API для Grok Imagine — инструмента для генерации изображений и коротких видео с помощью ИИ. Сервис получил внимание сообщества благодаря сочетанию скорости, доступной ценовой модели ($0.025 за 6-секундное или ~$0.07 для 15-секундного видео) и качества генерации.\r \r Grok Imagine позволяет создавать короткие видео до 10 секунд с синхронизированным аудио, а также генерировать видео из изображений — анимируя персонажей, заменяя объекты и меняя стиль сцен по текстовому описанию. Покадровое редактирование готовых видеофайлов не поддерживается.\r \r Согласно рейтингу Artificial Analysis (Video Arena), Grok Imagine демонстрирует сильные результаты в преобразовании текста и изображений в видео. В тестовых сравнениях сервис показывает конкурентоспособное качество на фоне решений от ведущих разработчиков. Успех объясняется балансом цены и качества генерации.\r \r xAI продолжает развивать направление генерации контента с помощью ИИ, предлагая инструменты для креаторов и разработчиков.

Qwen3-Max-Thinking от Alibaba: новая AI-модель для рассуждений и работы с кодом

Новая разработка отличается не только большим количеством параметров, но и новым подходом к выводам. Он обеспечивает контроль глубины “мышления” и включает инструменты для поиска, запоминания и выполнения кода. Модель способна обрабатывать контекст в 260 тысяч токенов, что позволяет работать с большими объемами данных.\r \r Qwen3-Max-Thinking – это модель с триллионом параметров, обученная на 36 триллионах токенов. Она предназначена для сложных рассуждений и работы с кодом. Доступ к модели осуществляется через API, совместимый с OpenAI, а также через Alibaba Cloud Model Studio.\r \r Особенностью модели является “кумулятивное мышление” – итеративный процесс, при котором промежуточные результаты используются для улучшения качества рассуждений без пропорционального увеличения затрат. Встроенные инструменты позволяют модели самостоятельно решать, когда использовать поиск, память или интерпретатор кода.

DeepSeek-OCR 2: новый подход к распознаванию текста в документах

DeepSeek AI выпустила DeepSeek-OCR 2 – систему для оптического распознавания символов (OCR) и анализа документов с открытым исходным кодом. Ключевое отличие новой версии – реструктуризация визуального энкодера, который теперь обрабатывает страницы в порядке, более близком к тому, как это делает человек при сканировании сложных документов.\r \r В основе системы лежит DeepEncoder V2 – трансформер, работающий как языковая модель и преобразующий двухмерную страницу в последовательность визуальных токенов, упорядоченных по принципу чтения. Это позволяет улучшить понимание структуры документа, особенно при наличии многоколоночного текста, таблиц и смешанных языков.\r \r DeepSeek-OCR 2 использует глобальный и локальный подход к обработке страниц, что позволяет эффективно работать с документами разной плотности. Общее количество токенов на страницу варьируется от 256 до 1120.\r \r Результаты тестирования на OmniDocBench-v1.5 показали улучшение общей оценки до 91.09 по сравнению с 87.36 у предыдущей версии DeepSeek-OCR. Также снизилась погрешность при распознавании порядка чтения и отдельных элементов документа.

Ant Group представила LingBot-VLA — новую модель для управления роботами

Ant Group Robbyant разработала LingBot-VLA — фундаментальную модель "зрение-язык-действие", предназначенную для практического управления роботами в реальном мире. Модель обучена на 20 000 часах данных телеоперации с использованием 9 различных манипуляторов с двумя руками и протестирована на бенчмарке GM-100, охватывающем 3 платформы.\r \r LingBot-VLA ориентирована на кросс-морфологическую обобщающую способность, эффективное постобучение и высокую скорость обучения на стандартных GPU-кластерах. В архитектуру модели входит мультимодальный блок, использующий Qwen2.5-VL, и "эксперт по действиям".\r \r Особенностью LingBot-VLA является интеграция LingBot-Depth, модели для определения глубины, что улучшает восприятие пространственных характеристик и повышает точность манипуляций с объектами. Результаты тестирования на GM-100 показали превосходство модели над другими решениями.

RedSage: LLM для кибербезопасности

Разработана новая большая языковая модель (LLM) под названием RedSage, предназначенная для помощи в операциях по кибербезопасности. Она создана для работы с различными задачами, не требуя передачи конфиденциальных данных сторонним сервисам.\r \r В основе RedSage лежит обучение на 11,8 миллиардах токенов данных, собранных из открытых источников и отобранных экспертами. Для улучшения качества модель прошла дополнительное обучение с использованием 266 тысяч примеров, сгенерированных с помощью имитации работы специалистов по кибербезопасности.\r \r RedSage – это модель с открытым исходным кодом, которую можно развернуть локально. Она показала хорошие результаты на специализированных бенчмарках, таких как RedSage-Bench, CTI-Bench, CyberMetric и SECURE, опережая базовые модели до +5.59%. Также демонстрирует хорошие результаты в общих задачах для LLM. Все ресурсы, включая код и данные, доступны для использования.

Взгляд на рынок труда в эпоху больших языковых моделей

В сфере искусственного интеллекта сейчас наблюдается парадоксальная ситуация: компаниям сложно найти подходящих кандидатов, а соискателям часто кажется, что упущенные возможности стоят слишком дорого, даже если текущая работа вполне устраивает.\r \r В условиях быстрого развития технологий процесс найма в ИИ может быть непрозрачным для опытных специалистов, а для начинающих и вовсе напоминает непреодолимую преграду. Главная особенность современного этапа — сложность и стремительность прогресса в области языковых моделей. Это делает опытных сотрудников особенно ценными, ведь у них есть системное видение и понимание долгосрочной перспективы.\r \r Для начинающих специалистов ключевым фактором успеха становится неутолимая жажда прогресса и стремление к совершенствованию. Без мотивации и усердия их легко заменить автоматизированными инструментами. Важно не просто выполнять работу, а стремиться к углубленному пониманию процесса.\r \r Работа в академической среде сейчас может быть более благоприятной для молодых талантов, однако сопряжена с финансовыми ограничениями. Если перед вами не стоит цель стать профессором, а предложение о работе в передовой лаборатории (например, Gemini, Anthropic, OpenAI) есть, то, возможно, стоит отказаться от продолжения обучения в аспирантуре.