Развёртывание VLM на NVIDIA Jetson: новые возможности и ещё 13 новости

Развёртывание VLM на NVIDIA Jetson: новые возможности

Разработчики получили возможность развёртывать открытые модели компьютерного зрения и обработки естественного языка (VLM) на устройствах NVIDIA Jetson. Это позволяет создавать приложения, способные понимать изображения и текст, непосредственно на небольших и энергоэффективных устройствах.

Новые инструменты и оптимизации упрощают процесс развёртывания, позволяя исследователям и разработчикам создавать и внедрять инновационные решения в таких областях, как робототехника, автономные системы и интеллектуальные камеры.

Модели, доступные для Jetson, предоставляют широкие возможности для понимания и интерпретации визуальной информации в сочетании с текстовыми данными. Проекты с открытым исходным кодом позволяют настраивать и дорабатывать модели под конкретные задачи.

OpenAI представляет GPT-4o в режиме реального времени

OpenAI представила новый режим работы API – Realtime API, использующий протокол WebSocket. Это позволяет значительно снизить задержки при создании голосовых AI-агентов, отказавшись от последовательной обработки "речь-текст-ответ-текст-голос".

Новый API обеспечивает прямой и постоянный канал связи с мультимодальными возможностями GPT-4o. Это переход от однократных запросов и ответов к потоковой передаче данных в режиме реального времени. Подключение осуществляется по адресу wss://api.openai.com/v1/realtime?model=gpt-4o-realtime-preview.

Ключевыми элементами архитектуры являются сессия (настройка системы), элементы (фрагменты диалога) и ответы (команды для генерации ответа). API поддерживает аудиокодеки PCM16 и G.711, требуя потоковую передачу аудиофрагментов длительностью 20-100 мс. Улучшена система определения начала и конца речи (VAD), теперь она способна отличать паузу для размышления от завершения фразы.

Взаимодействие с WebSocket происходит асинхронно, посредством различных событий, таких как начало записи речи, получение аудио- и текстовых фрагментов ответа, а также обрезка контекста при перебивании пользователя.

Composio представляет Agent Orchestrator для масштабируемых AI-агентов

Разработчики ИИ часто используют шаблон ReAct (Рассуждение + Действие), представляющий собой простой цикл "думай – выбирай инструмент – выполняй". Однако в реальных проектах такие циклы оказываются хрупкими, склонными к ошибкам и не справляются со сложными задачами.

Команда Composio разработала Agent Orchestrator – фреймворк, призванный перевести разработку агентов на новый уровень, от простых циклов к структурированным рабочим процессам. Система рассматривает AI-агентов как надёжные программные модули, а не непредсказуемые чат-боты.

В основе Orchestrator лежит разделение на два слоя: планировщик и исполнитель. Планировщик разбивает задачу на подзадачи, а исполнитель отвечает за взаимодействие с инструментами. Такой подход позволяет избежать "жадных" решений и повышает точность выполнения задач. Кроме того, система динамически подгружает только необходимые инструменты, уменьшая "шум" и повышая эффективность.

Особое внимание уделено управлению состоянием и отслеживаемости. Orchestrator ведет журнал всех действий, что позволяет легко отлаживать и исправлять ошибки, а также обеспечивает отказоустойчивость.

Nacrith: нейронный алгоритм сжатия данных без потерь

Разработана система сжатия данных Nacrith, использующая нейронную сеть на базе трансформера SmolLM2-135M. В сочетании с арифметическим кодированием и ансамблем предиктивных моделей, она обеспечивает высокую степень сжатия.

Ключевые особенности алгоритма: повышенная точность кодирования, использование N-грамм для быстрой обработки, адаптивный механизм коррекции ошибок и возможность пропускать предсказуемые фрагменты текста. Кроме того, Nacrith может работать с любыми двоичными файлами, что является первым подобным решением среди компрессоров на основе больших языковых моделей.

Тесты показали, что Nacrith превосходит традиционные алгоритмы, такие как gzip, bzip2, CMIX v21 и ts_zip, по скорости и степени сжатия. Для работы системе требуется всего 500 МБ весов и 1.2 ГБ видеопамяти.

Anthropic обвиняет китайские компании в копировании Claude

Компания Anthropic заявила, что китайские лаборатории DeepSeek, MiniMax и Moonshot использовали сфальсифицированные аккаунты для копирования возможностей Claude, получив доступ к данным через 16 миллионов запросов. Компания считает, что это требует коллективных действий в сфере разработки ИИ.

По утверждению Anthropic, эти лаборатории использовали метод "дистилляции", обучая свои модели на ответах, сгенерированных Claude. DeepSeek, в частности, заставляла Claude объяснять ход рассуждений и переписывать тексты на политически чувствительные темы, получая данные для обучения и цензуры.

OpenAI ранее также выражала обеспокоенность по поводу подобных действий. Anthropic призывает к координации между компаниями и правительствами для решения этой проблемы.

Google DeepMind: AlphaEvolve создает новые алгоритмы ИИ

Исследователи Google DeepMind представили AlphaEvolve – систему, использующую большие языковые модели (LLM) для автоматического создания новых алгоритмов машинного обучения. AlphaEvolve рассматривает исходный код как "геном" и способна не просто настраивать параметры, а изобретать новую логику.

В основе AlphaEvolve лежит "семантическая эволюция", где LLM (Gemini 2.5 pro) вносит изменения в код, стремясь уменьшить уязвимости алгоритмов. Процесс включает в себя инициализацию, мутацию кода, автоматическую оценку на упрощенных играх и выбор лучших кандидатов для дальнейшего улучшения.

В результате работы AlphaEvolve были созданы два новых алгоритма: VAD-CFR и SHOR-PSRO. VAD-CFR (Volatility-Adaptive Discounted CFR) адаптируется к изменчивости игрового процесса, используя механизм взвешенного усреднения для быстрого забывания нестабильной информации и удержания важной истории. SHOR-PSRO (Smoothed Hybrid Optimistic Regret PSRO) использует гибридный подход, сочетая стабильность с агрессивным поиском оптимальных стратегий.

Оба алгоритма показали высокие результаты в тестах, превзойдя существующие решения в большинстве игровых сценариев.

5 Python библиотек для валидации данных

В Python существует множество инструментов для валидации данных, но пять выделяются своим подходом и решением конкретных задач. Эти библиотеки помогут вам поддерживать качество данных в проектах машинного обучения и при обработке информации.

Каждая библиотека предлагает уникальный способ проверки: от простых правил до сложных схем. Это позволяет разработчикам выбирать оптимальное решение для конкретной задачи, избегая излишней сложности или недостаточной надёжности.

Использование библиотек валидации данных помогает избежать ошибок, улучшить стабильность приложений и упростить отладку. Они особенно полезны при работе с внешними источниками данных или при разработке систем, требующих высокой точности.

Эти инструменты позволяют быстро и эффективно определять несоответствия в данных, обеспечивая их соответствие заданным критериям. Это критически важно для получения достоверных результатов в анализе данных и машинном обучении.

AI помогает врачам Великобритании: больше времени для пациентов

В Великобритании разработан инструмент на основе искусственного интеллекта, призванный сократить время, затрачиваемое врачами на административную работу. Это позволяет медикам больше внимания уделять своим пациентам и улучшать качество обслуживания.

Новый AI-ассистент помогает автоматизировать рутинные задачи, такие как заполнение медицинской документации и составление отчётов. Врачи отмечают, что инструмент значительно экономит их время и снижает уровень стресса. Благодаря этому, они могут более полноценно общаться с пациентами, выслушивать их жалобы и разрабатывать оптимальные планы лечения.

Разработчики утверждают, что AI не заменяет врачей, а лишь помогает им работать эффективнее. Инструмент предназначен для поддержки медицинского персонала, а не для принятия самостоятельных решений. Все данные, полученные с помощью AI, подвергаются проверке и утверждению врачами.

Notebooklm: Генерация технических заданий с помощью AI

Новая функция NotebookLM позволяет быстро создавать полноценные технические задания (PRD) на основе необработанных данных и заметок. Инструмент поможет упорядочить хаотичную информацию и структурировать её в готовый к использованию документ.

По сути, NotebookLM анализирует входные данные и автоматически формирует PRD, экономя время разработчикам и менеджерам продукта. Это может быть полезно при запуске новых проектов или доработке существующих.

Подробности о доступности и условиях использования новой функции уточняются.

Дистилляция для китайских LLM: что это и почему важно?

В последнее время активно обсуждается вопрос о "дистилляции" — использовании результатов работы более мощной модели для обучения менее мощной. Изначально этот термин имел более техническое значение, связанное со способом обучения, имитирующим распределение вероятностей "учительской" модели. Однако в современном контексте "дистилляция" часто означает создание синтетических данных с помощью API более сильных моделей.

Синтетические данные — один из самых полезных инструментов для улучшения моделей ИИ. Архитектура и человеческий вклад также важны, но значительная часть работы по совершенствованию моделей сегодня заключается в правильном захвате и масштабировании таких синтетических данных.

Недавно компания Anthropic обвинила ряд китайских лабораторий — DeepSeek, Moonshot и MiniMax — в масштабных кампаниях по "дистилляции" их моделей Claude. Обнаружено, что эти лаборатории использовали API для создания более 16 миллионов запросов, нарушая условия обслуживания. При этом, эффект от такого "дистиллирования" может быть разным.

Объемы сгенерированных данных могут быть значительными, но качество и способ их интеграции в процесс обучения играют решающую роль. Китайские лаборатории могут компенсировать ограниченный доступ к GPU за счет более эффективного использования API других моделей. При этом, ситуация сложна и требует дальнейших исследований.

Alibaba представляет Qwen 3.5: новые LLM с высокой эффективностью

Alibaba представила новую серию больших языковых моделей Qwen 3.5, делая ставку на архитектурную эффективность и качество данных, а не на простое увеличение размера. Модели Qwen3.5-Flash, Qwen3.5-35B-A3B, Qwen3.5-122B-A10B и Qwen3.5-27B демонстрируют, что можно достичь высокого уровня интеллекта, используя меньше вычислительных ресурсов.

Ключевым достижением стала модель Qwen3.5-35B-A3B, которая превзошла предыдущие версии Qwen, при этом активирует всего 3 миллиарда параметров из 35 доступных. Это стало возможным благодаря гибридной архитектуре с использованием Gated Delta Networks и Gated Attention.

Модель Qwen3.5-Flash оптимизирована для использования в продакшене и обеспечивает низкую задержку. Она поддерживает контекстное окно в 1 миллион токенов и имеет встроенные инструменты для взаимодействия с API и базами данных. Модели Qwen3.5-122B-A10B и Qwen3.5-27B ориентированы на выполнение сложных задач, требующих планирования и логического мышления.

Веса моделей и доступ к API Flash доступны для ознакомления.

Arvind KC возглавил отдел кадров OpenAI

OpenAI назначила Arvind KC на должность директора по персоналу (Chief People Officer). Он будет отвечать за масштабирование компании, укрепление корпоративной культуры и организацию рабочих процессов в эпоху развития искусственного интеллекта.

Ранее KC занимал руководящие должности в Splunk и другие крупных компаниях, где специализировался на управлении персоналом и построении эффективных команд. Его опыт поможет OpenAI адаптироваться к быстрому росту и решать задачи, связанные с развитием технологий ИИ.

Основная цель назначения – обеспечить компании необходимые ресурсы для дальнейшего развития и удержания талантов в конкурентной среде.

Где запускать AI: облако, локально или гибридно?

Для большинства компаний среднего и малого бизнеса вопрос об искусственном интеллекте изменился. Если раньше спрашивали, стоит ли его вообще использовать, то теперь важнее понять, где именно запускать AI-модели.

Выбор места развертывания влияет на стоимость, производительность и безопасность. Облачные решения предлагают масштабируемость и простоту использования, но могут быть дорогими и вызывать опасения по поводу конфиденциальности данных. Локальное развертывание обеспечивает полный контроль, но требует значительных инвестиций в оборудование и экспертизу.

Гибридный подход сочетает преимущества обоих вариантов, позволяя запускать критически важные задачи локально, а менее чувствительные – в облаке. Оптимальный выбор зависит от конкретных потребностей и ресурсов компании.

Симуляция византийской отказоустойчивости с помощью asyncio

Разработана реализация симулятора практической византийской отказоустойчивости (PBFT) на базе asyncio. Модель представляет собой распределенную сеть с асинхронной передачей сообщений, настраиваемыми задержками и узлами, намеренно отклоняющимися от протокола.

В симуляторе реализованы этапы предварительной подготовки, подготовки и фиксации, что позволяет исследовать достижение консенсуса в условиях атак. Система измеряет время достижения консенсуса и процент успешных операций при увеличении числа злонамеренных узлов, позволяя оценить границы византийской отказоустойчивости.

Симулятор основан на библиотеках asyncio и dataclasses для структурированного взаимодействия. Он моделирует недоопределенное поведение сети, влияющее на время достижения консенсуса и устойчивость. В симуляции поддерживаются как корректные, так и злонамеренные узлы, а также реализован механизм кворума.

Проект доступен на GitHub, что позволяет экспериментировать с расширениями, такими как смена лидера или аутентификация сообщений.