ИИ-агенты для кодирования: контекст может навредить и ещё 16 новости

ИИ-агенты для кодирования: контекст может навредить

Исследователи из ETH Zurich обнаружили, что популярный метод "контекстного инжиниринга" для повышения производительности ИИ-моделей, использующих файлы конфигурации AGENTS.md, может приводить к обратному эффекту. Оказалось, что слишком подробные файлы контекста не только не помогают, но и снижают эффективность работы агентов.

Автоматически сгенерированные файлы контекста вообще снижают успешность решения задач примерно на 3%, увеличивают расходы на вывод на 20% и требуют больше шагов для выполнения. Даже файлы, написанные людьми, дают лишь незначительное улучшение - около 4%. Проблема в том, что ИИ-агенты склонны следовать инструкциям, даже если они излишни и только усложняют задачу.

Чтобы контекстные файлы были полезны, нужно предоставлять только самую важную информацию: стек технологий и цели проекта, особенности используемых инструментов и избегать излишних деталей, таких как подробные списки файлов или правила стиля. Важно делать файлы короткими (до 300 строк) и использовать ссылки на отдельные документы для конкретных задач.

Эластичные векторные базы данных для RAG: симулятор хэширования и шардирования

Разработан симулятор эластичной векторной базы данных, имитирующий распределенное хранение эмбеддингов в современных RAG-системах. В основе лежит консистентное хэширование с виртуальными узлами для обеспечения сбалансированного распределения и минимизации перемещений данных при масштабировании.

Представлена визуализация хэш-кольца в реальном времени с возможностью добавления и удаления узлов для наблюдения за минимизацией перемещений эмбеддингов. Реализованы алгоритмы для управления шардами данных и отслеживания их распределения по узлам.

Симулятор позволяет оценить влияние изменений в топологии на стабильность системы и подтверждает принцип минимизации перемещения данных при масштабировании. Это дает наглядное представление о работе эластичных распределенных баз данных в RAG-системах.

LM Link: Запуск LLM на удалённом GPU стал проще

Разработчики часто сталкиваются с проблемой: мощный компьютер с видеокартой для работы с ИИ есть дома или в офисе, а в поездках приходится пользоваться менее производительным ноутбуком. Подключение к "большой машине" раньше требовало сложных настроек сети.

Теперь LM Studio и Tailscale представили LM Link — решение, которое позволяет обращаться к удалённому железу как к локальному. Это достигается за счёт создания зашифрованного туннеля и аутентификации через учётные записи пользователей.

Ключевая особенность LM Link — отказ от использования API-ключей и публичных конечных точек, что повышает безопасность. Для работы используется библиотека tsnet от Tailscale, которая работает в пользовательском пространстве, не требуя прав администратора. Подключение зашифровано по протоколу WireGuard.

LM Link интегрируется в существующие инструменты без изменений в коде. Достаточно загрузить модели на удалённый компьютер и подключиться к ним через локальный сервер LM Studio (порт 1234).

Новый метод ускоряет обучение больших языковых моделей

Большие языковые модели (LLM), предназначенные для решения сложных задач, работают, разбивая их на более простые этапы. Они особенно хороши в таких областях, как программирование и многоступенчательное планирование. Однако обучение таких моделей требует огромных вычислительных ресурсов и энергозатрат из-за неэффективности процесса.

Исследователи из MIT и других организаций разработали новый метод, позволяющий ускорить обучение моделей, используя время простоя вычислительных ресурсов. Система автоматически обучает небольшую, быструю модель прогнозировать результаты работы более крупной модели, которую затем проверяет.

Ключевой особенностью является адаптивное обучение и использование небольшой модели только тогда, когда часть процессоров не занята. Это позволяет ускорить процесс обучения, не увеличивая при этом затраты. В ходе тестирования скорость обучения увеличилась в два раза, сохранив при этом точность. Это может снизить стоимость и повысить энергоэффективность разработки продвинутых LLM.

Разработчики стремятся научить модели выявлять и исправлять ошибки в процессе мышления, что позволяет им справляться со сложными задачами. Новый подход может помочь в решении таких задач, как прогнозирование финансовых трендов или обнаружение рисков в энергетических сетях.

Hermes Agent: AI с памятью для эффективных задач

Новая система от Nous Research решает проблему "забывчивости" AI-агентов, когда каждый новый сеанс начинается как с чистого листа. В отличие от многих LLM, Hermes Agent способен сохранять контекст и использовать накопленный опыт.

Ключевой особенностью является многоуровневая система памяти. Агент не просто анализирует большие объемы текста, а формирует "навыки" – структурированные записи об успешных решениях, которые хранятся в виде markdown-файлов в формате agentskills.io. Это позволяет ему не начинать работу с нуля при решении похожих задач.

Кроме того, Hermes Agent обеспечивает постоянный доступ к окружению. Он может работать напрямую с локальной машиной, в Docker-контейнерах, подключаться к удаленным серверам по SSH, а также взаимодействовать с облачными платформами. Агент способен выполнять длительные задачи, сохранять состояние и отслеживать изменения файлов.

Управление агентом доступно через популярные мессенджеры: Telegram, Discord, Slack и WhatsApp. Вы можете начать задачу на компьютере и получать уведомления о её завершении на телефоне.

Perplexity Computer: AI-агент с 19 моделями

Perplexity представила новую систему под названием Computer, которая распределяет задачи между 19 различными ИИ-моделями. Это один из первых проектов, где гибкость в выборе моделей является ключевой особенностью.

Система позволяет пользователям описывать желаемый результат, после чего автоматически запускает "под-агентов", способных искать информацию, писать код, подключаться к приложениям и выполнять задачи автономно. Каждая задача выполняется в изолированной среде, позволяя свободно комбинировать модели и работать длительное время.

Генеральный директор Perplexity, Аравинд Шринивас, отметил, что в отличие от некоторых других систем, Computer может работать с разными моделями, а не только с собственной, как, например, Claude.

Стоимость использования Computer зависит от объема потребления, при этом подписчики тарифного плана Max получают ежемесячный лимит в 10 000 кредитов и возможность выбора модели для каждой задачи.

WaterVIB: Защита контента от ИИ-подделок

Разработана новая технология WaterVIB, призванная защитить авторские права в эпоху генеративного ИИ. Существующие методы цифровой водяной печати оказываются уязвимыми к атакам, когда контент перегенерируется с помощью искусственного интеллекта.

WaterVIB работает, отфильтровывая ненужные детали и фокусируясь на самых важных сигналах, которые сложно изменить при перегенерировании. Вместо того чтобы "встраивать" водяной знак в текстуру изображения, WaterVIB создает минимальную, но достаточную статистику сообщения, устойчивую к изменениям.

Исследователи показали, что новый подход значительно превосходит существующие методы, обеспечивая лучшую защиту от редактирования контента с помощью нейросетей. WaterVIB устойчив к новым, неизвестным атакам, основанным на диффузии.

OpenClaw: 7 инструментов для автоматизации бизнес-процессов

OpenClaw – платформа для автоматизации бизнес-процессов, возможности которой часто используются лишь частично. Разработчики выделили семь ключевых инструментов и интеграций, способных значительно расширить функциональность системы.

Среди них – расширения для работы с базами данных, интеграция с популярными сервисами рассылок, а также инструменты для автоматического создания отчетов и аналитики. Это позволяет не только упростить рутинные задачи, но и получить более глубокое понимание данных.

OpenClaw – это решение с открытым исходным кодом, доступное для бесплатного использования и модификации. Платформа предназначена для компаний, стремящихся к оптимизации рабочих процессов и повышению эффективности.

MoE в трансформерах: масштабирование нейросетей

В архитектуру трансформеров, лежащую в основе многих современных больших языковых моделей, внедряется концепция Mixture of Experts (MoE) – "смесь экспертов". Этот подход позволяет значительно увеличить размер модели без пропорционального увеличения вычислительных затрат.

Вместо того чтобы активировать все параметры сети при обработке каждого запроса, MoE распределяет задачу между несколькими "экспертами" – небольшими нейросетями. Для каждого запроса выбирается лишь небольшое количество наиболее подходящих экспертов, что делает процесс более эффективным.

Исследователи отмечают, что MoE позволяет создавать модели с триллионами параметров, которые превосходят по своим возможностям меньшие, но более плотные сети. Это открывает новые перспективы в области машинного обучения и искусственного интеллекта. Подробности пока ограничены, но направление выглядит перспективным для дальнейшего развития больших языковых моделей.

ILUNION трансформировала работу юристов с помощью Copilot 365

Юридическая команда компании ILUNION, специализирующейся на решениях для людей с инвалидностью, сообщила о значительных изменениях в работе благодаря использованию Microsoft Copilot 365. По словам Хосе Луиса Барсело, внедрение ИИ-помощника привело к "глубокой трансформации" рабочих процессов.

Copilot 365 помогает юристам ILUNION в подготовке документов, анализе информации и поиске необходимых данных. Это позволило оптимизировать рутинные задачи и сосредоточиться на более сложных вопросах. Компания отмечает, что инструмент значительно повысил эффективность работы и сократил время на выполнение задач.

В ILUNION подчеркивают важность творческого подхода к использованию ИИ и отмечают роль юридической команды в адаптации Copilot 365 к специфическим потребностям компании.

Озера данных, хранилища данных, Lakehouse и Data Mesh: в чем разница?

В мире управления данными существует несколько архитектур, каждая из которых предназначена для решения определенных задач. Озеро данных (Data Lake) — это централизованное хранилище для структурированных, полуструктурированных и неструктурированных данных. Оно позволяет хранить всё в исходном формате, что удобно для аналитики и машинного обучения.

Хранилище данных (Data Warehouse) отличается от озера тем, что хранит только структурированные данные, прошедшие предварительную обработку. Это обеспечивает высокую скорость запросов и подходит для отчетности и бизнес-аналитики.

Lakehouse — это гибридный подход, сочетающий преимущества обоих предыдущих вариантов. Он позволяет работать со структурированными и неструктурированными данными, сохраняя при этом скорость и надежность хранилища.

Data Mesh — это децентрализованный подход, при котором ответственность за управление данными распределяется между разными командами, каждая из которых отвечает за свой домен. Это позволяет быстрее реагировать на изменения и повышает гибкость.

Выбор подходящей архитектуры зависит от конкретных потребностей и задач организации.

OpenAI Codex и Figma: новый инструмент для разработчиков

OpenAI и Figma представили интеграцию, которая позволяет командам разработчиков плавно переходить между кодом и дизайном. Новый инструмент связывает Codex — ИИ-модель от OpenAI, генерирующую код, — и холст Figma.

Интеграция позволяет быстро переносить изменения между кодовой базой и макетами, ускоряя процесс итераций и разработки. Это может быть особенно полезно при создании пользовательских интерфейсов и компонентов.

Теперь разработчики могут видеть, как изменения в коде влияют на дизайн в режиме реального времени, и наоборот, не покидая привычную среду Figma. Подробности о доступности и ценах не сообщаются.

OpenAI и лаборатория ускорят инфраструктурные проекты

Национальная лаборатория Тихоокеанского Северо-Запада и OpenAI объединили усилия для ускорения процесса получения разрешений на строительство и модернизацию инфраструктуры в США. Разработан новый инструмент – DraftNEPABench, который использует возможности ИИ для автоматизации части работы.

Этот бенчмарк оценивает, насколько хорошо ИИ-агенты могут справляться с составлением документов, необходимых для соблюдения закона о национальном экологическом политике (NEPA). Исследования показали, что использование ИИ может сократить время подготовки этих документов до 15%.

Упрощение процесса получения разрешений позволит быстрее реализовывать важные инфраструктурные проекты и снизит бюрократическую нагрузку. Подробности о самом инструменте и результатах тестирования доступны исследователям и разработчикам.

Google представляет Nano-Banana 2: AI для работы на устройствах

Google выпустила Nano-Banana 2 (Gemini 3.1 Flash Image) – новую модель искусственного интеллекта, ориентированную на выполнение задач непосредственно на смартфоне или другом устройстве, без отправки данных в облако.

Ключевой особенностью является высокая скорость работы и поддержка генерации изображений в разрешении до 4K (облачная модель, время генерации 10-56 секунд при 4K). Это стало возможным благодаря технологии Dynamic Quantization-Aware Training (DQAT), которая позволяет уменьшить размер модели без потери качества.

Новая модель способна отслеживать до пяти персонажей в сгенерированных изображениях, сохраняя их идентичность, и использовать специализированные модули LoRA ("Banana-Peels") для адаптации к конкретным задачам, например, создание изображений в медицинских или художественных целях.

Разработчики получили возможность интегрировать Nano-Banana 2 в Android AICore через Banana-SDK, обеспечивая стандартизированный API для локального выполнения задач ИИ.

Python-скрипты для автоматической проверки качества данных

Некачественные данные могут приводить к ошибочным решениям. Предлагаем подборку из пяти Python-скриптов, которые помогут выявлять проблемы с данными до того, как они станут критическими.

Скрипты предназначены для автоматизации процесса проверки данных, выявления несоответствий и ошибок. Они могут быть использованы для проверки типов данных, наличия пропущенных значений, соответствия данных заданным правилам и другим важным параметрам.

Применение таких инструментов позволит повысить надежность анализа данных и избежать ошибок, связанных с использованием некачественных данных. Это особенно важно для проектов, где точность информации играет ключевую роль.

Наличие готовых скриптов упрощает процесс проверки и позволяет быстро выявлять потенциальные проблемы. Эти инструменты могут быть интегрированы в существующие процессы обработки данных, обеспечивая непрерывный мониторинг качества.

Новости ИИ: Юридический отдел ILUNION трансформировался с Copilot 365

Юридический отдел ILUNION трансформировался благодаря Copilot 365

Компания ILUNION, специализирующаяся на оказании услуг для людей с ограниченными возможностями, утверждает, что значительно улучшила работу своей юридической команды с помощью Microsoft Copilot 365. По словам Хосе Луиса Барсело, представителя ILUNION, внедрение Copilot привело к "глубокой трансформации".

Copilot 365 — это инструмент на базе искусственного интеллекта, предназначенный для повышения производительности в приложениях Microsoft 365. Юристы ILUNION используют его для различных задач, включая анализ документов и составление юридических заключений.

Результатом стало повышение эффективности и сокращение времени, затрачиваемого на рутинные операции. ILUNION отмечает, что Copilot помогает им быстрее реагировать на запросы и более качественно выполнять свою работу. Подробности о конкретных улучшениях не приводятся.

Создатель Claude Code о своем рабочем процессе

Создатель Claude Code рассказал о своем рабочем процессе, и разработчики в восторге

В мире IT внимательно следят за тем, что говорит создатель одного из самых продвинутых инструментов для кодирования. Недавно Борис Черны, разработчик и руководитель Claude Code в Anthropic, поделился своим подходом к работе, вызвав бурное обсуждение в сообществе. Его "случайный" рассказ о настройке терминала превратился в настоящий манифест будущего разработки программного обеспечения.

Многие считают этот подход переломным моментом. Один из разработчиков отметил, что если вы не изучаете лучшие практики Claude Code напрямую от его создателя, то отстаете от прогресса. Другие предсказывают Anthropic "момент ChatGPT", указывая на их "гейм-ченджинговые" обновления.

Суть в том, что рабочий процесс Черны удивительно прост, но позволяет одному человеку справляться с объемом работы, который обычно требует целой команды. Многие сравнивают этот опыт с управлением юнитами в стратегии в реальном времени, а не с привычным написанием кода.

Черны использует пять экземпляров Claude, работающих параллельно в терминале, управляя ими через уведомления. Кроме того, он запускает 5-10 экземпляров на сайте claude.ai, переключаясь между ними. Такой подход подтверждает стратегию "больше с меньшими затратами", которую продвигает Anthropic. Они демонстрируют, что эффективное управление существующими моделями может принести экспоненциальный рост производительности.