LEMUR: AI-фреймворк для поиска документов в 10 раз быстрее и ещё 10 новости

LEMUR: AI-фреймворк для поиска документов в 10 раз быстрее

Ученые представили LEMUR – новый фреймворк для ускорения поиска похожих документов, использующих многовекторные представления данных. Такие представления, как ColBERT, обеспечивают более точные результаты по сравнению с традиционными методами, но требуют больших вычислительных затрат.\r \r Основная идея LEMUR заключается в преобразовании многовекторного поиска в задачу обучения с учителем, решаемую с помощью нейронной сети с одним скрытым слоем. Это позволяет свести сложный поиск к более простому поиску по латентному пространству, используя существующие алгоритмы поиска ближайших соседей.\r \r В ходе экспериментов на различных типах данных, включая текстовые и визуальные документы, LEMUR показал себя в 10 раз быстрее предыдущих методов поиска по многовекторным представлениям. Алгоритм может быть полезен в задачах, требующих быстрого и точного поиска информации в больших объемах данных.

GiG: AI-система планирования для роботов с LLM

Исследователи представили GiG – новую систему планирования задач для “воплощенных агентов”, то есть роботов, действующих в реальном мире. GiG использует большие языковые модели (LLM) и решает проблему долгосрочного планирования, с которой часто сталкиваются роботы.\r \r Ключевая особенность GiG – использование “графа в графе” для организации памяти робота. Система анализирует окружающую среду и создает граф связей между действиями и их результатами, сохраняя эту информацию в памяти. При возникновении новой задачи GiG ищет схожие ситуации в прошлом опыте и использует их для принятия решений. Кроме того, система учитывает логику реального мира, чтобы избежать невозможных действий.\r \r GiG показал хорошие результаты на трех тестовых платформах: Robotouille (синхронный и асинхронный режимы) и ALFWorld. Система превзошла существующие аналоги, повысив процент успешного выполнения задач до 22%, 37% и 15% соответственно, при сопоставимых вычислительных затратах.

Статистическая цена нулевой подложки в сверточных нейронных сетях

В сверточных нейронных сетях (CNN) часто используется техника добавления нулевых пикселей по краям изображения – так называемая нулевая подложка. Она помогает фильтрам обрабатывать края изображений и контролировать размер выходных данных после свертки. Однако, с точки зрения обработки сигналов и статистики, это не нейтральная операция.\r \r Добавление нулей создает искусственный разрыв между реальными пикселями и границей, что воспринимается сверточными фильтрами как резкий переход – как настоящий край. Модель начинает обучаться разным статистическим закономерностям в центре и на границах изображения, нарушая инвариантность к сдвигу и искажая активации на краях.\r \r Вместо того, чтобы игнорировать границу, модель может начать интерпретировать её как важную особенность. Это происходит из-за резкого изменения интенсивности на границе между нулями и реальными пикселями, что приводит к искажению статистического распределения пикселей на краях изображения.\r \r Для более надежных систем рекомендуется использовать альтернативные методы подложки, такие как отражение или повторение, которые сохраняют статистическую непрерывность границ и предотвращают обучение на артефактах.

Google представляет Conductor: расширение Gemini CLI с контекстным управлением

Google выпустила Conductor – расширение для Gemini CLI с открытым исходным кодом, которое превращает генерацию кода с помощью ИИ в структурированный рабочий процесс с учетом контекста. Вместо случайных запросов, Conductor хранит знания о продукте, технические решения и планы работы в виде версионированных Markdown-файлов в репозитории, а затем использует их для управления агентами ИИ.\r \r В отличие от текущих практик, когда контекст теряется после завершения сеанса, Conductor поддерживает постоянный контекст. Он сохраняет цели продукта, ограничения, технический стек, правила и руководства по стилю в виде Markdown-файлов, которые Gemini читает при каждом запуске. Это обеспечивает воспроизводимость поведения ИИ на разных машинах и командах.\r \r Conductor придерживается четкого цикла: контекст – спецификация и план – реализация. Расширение не переходит сразу к редактированию кода, а сначала создает "трек" (задачу), пишет спецификацию, генерирует план и только потом выполняет код. Установка расширения осуществляется одной командой, а команда /conductor:setup создает базовый контекст, генерируя необходимые Markdown-файлы.\r \r Для каждой новой задачи создается директория с файлами спецификации, плана и метаданных, что делает требования и план выполнения явными и контролируемыми с помощью Git. Реализация осуществляется командой /conductor:implement, которая использует план для выполнения задач, обновляет статус и предоставляет инструменты для проверки и отката изменений.

Многоуровневые фильтры безопасности для LLM: защита от атак | Новости ИИ

Разработана система многоуровневой защиты больших языковых моделей (LLM) от адаптивных и замаскированных атак. Система сочетает семантический анализ, поиск по шаблонам, классификацию намерений с помощью LLM и обнаружение аномалий. Такой подход исключает зависимость от единственной точки отказа. Реализованы механизмы для выявления как очевидных, так и тонких попыток обхода ограничений модели.\r \r В основе системы лежит фильтр, использующий предобученные модели для оценки семантического сходства входящих запросов с известными вредоносными шаблонами. Дополнительно реализован анализ текста на наличие ключевых слов и фраз, указывающих на попытки обхода защиты. Для выявления скрытых намерений применяется классификация с помощью LLM.\r \r В качестве дополнительного уровня защиты используется обнаружение аномалий для выявления необычного поведения, которое может указывать на попытки взлома. Все эти слои интегрированы в единый конвейер, который оценивает общий уровень риска и принимает решение о блокировке или разрешении запроса.

Token-Guard: метод борьбы с галлюцинациями AI

Новый метод Token-Guard призван уменьшить склонность больших языковых моделей (LLM) к “галлюцинациям” – генерации неправдоподобного или противоречивого контента. В отличие от подходов, требующих больших затрат на обучение или поиск информации, Token-Guard работает непосредственно на этапе декодирования.\r \r Суть метода заключается в самопроверке каждого сгенерированного токена. Token-Guard оценивает риски появления “галлюцинаций” в скрытом пространстве и динамически корректирует ошибки с помощью отсечения и повторной генерации. Такой подход позволяет выявлять и исправлять проблемные фрагменты на ранних стадиях.\r \r Эксперименты на HALU датасетах показали, что Token-Guard значительно снижает количество “галлюцинаций” и повышает точность генерации. Разработчики утверждают, что их решение масштабируемо и может быть легко интегрировано в существующие LLM. Код проекта находится в открытом доступе.

Tvorra: AI-приложение для создания видео из фото и текста

Tvorra – это новое мобильное приложение для создания AI-видео, доступное в App Store. Оно подходит для быстрого создания коротких роликов для соцсетей и других креативных проектов. Несмотря на простоту освоения, в приложении есть и продвинутые функции для профессионального монтажа.\r \r С помощью Tvorra можно превратить статичные изображения и даже текстовые запросы в анимированные видео. Приложение позволяет добавлять различные эффекты, например, “объятия”, “поцелуи” и менять стиль видео. Оно особенно удобно для создания контента для Reels и TikTok.\r \r Помимо Tvorra, существуют и другие AI-инструменты для создания видео, предлагающие различные возможности и ценовые политики. Среди них – Candy AI, Ourdream, Mydreamcompanion и Promptchan. Эти альтернативы могут быть полезны, если вам требуется больше контроля, более гибкие бесплатные тарифы или меньше ограничений в творчестве.

EigenData: автоматическая генерация данных для обучения AI с самообучением и RL

EigenData – это иерархический движок, который автоматически генерирует данные для обучения и проверяет их качество. Система способна создавать реалистичные диалоги, связанные с использованием различных инструментов, а также проверять правильность их выполнения. Ключевой особенностью является самообучение – система постоянно совершенствует процесс генерации данных, обновляя запросы и последовательность действий.\r \r В основе обучения лежит метод обучения с подкреплением (RL), который сначала настраивает модель пользователя, а затем использует алгоритм GRPO для оптимизации обучения. Такой подход позволяет добиться стабильного улучшения результатов без необходимости в больших объемах данных, размеченных человеком.\r \r На тесте tau^2-bench система показала 73% успешных решений в задачах, связанных с авиакомпаниями, и 98,3% в задачах телекоммуникаций, что сопоставимо или превосходит результаты существующих моделей.

xAI и SpaceX объединяются в гигантский конгломерат | Новости ИИ

Компания SpaceX объединилась с xAI, создав крупнейшую частную компанию в мире, оцененную в 1,25 триллиона долларов. Илон Маск видит будущее, в котором вычислительные мощности, размещенные в космосе, помогут решить энергетические проблемы, сдерживающие развитие ИИ на Земле.\r \r Новая структура предполагает, что xAI будет работать как подразделение SpaceX. Маск предполагает, что размещение дата-центров на орбите позволит получить дешевле вычислительные ресурсы за счет постоянного доступа к солнечной энергии. В его планы также входит создание баз на Луне и колонизация Марса.\r \r Это объединение – часть стратегии Маска по консолидации своих технологических активов. Дата-центры в космосе – амбициозная идея, но SpaceX, благодаря своему опыту в космической отрасли, имеет уникальные возможности для её реализации.

Обучение генеративных моделей для создания изображений - новости ИИ

Исследователи изучили, как различные аспекты обучения влияют на качество изображений, создаваемых нейросетями по текстовому описанию. Они провели серию экспериментов, намеренно удаляя (ablating) отдельные компоненты процесса обучения, чтобы понять их роль.\r \r Выяснилось, что правильный выбор обучающих данных и их последовательность критически важны. Модели лучше всего справляются, когда сначала обучаются на простых изображениях, а затем – на более сложных. Также важно учитывать разнообразие обучающих данных и избегать перекосов. Оптимизация параметров обучения, таких как скорость обучения и размер пакета, также оказывает значительное влияние на конечный результат.\r \r Полученные знания могут помочь разработчикам создавать более эффективные и точные генеративные модели для преобразования текста в изображения. Это, в свою очередь, откроет новые возможности в области искусства, дизайна и автоматической генерации контента.

VideoAesBench: бенчмарк для оценки понимания эстетики видео AI-моделями

Разработан новый комплексный бенчмарк VideoAesBench для оценки способности больших мультимодальных моделей (LMM) понимать и оценивать эстетическое качество видео. До сих пор эта важная для человека способность исследовалась недостаточно.\r \r В основу бенчмарка легла подборка из 1804 видео различного происхождения: любительские, сгенерированные искусственным интеллектом, сжатые, созданные роботами и игровые ролики. Оценка проводится по нескольким типам вопросов – от традиционных тестов с вариантами ответов до открытых вопросов, требующих описания эстетических особенностей.\r \r Исследователи протестировали 23 открытых и коммерческих LMM и пришли к выводу, что текущий уровень их способности воспринимать видеоэстетику остается базовым и не всегда точным. VideoAesBench призван стать платформой для дальнейших исследований в этой области.