Axios и ИИ в журналистике: оптимизация новостного процесса

Axios и искусственный интеллект в журналистике

Allison Murphy, операционный директор Axios, рассказала о том, как компания использует искусственный интеллект для поддержки местных репортеров, оптимизации рабочих процессов в новостной редакции и обеспечения эффективной подачи новостей на местном уровне.

Chain of World: Моделирование мира в скрытом движении

Chain of World: Моделирование мира в скрытом движении было представлено 3 марта 2026 года. Авторы: Fuxiang Yang, Donglin Di, Xuancheng Zhang, Tonghua Su, Baorui Ma и еще четверо. В работе рассматриваются модели Vision-Language-Action (VLA), как перспективные для воплощенного интеллекта, которые часто упускают из виду прогнозируемую и временную причинно-следственную структуру, лежащую в основе визуальной динамики. Модели мира VLA решают эту проблему, предсказывая будущие кадры, но теряют эффективность при реконструкции избыточных фонов. Модели скрытого действия VLA кодируют переходы между кадрами компактно, но не обладают непрерывным моделированием динамики и знаниями о мире. Для преодоления этих ограничений представлен CoWVLA (Chain-of-World VLA), новый подход, объединяющий временное рассуждение модели мира с представлением скрытого движения. Сначала предварительно обученный видео VAE служит извлечением скрытого движения, явно разделяя видео сегменты на структуру и скрытые латенты движения. Затем, во время предварительного обучения, VLA изучает из инструкции и начального кадра непрерывную цепочку скрытого движения и предсказывает конечный кадр сегмента. Во время совместного обучения эта скрытая динамика выравнивается с дискретным предсказанием действия путем совместного моделирования разреженных ключевых кадров и последовательностей действий в едином авторегрессионном декодере. Эксперименты на робототехнических эталонных тестах показывают, что CoWVLA превосходит существующие подходы модели мира и скрытого действия и достигает умеренной вычислительной эффективности. Проект доступен по адресу https://fx-hit.github.io/cowvla-io. Просмотреть на Hugging Face и читать PDF.

Type-Aware Retrieval-Augmented Generation для промышленных задач оптимизации

Type-Aware Retrieval-Augmented Generation (RAG) с замыканием зависимостей для автоматизированного промышленного моделирования оптимизации было представлено 3 марта 2026 года. Авторы: M. Wang, Z. Guo, YC. Li, M. Yu, Z. Jin и еще двое. Автоматизированное промышленное моделирование оптимизации требует надежного перевода естественных языковых требований в код, исполняемый решателем. Однако большие языковые модели часто генерируют некорректные модели из-за отсутствующих объявлений, несоответствия типов и неполного контекста зависимостей. Предложен метод RAG, учитывающий тип, который обеспечивает моделирование типов сущностей и минимальное замыкание зависимостей для обеспечения исполняемости. В отличие от существующих подходов RAG, которые индексируют неструктурированный текст, предложенный метод создает специализированную типизированную базу знаний, анализируя разнородные источники, такие как научные статьи и код решателя, в типизированные единицы и кодируя их математические зависимости в графе знаний. Для заданной инструкции на естественном языке выполняется гибридный поиск и вычисляется минимальный контекст с замкнутыми зависимостями — наименьший набор типизированных символов, необходимых для кода, исполняемого решателем, через распространение зависимостей по графу. Метод был проверен на двух сложных промышленных задачах: оптимизация реагирования на спрос при производстве аккумуляторов и гибкое планирование работы на производственной линии. В первом случае метод генерирует исполняемую модель, включающую стимулы реагирования на спрос и ограничения снижения нагрузки, достигая пикового сглаживания при сохранении прибыльности, в то время как обычные базовые модели RAG не работают. Во втором случае он постоянно генерирует компилируемые модели, которые достигают известных оптимальных решений, демонстрируя надежную междоменную обобщаемость, в то время как базовые модели полностью терпят неудачу. Исследования показали, что обеспечение зависимости типа и замыкания необходимо для предотвращения структурных галлюцинаций и обеспечения исполняемости. Просмотреть на Hugging Face и читать PDF.

Исследование подходов к транскрипции и диарзации бенгальской речи

Исследование различных подходов к долгосрочной транскрипции бенгальской речи и диарзации бенгальских говорящих было представлено 3 марта 2026 года. Авторы: Epshita Jahan, Khandoker Md Tanjinul Islam, Pritom Biswas, Tafsir Al Nafin. Исследование представляет собой многоэтапный подход, разработанный для соревнований "DL Sprint 4.0 - Bengali Long-Form Speech Recognition" и "DL Sprint 4.0 - Bengali Speaker Diarization" на Kaggle, решая задачу определения "кто когда говорил/что". Whisper Medium, обученный на бенгальских данных (bengaliAI/tugstugi bengaliai-asr whisper-medium), использовался для транскрипции и интегрирован с pyannote/speaker-diarization-community-1 с собственной обученной моделью сегментации для обработки разнообразных и шумных акустических сред. Использование двухпроходного метода с гиперпараметром позволило добиться DER 0.27 на закрытой таблице лидеров и 0.19 на открытой таблице лидеров. Для транскрипции, разбиение на части, очистка от фонового шума и алгоритмическая постобработка дали WER 0.38 на закрытой таблице лидеров. Результаты показывают, что целенаправленная настройка и стратегическое использование данных могут значительно улучшить искусственный интеллект для языков Южной Азии. Весь соответствующий код доступен по адресу: https://github.com/Short-Potatoes/Bengali-long-form-transcription-and-diarization.git. Просмотреть на Hugging Face и читать PDF.