Новости о больших языковых моделях
LLM: архитектура, обучение, сравнение моделей GPT-4, Claude, Gemini, DeepSeek, Llama. Контекстные окна, файн-тюнинг, локальный запуск и RAG.
Heli
07.03.2026
openai представляет codex security для защиты кода
OpenAI представила Codex Security в качестве исследовательской предварительной версии для обнаружения уязвимостей, их проверки и генерации исправлений в кодовых базах с учетом контекста.
Codex Security разработан для помощи разработчикам в …
Heli
06.03.2026
Насколько важна дистилляция для китайских больших языковых моделей?
Насколько важна дистилляция для китайских больших языковых моделей?
Дистилляция – это метод, который используется для создания меньшей, более быстрой модели, имитирующей поведение большей модели. В последнее время появилось много исследований, …
Heli
06.03.2026
RAG: извлечение и генерация для актуальных ответов
В основе многих современных систем искусственного интеллекта лежит извлечение информации из больших объемов данных. Однако, традиционные подходы часто сталкиваются с ограничениями при работе с постоянно меняющейся информацией и контекстом. Новая …
Heli
05.03.2026
MaBERT, Variance Reduction & CGL: Latest AI Research
MaBERT: Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling
MaBERT – это гибридный энкодер, который чередует слои Transformer для моделирования глобальных зависимостей со слоями …
Heli
05.03.2026
Обучение llm байесовскому выводу для улучшения рассуждений
Обучение больших языковых моделей (LLM) рассуждению, как байесовцы, является сложной задачей. Традиционные LLM часто испытывают трудности с заданиями, требующими вероятностного рассуждения и обновления убеждений в свете новых доказательств. Это связано …
Heli
04.03.2026
Unsloth: стабильный конвейер тонкой настройки qlora
Unsloth – это библиотека, предназначенная для создания стабильного и эффективного конвейера тонкой настройки QLoRA для больших языковых моделей. Она решает проблемы, связанные с нестабильностью и невоспроизводимостью, часто возникающими при использовании …
Heli
03.03.2026
alibaba qwen 3.5 small: новые модели для устройств и ещё 6 новости
alibaba qwen 3.5 small: новые модели для устройств
Компания Alibaba выпустила семейство моделей Qwen 3.5 Small, состоящее из моделей с количеством параметров от 0.8 миллиарда до 9 миллиардов. Эти модели …
Heli
01.03.2026
Alibaba представляет CoPaw: рабочая станция персональных агентов и SoPE: Пози...
Alibaba представляет CoPaw: рабочая станция персональных агентов
Команда Alibaba открыла исходный код CoPaw, высокопроизводительной рабочей станции персонального агента для разработчиков, предназначенной для масштабирования многоканальных рабочих процессов искусственного интеллекта и памяти. …
Heli
28.02.2026
применение больших языковых моделей в оценке жизненного цикла
Использование больших языковых моделей (БЯМ) в оценке жизненного цикла (ОЖЖ) открывает новые возможности для автоматизации и повышения эффективности. Исследование посвящено анализу текущего состояния применения ИИ в ОЖЖ с использованием БЯМ, …
Heli
28.02.2026
Редкое редактирование весов для безопасных многоязычных llm
Выравнивание безопасности многоязычных моделей — сложная задача, поскольку стратегии, эффективные для одного языка, могут не переноситься на другие. В данной работе мы представляем новый метод выравнивания безопасности, использующий редкое редактирование …
Heli
28.02.2026
Эффективность стратегии в математическом рассуждении с помощью llm
Эффективность стратегии в математическом рассуждении: использование различий между человеком и моделью для эффективного руководства.
В математическом рассуждении, где стратегии часто неявны и трудно передаются, возникают проблемы с выполнением стратегий. Чтобы …
Heli
28.02.2026
Редактирование изображений по инструкции с помощью llm и диффузионных моделей
Редактирование изображений на основе инструкций – сложная задача, требующая не только понимания инструкций, но и планирования, рассуждений и генерации, чтобы обеспечить реалистичные и последовательные изменения. В этой работе мы представляем …