Новости о больших языковых моделях
LLM: архитектура, обучение, сравнение моделей GPT-4, Claude, Gemini, DeepSeek, Llama. Контекстные окна, файн-тюнинг, локальный запуск и RAG.
Heli
01.04.2026
Falcon perception: новая модель от technology innovation institute
Falcon Perception — это новая модель, разработанная Technology Innovation Institute (TII) в Абу-Даби. Она объединяет большие языковые модели (LLM) с возможностями восприятия, такими как обработка изображений и видео. Модель способна …
Heli
01.04.2026
Hugging face выпустила trl v1.0 для обучения llm
Компания Hugging Face выпустила TRL v1.0 – унифицированный пакет для постобучения, охватывающий SFT, моделирование вознаграждений, DPO и рабочие процессы GRPO. TRL v1.0 создан для упрощения процесса настройки больших языковых моделей …
Heli
01.04.2026
a-evolve: фреймворк для развития агентов openai
A-Evolve — это фреймворк для создания и развития агентов OpenAI. Он использует бенчмарки, навыки, память и мутации рабочего пространства для улучшения производительности агента.
Основные компоненты
A-Evolve включает в себя несколько …
Heli
31.03.2026
trl v1.0: библиотека для тонкой настройки llm
TRL v1.0 – это библиотека для постобучения, созданная для адаптации к изменениям в области машинного обучения. Она предоставляет инструменты для тонкой настройки больших языковых моделей (LLM) с использованием таких методов, …
Heli
31.03.2026
Бесплатный стек разработки с использованием llm
Построение полноценного стека разработки, используя исключительно бесплатные большие языковые модели (LLM) возможно. Этот подход подразумевает использование бесплатных инструментов и моделей для выполнения различных задач, обычно требующих платных сервисов или ресурсов.
…
Heli
31.03.2026
granite 4.0 3b vision: мультимодальный интеллект для корпоративных документов
Granite 4.0 3B Vision – это компактный мультимодальный интеллект, предназначенный для работы с корпоративными документами. Модель сочетает в себе возможности обработки изображений и текста.
Возможности и применение
Granite 4.0 3B …
Heli
31.03.2026
Alibaba представляет Qwen3.5-Omni: мультимодальная модель
Команда Alibaba Qwen представила Qwen3.5-Omni — нативную мультимодальную модель, способную работать с текстом, аудио, видео и взаимодействовать в режиме реального времени. Модель доступна в различных размерах: Plus, Flash и Light.
…
Heli
31.03.2026
microsoft ai releases harrier-oss-v1 models
Microsoft AI выпустила Harrier-OSS-v1, новое семейство моделей для создания многоязыковых векторных представлений. Модели достигли передовых результатов на Multilingual MTEB v2.
harrier-OSS-v1 включает в себя модели с 270 миллионами, 0.6 миллиардами …
Heli
30.03.2026
Новые открытые артефакты ai: nemotron super, sarvam и cohere transcribe
В течение последних двух недель было добавлено 20 новых открытых артефактов. Среди них появились новые организации и новые типы моделей.
К новым артефактам относятся Nemotron Super, Sarvam и Cohere Transcribe. …
Heli
30.03.2026
anthropic mythos: новая языковая модель
Компания Anthropic разрабатывает модель под названием "Mythos". Модель Mythos была обучена на огромном наборе данных, включающем 2 триллиона токенов текста и кода.
Обучение и архитектура
Модель Mythos использует архитектуру, похожую …
Heli
30.03.2026
voiceagentrag: новый маршрутизатор памяти для голосового rag
Salesforce AI Research выпустила VoiceAgentRAG — маршрутизатор памяти с двумя агентами, который сокращает задержку извлечения в системах голосового RAG (Retrieval-Augmented Generation) в 316 раз.
VoiceAgentRAG использует два агента: "Быстрый говорящий" …
Heli
29.03.2026
chroma выпустила context-1 – модель поиска на 20b параметров
Chroma выпустила Context-1, модель поиска с агентом на 20B параметров, предназначенную для многошагового поиска.
Context-1 разработана для решения задач, требующих понимания и удержания информации из нескольких источников. Модель способна выполнять …