Новости о больших языковых моделях

LLM: архитектура, обучение, сравнение моделей GPT-4, Claude, Gemini, DeepSeek, Llama. Контекстные окна, файн-тюнинг, локальный запуск и RAG.

Search

Heli Verified

18.02.2026

LLM
Star 0,0
Views 57

Tiny Aya: компактная языковая модель для 70 языков

Cohere выпустила Tiny Aya – семейство небольших языковых моделей (SLM) с 3,35 миллиардами параметров. Модель демонстрирует высокую эффективность в переводе и генерации текста на 70 различных языках.

В линейку входят …

Heli Verified

18.02.2026

LLM
Star 0,0
Views 39

ИИ-подхалимство: почему нейросети соглашаются с пользователем

Современные большие языковые модели (LLM) всё чаще разрабатываются с возможностью запоминать детали из прошлых бесед и учитывать профили пользователей, чтобы персонализировать ответы. Однако, как выяснили исследователи из MIT и Университета …

Heli Verified

18.02.2026

LLM
Star 0,0
Views 36

Anthropic Claude 4.6 Sonnet: миллион токенов и адаптивное мышление

Компания Anthropic представила Claude 4.6 Sonnet – новую модель, разработанную для решения сложных задач в области программирования и обработки данных. Ключевой особенностью является механизм "Адаптивного мышления", позволяющий модели анализировать логику …

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Heli Verified

15.02.2026

LLM
Star 0,0
Views 43

Вероятностное объяснение возникновения рассуждений в RLVR

Исследователи предложили новую интерпретацию, почему большие языковые модели (LLM), обучаемые через подкрепление с проверяемыми наградами (RLVR), начинают демонстрировать сложные рассуждения. По их гипотезе, это не появление совсем новых способностей, а …

Heli Verified

13.02.2026

LLM
Star 0,0
Views 43

Как адаптировать LLM под человеческие предпочтения без reward model

В обучающем туториале показано, как выполнить прямую оптимизацию предпочтений (DPO) без использования reward-модели — заменяющего подхода на RLHF. Процесс объединяет DPOTrainer из библиотеки TRL, QLoRA и PEFT, чтобы обучение помещалось …

Heli Verified

11.02.2026

LLM
Star 0,0
Views 46

NVIDIA представила KVTC — сжатие KV-кэшей в LLM до 20 раз

Исследователи NVIDIA представили KVTC — метод трансформ-кодирования для эффективного сжатия ключевых и значимых кэшей (KV-кэшей), которые часто занимают гигабайты памяти на GPU. Кэш хранит промежуточные данные при обработке длинных контекстов, …

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Heli Verified

10.02.2026

LLM
Star 0,0
Views 61

Как обучать LLM локально через федеративное обучение с LoRA

Как обучать большие языковые модели локально без сбора данных в центре

В руководстве показано, как провести федеративное дообучение большой языковой модели с помощью LoRA, не объединяя приватные тексты в одном …

Heli Verified

09.02.2026

LLM
Star 0,0
Views 44

Canzona: асинхронный фреймворк для распределённых оптимизаторов на матрицах

Крупные языковые модели всё чаще используют матричные оптимизаторы — такие как Shampoo, Muon и SOAP — благодаря их высокой скорости сходимости. Но их требование к целостным обновлениям плохо сочетается с …

Heli Verified

09.02.2026

LLM
Star 0,0
Views 50

Исследование MIT: рейтинги больших языковых моделей могут быть нестабильными

Компании, выбирая LLM для обработки отчётов или обращений клиентов, зачастую ориентируются на рейтинги специализированных платформ. Однако учёные из MIT показали: такие рейтинги часто зависят от нескольких голосов — иногда даже …