Новости о больших языковых моделях

LLM: архитектура, обучение, сравнение моделей GPT-4, Claude, Gemini, DeepSeek, Llama. Контекстные окна, файн-тюнинг, локальный запуск и RAG.

Heli

09.03.2026

LLM

0,0

187

Языковые модели становятся доступнее: снижение цен и рост конкуренции

Языковые модели становятся товаром. В последние месяцы наблюдается значительный рост числа с открытым исходным кодом и коммерческих языковых моделей. Это привело к снижению цен и увеличению доступности.

Растущий рынок

На …

Heli

08.03.2026

LLM

0,0

228

multilevel training for kolmogorov arnold networks

Multilevel Training for Kolmogorov Arnold Networks

5 марта 2026 года была представлена работа 2603.04827, авторы Ben S. Southworth, Jonas A. Actor, Graham Harper и Eric C. Cyr. Авторы утверждают, что …

Heli

08.03.2026

LLM

0,0

204

Адаптивное прототипное интерпретируемое градирование рака простаты

Адаптивное прототипное интерпретируемое градирование рака простаты было представлено 5 марта 2026 года, авторы — Сушмита Митра, Риддхасри Бхаттачарья, Паллаби Дутта. Рак простаты является одним …

Heli

08.03.2026

LLM

0,0

184

waterSIC и ∇-reasoner: новые достижения в LLM

WaterSIC рассматривает задачу преобразования плотного линейного слоя в низкоточный. Торговый баланс между длиной сжатия и расхождением выходных данных анализируется с точки зрения теории информации (IT). Показано, что популярный алгоритм GPTQ …

Heli

08.03.2026

LLM

0,0

196

создание агентного ИИ нового поколения: полный фреймворк

Создание агентного ИИ нового поколения: полный фреймворк для когнитивных агентов, управляемых проектом во время выполнения с инструментами памяти и валидации.

Агенты нового поколения требуют фреймворка, который охватывает все аспекты их …

Heli

07.03.2026

LLM

0,0

217

Ансамблирование языковых моделей и новые подходы к har

Ансамблирование языковых моделей с помощью последовательного Монте-Карло

5 марта 2026 года исследователи Jacob Hoover Vigly, Timothy J. O'Donnell, Ryan Cotterell, Tim Vieira, Robin Shing Moon Chan и другие представили работу, …

Heli

07.03.2026

LLM

0,0

221

openai представляет codex security для защиты кода

OpenAI представила Codex Security в качестве исследовательской предварительной версии для обнаружения уязвимостей, их проверки и генерации исправлений в кодовых базах с учетом контекста.

Codex Security разработан для помощи разработчикам в …

Heli

06.03.2026

LLM

0,0

200

Насколько важна дистилляция для китайских больших языковых моделей?

Дистилляция – это метод, который используется для создания меньшей, более быстрой модели, имитирующей поведение большей модели. В последнее время появилось много исследований, …

Heli

06.03.2026

LLM

0,0

206

RAG: извлечение и генерация для актуальных ответов

В основе многих современных систем искусственного интеллекта лежит извлечение информации из больших объемов данных. Однако, традиционные подходы часто сталкиваются с ограничениями при работе с постоянно меняющейся информацией и контекстом. Новая …

Heli

05.03.2026

LLM

0,0

258

MaBERT, Variance Reduction & CGL: Latest AI Research

MaBERT: Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling

MaBERT – это гибридный энкодер, который чередует слои Transformer для моделирования глобальных зависимостей со слоями …

Heli

05.03.2026

LLM

0,0

185

Обучение llm байесовскому выводу для улучшения рассуждений

Обучение больших языковых моделей (LLM) рассуждению, как байесовцы, является сложной задачей. Традиционные LLM часто испытывают трудности с заданиями, требующими вероятностного рассуждения и обновления убеждений в свете новых доказательств. Это связано …

Heli

04.03.2026

LLM

0,0

217

Unsloth: стабильный конвейер тонкой настройки qlora

Unsloth – это библиотека, предназначенная для создания стабильного и эффективного конвейера тонкой настройки QLoRA для больших языковых моделей. Она решает проблемы, связанные с нестабильностью и невоспроизводимостью, часто возникающими при использовании …

Назад 1 ••• 10 11 12 13 14 15 16 Вперед