Новости о больших языковых моделях

LLM: архитектура, обучение, сравнение моделей GPT-4, Claude, Gemini, DeepSeek, Llama. Контекстные окна, файн-тюнинг, локальный запуск и RAG.

SoPE: Позиционное кодирование для 3D LVLMs

Heli

01.03.2026

LLM

0,0

SoPE: Позиционное кодирование для 3D LVLMs

SoPE: Позиционное кодирование на основе сферических координат для улучшения пространственного восприятия 3D LVLMs

Для улучшения пространственного восприятия 3D больших визуально-языковых моделей (LVLMs) представлена новая методика позиционного кодирования – SoPE (Spherical …

Alibaba представляет CoPaw: рабочая станция персональных агентов

Heli

01.03.2026

LLM

0,0

Alibaba представляет CoPaw: рабочая станция персональных агентов

Команда Alibaba открыла исходный код CoPaw, высокопроизводительной рабочей станции персонального агента для разработчиков, предназначенной для масштабирования многоканальных рабочих процессов искусственного интеллекта и памяти. CoPaw стремится помочь разработчикам в решении задач, …

Дистилляция знаний с подкреплением для llm

Heli

28.02.2026

LLM

0,0

Дистилляция знаний с подкреплением для llm

Метод дистилляции знаний, осведомленный об обучении с подкреплением, разработан для улучшения способности к рассуждению больших языковых моделей (LLM). Авторы отмечают, что простая дистилляция знаний не всегда эффективно передает навыки рассуждения …

Тут может быть ваша реклама

Пишите info@aisferaic.ru

применение больших языковых моделей в оценке жизненного цикла

Heli

28.02.2026

LLM

0,0

применение больших языковых моделей в оценке жизненного цикла

Использование больших языковых моделей (БЯМ) в оценке жизненного цикла (ОЖЖ) открывает новые возможности для автоматизации и повышения эффективности. Исследование посвящено анализу текущего состояния применения ИИ в ОЖЖ с использованием БЯМ, …

Редкое редактирование весов для безопасных многоязычных llm

Heli

28.02.2026

LLM

0,0

Редкое редактирование весов для безопасных многоязычных llm

Выравнивание безопасности многоязычных моделей — сложная задача, поскольку стратегии, эффективные для одного языка, могут не переноситься на другие. В данной работе мы представляем новый метод выравнивания безопасности, использующий редкое редактирование …

Иерархический планировщик на основе открытых llm

Heli

28.02.2026

LLM

0,0

Иерархический планировщик на основе открытых llm

В данной статье представлен пример кодирования для создания иерархического планировщика – агента искусственного интеллекта, использующего открытые большие языковые модели (LLM) с возможностью выполнения инструментов и структурированным многоагентным рассуждением.

В основе …

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Эффективность стратегии в математическом рассуждении с помощью llm

Heli

28.02.2026

LLM

0,0

Эффективность стратегии в математическом рассуждении с помощью llm

Эффективность стратегии в математическом рассуждении: использование различий между человеком и моделью для эффективного руководства.

В математическом рассуждении, где стратегии часто неявны и трудно передаются, возникают проблемы с выполнением стратегий. Чтобы …

Редактирование изображений по инструкции с помощью llm и диффузионных моделей

Heli

28.02.2026

LLM

0,0

Редактирование изображений по инструкции с помощью llm и диффузионных моделей

Редактирование изображений на основе инструкций – сложная задача, требующая не только понимания инструкций, но и планирования, рассуждений и генерации, чтобы обеспечить реалистичные и последовательные изменения. В этой работе мы представляем …

rlhfless: бессерверное обучение с подкреплением с обратной связью

Heli

27.02.2026

LLM

0,0

rlhfless: бессерверное обучение с подкреплением с обратной связью

RLHFless – это бессерверное вычисление для эффективного обучения с подкреплением с обратной связью от человека (RLHF). Традиционно, RLHF требует значительных вычислительных ресурсов и сложной инфраструктуры. RLHFless призван решить эти проблемы, …

1 2 3 4 ••• 7 Вперед

Новости о больших языковых моделях

Большие языковые модели (LLM) — основа современного ИИ. На этой странице собраны материалы об архитектуре трансформеров, принципах предобучения и дообучения, токенизации и управлении контекстным окном.

Разбираем, чем отличаются ведущие модели: GPT-4o, Claude 3.5, Gemini 1.5 Pro, DeepSeek V3, Llama 3, Qwen и другие. Какую выбрать для конкретной задачи, как учитывать стоимость вывода, скорость генерации и точность.

Отдельные разделы посвящены файн-тюнингу (LoRA, QLoRA, SFT), работе с векторными базами данных в связке с LLM, локальному запуску моделей через Ollama и LM Studio, а также безопасности: ограничениям RLHF, джейлбрейкам и alignment-проблемам.

Для разработчиков — материалы по интеграции LLM через API OpenAI, Anthropic, Google, по оценке качества ответов (evals), оптимизации промптов и снижению латентности. Для исследователей — обзоры ключевых статей и бенчмарков: MMLU, HumanEval, LMSYS Chatbot Arena.

Следите за публикациями, чтобы не пропустить выход новых моделей и результаты сравнительных тестов.