Новые исследования в области мультимодальных llm и инженерии данных

FewMMBench: Бенчмарк для мультимодального обучения в условиях малого количества данных

FewMMBench – это комплексный бенчмарк, разработанный для оценки возможностей мультимодальных больших языковых моделей (MLLM) при обучении с использованием небольшого количества данных, с акцентом на обучение в контексте (ICL) и промптинг с использованием цепочки рассуждений (CoT). Бенчмарк охватывает разнообразный набор задач, от распознавания атрибутов до временного рассуждения, позволяя проводить систематический анализ. Исследователи оценили 26 моделей MLLM из шести семей в условиях нулевого выстрела, малого количества выстрелов и малого количества выстрелов с дополненными рассуждениями CoT. Результаты показали, что модели с инструкциями демонстрируют высокую производительность при нулевом выстреле, но лишь незначительно улучшаются или даже регрессируют при добавлении дополнительных демонстраций или рассуждений CoT. Доступ к данным можно получить по ссылке: https://huggingface.co/datasets/mustafaa/FewMMBench.

Разработка катализаторов на основе отдельных атомов с использованием многоагентной LLM-структуры

Представлена Multi-Agent-based Electrocatalyst Search Through Reasoning and Optimization (MAESTRO) – структура, в которой несколько LLM со специализированными ролями совместно обнаруживают высокопроизводительные катализаторы на основе отдельных атомов для реакции восстановления кислорода. Внутри автономного цикла проектирования агенты итеративно рассуждают, предлагают модификации, анализируют результаты и накапливают историю проектирования. MAESTRO выявила принципы проектирования, которые не были явно закодированы в фоновых знаниях LLM, и успешно обнаружила катализаторы, нарушающие традиционные масштабируемые соотношения между промежуточными реакциями. Доступ к ресурсам по ссылке: https://huggingface.co/.

Детоксификация LLM посредством оптимизации предпочтений на основе стирания представлений

Исследователи предложили Representation Erasure-based Preference Optimization (REPO) для решения проблемы токсичных выходных данных LLM, обученных на масштабных данных. REPO переформулирует детоксификацию как задачу предпочтения на уровне токенов, заставляя представления токсичных продолжений сходиться к их благожелательным аналогам. Анализ показал, что этот подход приводит к глубоким, локализованным изменениям в нейронах, кодирующих токсичность, сохраняя при этом общую полезность модели. REPO превзошла существующие методы, останавливая сложные угрозы, включая атаки повторного обучения и улучшенные GCG-взломы. Доступ к ресурсам по ссылке: https://huggingface.co/.

HiPPO Zoo: Явные механизмы памяти для интерпретируемых моделей пространств состояний

Представлена HiPPO Zoo – унифицированная структура, состоящая из пяти расширений, демонстрирующих конкретные возможности моделирования посредством явных, интерпретируемых модификаций HiPPO-структуры. Модели адаптируют свою память онлайн и обучаются в потоковых настройках с эффективными обновлениями. Исследования показали, что возможности, обычно связанные с современными SSM, могут быть реализованы с помощью явных, интерпретируемых полиномиальных структур памяти. Доступ к ресурсам по ссылке: https://huggingface.co/.

Инженерия данных для масштабирования возможностей LLM

Исследование посвящено стратегиям обработки данных для агентов LLM. Представлен Terminal-Task-Gen, легковесный конвейер для создания синтетических задач, и проведен всесторонний анализ стратегий данных и обучения, включая фильтрацию, обучение по учебному плану, обучение с длинным контекстом и масштабирование. Результатом является Terminal-Corpus – крупномасштабный набор данных для задач терминала. Модели Nemotron-Terminal (8B, 14B, 32B) продемонстрировали значительные улучшения на Terminal-Bench 2.0. Модели и наборы данных доступны по ссылке: https://huggingface.co/collections/nvidia/nemotron-terminal.

Новые исследования в области мультимодальных llm и инженерии данных

FewMMBench: Бенчмарк для мультимодального обучения в условиях малого количества данных

Разработка катализаторов на основе отдельных атомов с использованием многоагентной LLM-структуры

Детоксификация LLM посредством оптимизации предпочтений на основе стирания представлений

HiPPO Zoo: Явные механизмы памяти для интерпретируемых моделей пространств состояний

Инженерия данных для масштабирования возможностей LLM

Похожие статьи

Инженерия данных для больших языковых моделей (llm)

dlт-corpus и medsyn: новые бенчмарки для llm

gradalign: эффективный выбор данных для обучения llm

scaling in, not up? testing thick citation context analysis with gpt-5

Swe-protégé: обучение маленьких llm с помощью эксперта

superglasses: оценка llm для умных очков