Новые исследования в области обработки естественного языка (nlp) в 2026 году

PersianPunc: Датасет и подход на основе BERT для восстановления пунктуации в персидском языке

5 марта 2026 года представлен PersianPunc, масштабный и качественный датасет, содержащий 17 миллионов примеров для восстановления пунктуации в персидском языке. Датасет был создан путём систематического агрегирования и фильтрации существующих текстовых ресурсов. Авторы формулируют задачу восстановления пунктуации как задачу последовательной разметки на уровне токенов и используют fine-tuning ParsBERT для достижения высокой производительности. Исследования показали, что хотя большие языковые модели могут выполнять восстановление пунктуации, они имеют критические ограничения, такие как тенденция к избыточной коррекции и значительные вычислительные требования. Разработанный BERT-основанный подход достиг оценки F1 в 91.33% на тестовом наборе и подходит для использования в реальном времени. Датасет и модель доступны по ссылкам: https://huggingface.co/datasets/MohammadJRanjbar/persian-punctuation-restoration и https://huggingface.co/MohammadJRanjbar/parsbert-persian-punctuation.

WavSLM: Однопотоковое языковое моделирование речи через дистилляцию WavLM

5 марта 2026 года был представлен WavSLM, модель языкового моделирования речи, обученная путем квантования и дистилляции представлений WavLM в один кодовый словарь, с оптимизацией авторегрессивного предсказания следующего фрагмента. WavSLM объединяет семантическую и акустическую информацию в одном токе, без использования текстового надзора или предварительной обработки текстом. Несмотря на свою простоту, модель показывает конкурентоспособные результаты в задачах согласованности и генерации речи, при меньшем количестве параметров и данных для обучения, а также поддерживает потоковую обработку. Демо-примеры доступны по адресу: https://lucadellalib.github.io/wavslm-web/.

Layer by layer, module by module: Выбор обоих для оптимального зондирования ViT на предмет OOD

5 марта 2026 года было проведено исследование, анализирующее поведение промежуточных слоев в предварительно обученных vision transformers. Эксперименты показали, что смещение распределения между предварительным обучением и данными downstream является основной причиной снижения производительности в более глубоких слоях. Анализ на уровне модулей выявил, что зондирование выходов transformer block является неоптимальным. Зондирование активации внутри feedforward network дает наилучшие результаты при значительном смещении распределения, а нормализованный выход multi-head self-attention module оптимален при слабом смещении.

VietJobs: Датасет объявлений о работе во вьетнамском языке

5 марта 2026 года представлен VietJobs, первый крупномасштабный общедоступный корпус вьетнамских объявлений о работе, содержащий 48 092 объявления и более 15 миллионов слов, собранных из всех 34 провинций и муниципалитетов Вьетнама. Датасет предоставляет обширную лингвистическую и структурированную информацию, включая названия должностей, категории, зарплаты, навыки и условия занятости, охватывающие 16 профессиональных областей и различные типы занятости. Авторы провели оценку нескольких генеративных больших языковых моделей (LLM) на двух основных задачах: классификация категории вакансии и оценка зарплаты. Модели Qwen2.5-7B-Instruct и Llama-SEA-LION-v3-8B-IT показали значительные улучшения в условиях few-shot и fine-tuned. Все материалы доступны по ссылке: https://github.com/VinNLP/VietJobs.

Wiki-R1: Стимулирование многомодального рассуждения для KB-VQA с помощью Data и Sampling Curriculum

5 марта 2026 года был предложен Wiki-R1, framework обучения с подкреплением, основанный на генерации данных, который систематически стимулирует рассуждения в MLLM для KB-VQA. Wiki-R1 конструирует последовательность обучающих распределений, соответствующих развивающимся возможностям модели. Авторы ввели контролируемую генерацию данных curriculum, которая манипулирует поисковиком для создания выборок желаемой сложности, и стратегию отбора curriculum, которая выбирает информативные выборки. Эксперименты на двух KB-VQA бенчмарках показали, что Wiki-R1 достигает новых результатов, улучшая точность на Encyclopedic VQA и InfoSeek. Проект доступен по адресу: https://artanic30.github.io/project_pages/WikiR1/.

PersianPunc: Датасет и подход на основе BERT для восстановления пунктуации в персидском языке

WavSLM: Однопотоковое языковое моделирование речи через дистилляцию WavLM

Layer by layer, module by module: Выбор обоих для оптимального зондирования ViT на предмет OOD

VietJobs: Датасет объявлений о работе во вьетнамском языке

Wiki-R1: Стимулирование многомодального рассуждения для KB-VQA с помощью Data и Sampling Curriculum

Похожие новости

Axios и ИИ в журналистике: оптимизация новостного процесса

Avey-B: новый энкодер для обработки естественного языка

revenium запускает реестр инструментов для ai и новые исследования

Perplexity Computer, AI-агенты и новости ИИ

chatgpt для excel, партнерский маркетинг и новые модели ии

utonia: к единому энкодеру для всех облаков точек