Academic Research Skills 32 агента для написания научных работ

Academic Research Skills - набор из четырёх скиллов для Claude Code который покрывает полный цикл написания научной работы. Исследование источников, написание по разделам, проверка целостности, рецензирование - всё в одном пайплайне с контрольными точками после каждого этапа.

Проект набрал 1791 звезду на GitHub. Текущая версия - v3.9.4.2, выходит обновление примерно раз в одну-две недели.

Ключевая установка авторов: AI is your copilot, not the pilot. Скилл не пишет работу за вас. Он берёт на себя механическую часть - поиск источников, форматирование цитат, верификацию данных, проверку логической согласованности. Принципиальные решения остаются за исследователем: постановка вопроса, выбор метода, интерпретация данных.

Из чего состоит Academic Research Skills

Четыре скилла которые можно использовать независимо или как единый пайплайн.

Deep Research - 13-агентная команда исследователей. Ищет источники через arXiv, Semantic Scholar, DBLP, оценивает качество доказательств, проверяет журналы на хищнический характер, строит аннотированную библиографию. Поддерживает 7 режимов: полный, быстрый, обзор литературы, проверка фактов, socratic guided mode, систематический обзор с PRISMA, мета-анализ с расчётом effect sizes.

Academic Paper - 12-агентный пайплайн для написания статьи. Пишет по разделам, проверяет цитаты, конвертирует форматы (APA, IEEE, Chicago, MLA, Vancouver), строит визуализации по стандартам APA 7.0, выводит в MD + DOCX + LaTeX с компиляцией через tectonic в PDF. 10 режимов включая полностью автономный full-auto и revision-coach для работы с комментариями рецензентов. В v2.9 добавили Style Calibration - скилл обучается вашему стилю по трём и более прошлым работам и применяет его при написании.

Academic Paper Reviewer - 7-агентное рецензирование с оценкой по шкале 0-100. Пять ролей: Editor-in-Chief, три специализированных рецензента и Devil's Advocate который атакует главный тезис работы. Decision mapping: >= 80 Accept, 65-79 Minor Revision, 50-64 Major Revision, < 50 Reject.

Academic Pipeline - оркестратор который запускает все три скилла последовательно через 10 этапов с обязательным подтверждением пользователя после каждого.

Полный пайплайн: 10 этапов

RESEARCH > 2. WRITE > 2.5. INTEGRITY CHECK > 3. REVIEW


Socratic Coaching > 4. REVISE > 3'. RE-REVIEW
4'. RE-REVISE > 4.5. FINAL INTEGRITY > 5. FINALIZE > 6. PROCESS SUMMARY

Два этапа нельзя пропустить: Stage 2.5 и Stage 4.5 - проверка целостности. Система верифицирует 100% ссылок, данных и утверждений перед тем как работа уходит на рецензию.

Насколько это работает на практике: в тестовом прогоне Stage 2.5 поймал 15 сфабрикованных ссылок и 3 статистических ошибки. После трёх раундов рецензирования была запущена постпубликационная проверка - найдено ещё 21 проблема из 68 ссылок. Это 31% ошибок которые прошли через все этапы проверки. Авторы оставили этот результат в README без купюр - как доказательство того зачем нужна внешняя верификация даже после пайплайна.

После завершения всех этапов Pipeline генерирует Process Summary - отчёт с 6-мерной оценкой качества сотрудничества по шкале 1-100: направление работы, интеллектуальный вклад, контроль качества, дисциплина итераций, эффективность делегирования, мета-обучение. Авторы добавили к отчёту оговорку: "this self-reflection is itself produced by the same AI that may have been sycophantic."

Почему не полная автоматизация

Авторы прямо ссылаются на работу Lu et al. (2026, Nature) - первую полностью автономную AI-систему которая опубликовала статью через слепое рецензирование на ICLR workshop. В разделе Limitations этой работы перечислены системные сбои полностью автономных пайплайнов: ошибки реализации, галлюцинированные результаты, опора на shortcuts, переформулирование багов как "неожиданных находок", фальсификация методологии, frame-lock, галлюцинации цитирований.

Academic Research Skills построен на предпосылке что исследователь с AI обходит эти сбои лучше чем каждый из них по отдельности. Stage 2.5 и 4.5 прогоняют 7-режимный блокирующий чеклист по всем задокументированным паттернам сбоев.

Проверка достоверности: что именно верифицируется

Integrity Verification Agent проходит через пять фаз.

Phase A - каждая ссылка проверяется на существование через CrossRef, arXiv API, Open Library. Ненайденные источники помечаются как CRITICAL.

Phase B - проверка точности цитирования: заявленные данные действительно есть в источниках, прямые цитаты совпадают с оригиналом, авторы и даты не перепутаны.

Phase C - верификация статистики: цифры в тексте совпадают с источниками, p-значения и confidence intervals не противоречат логике.

Phase D - Cross-claim consistency: утверждения в разных разделах не противоречат друг другу.

Phase E - Claim Verification: ключевые утверждения прослеживаются до первичных источников.

В v3.8 добавили opt-in аудит-пасс (ARS_CLAIM_AUDIT=1) который проверяет поддерживает ли цитируемый источник конкретное утверждение. Пять классов нарушений с блокировкой вывода на финальном этапе: CLAIM-NOT-SUPPORTED, NEGATIVE-CONSTRAINT-VIOLATION, FABRICATED-REFERENCE, ANCHORLESS, CONSTRAINT-VIOLATION-UNCITED.

Против sycophancy: что изменили в v3.0

В процессе работы авторы обнаружили три структурных проблемы.

Frame-lock: Devil's Advocate атаковал аргументы но никогда не ставил под сомнение саму постановку вопроса. Атака оставалась внутри фрейма заданного пользователем.

Sycophancy под давлением: когда пользователь возражал - DA отступал слишком быстро. Модель расценивала настойчивость пользователя как свидетельство того что атака была неверной.

Неправильное определение намерений: Socratic Mentor пытался завершить диалог и выдать результат когда пользователь ещё исследовал идеи.

Решения в v3.0:

DA теперь оценивает каждый контраргумент по шкале 1-5 перед ответом. Уступка разрешена только при оценке >= 4. Последовательные уступки запрещены. Ведётся трекинг процента уступок.

Socratic Mentor классифицирует намерение пользователя как исследовательское или целеориентированное. В исследовательском режиме автоконвергенция отключена, максимум раундов повышен, запрос "хотите я подведу итог?" запрещён.

Companion: Experiment Agent

Для исследований которые включают запуск экспериментов до написания текста есть отдельный скилл - Experiment Agent. Он заполняет пробел между Stage 1 (RESEARCH) и Stage 2 (WRITE).

ARS Stage 1 RESEARCH > RQ Brief + Methodology Blueprint
|
experiment-agent > запуск экспериментов > валидация результатов
|
ARS Stage 2 WRITE > написание с верифицированными результатами

Experiment Agent выполняет код-эксперименты (Python, R), управляет протоколами human studies с IRB чеклистом, интерпретирует статистику с детекцией 11 типов ошибок, верифицирует воспроизводимость.

Стоимость

Полный пайплайн для статьи на 15 000 слов обходится примерно в $4-6. Один прогон может превысить 200K входных и 100K выходных токенов в зависимости от длины работы и количества раундов рецензирования.

Авторы рекомендуют Claude Opus 4.6 с Max планом. Модель routing в v3.7.0 настроен так: Opus для полного и revision-coach режимов, Sonnet для остальных восьми.

Для долгих прогонов рекомендуют три настройки:

Agent Teams (CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1) - субагенты работают параллельно для исследования, написания и рецензирования.

Ralph Loop (/ralph-loop) - держит сессию активной на долгих этапах.

Skip Permissions (claude --dangerously-skip-permissions) - отключает подтверждение каждого вызова инструмента. Убирает защиту ручного одобрения - использовать только в доверенных средах.

Установка Academic Research Skills - тут можно знакомится с Academic Research Skills

Из чего состоит Academic Research Skills

Полный пайплайн: 10 этапов

Почему не полная автоматизация

Проверка достоверности: что именно верифицируется

Против sycophancy: что изменили в v3.0

Companion: Experiment Agent

Стоимость

Похожие новости

Microsoft Research представляет CORPGEN для автономных AI-агентов и ещё 41 но...

CoMT: метод обучения AI по принципам человеческого мышления и ещё 20 новости

J-PAL запускает проект AI Evidence для проверки решений в борьбе с бедностью ...

EVMbench: AI-тест для безопасности смарт-контрактов и ещё 11 новости

servicenow представляет enterpriseops-gym для оценки планирования агентов и е...

Meta AI представляет GCM для мониторинга GPU-кластеров и ещё 10 новости