Рассуждение (Reasoning) в больших языковых моделях (LLM): теория и практика

Большие языковые модели уже умеют писать и отвечать. Чтобы они были надёжнее в математике, коде и аналитике, их нужно побуждать к пошаговому рассуждению — тогда виден не только ответ, но и логика.

Ключевые приёмы

Chain-of-Thought (CoT) — просим модель решать «по шагам». Это резко повышает качество на задачах рассуждения. Простой приём:

«Решай по шагам и объясняй логику…»

ReAct (Reason + Act) — совмещаем рассуждения и действия: думай → сделай шаг (поиск, вычисление, обращение к инструменту) → уточни план. Это не отдельная модель, а способ промптинга.

Self-Consistency — генерируем несколько цепочек рассуждений и берём ответ, который встречается чаще всего. Часто даёт заметный прирост качества.

Test-time compute (inference-time scaling) — «думать дольше» на этапе инференса: запускать несколько вариантов рассуждений, использовать проверяющие функции, распределять больше вычислительных ресурсов на сложные задачи.

Мини-примеры

Вылет/аэропорт От 10:00 до 12:00 — 2 часа; дорога 1:30 ⇒ запас 30 минут.

Пирожки 3×50 = 150; 200−150 = 50 рублей (CoT показывает шаги).

Круг (ReAct-стиль) Формула S=πr²; r=5 ⇒ 25π ≈ 78.54 см² (можно вынести «посчитай в калькуляторе» как отдельное действие).

Практические советы

Всегда включайте CoT на задачах с логикой.
Добавляйте Self-Consistency (несколько выборок) для сложных примеров.
Используйте ReAct, когда нужны внешние шаги: поиск, калькулятор, код.
Управляйте временем инференса: дайте модели «подумать дольше» вместо того, чтобы полагаться на первый ответ.

Шпаргалка промптов для Reasoning

🧩 Chain-of-Thought (CoT)

Универсальный шаблон

Решай задачу пошагово и объясняй каждый шаг. В конце дай итоговый ответ.

Для математики

Ты — помощник по математике. Решай по шагам, показывай вычисления и объясняй ход рассуждений простыми словами.

Для бизнес-задач

Разбери задачу пошагово: 
1) выдели условия
2) сформулируй логику решения
3) дай итоговый ответ

⚡ ReAct (Reason + Act)

Для поиска

Решай задачу пошагово. Если не хватает данных — сделай уточняющий вопрос или предложи найти недостающую информацию.

Для вычислений/инструментов

Сначала объясни логику решения. Если нужны расчёты — выполни их отдельно, затем верни итоговый ответ.

🔄 Self-Consistency

Для сложных задач

Сгенерируй несколько вариантов решения пошагово (минимум 3). Сравни их и выбери наиболее согласованный итог.

🕒 Test-time compute

Для повышенной надёжности

Подумай дольше: предложи несколько вариантов решения задачи, оцени их и выбери оптимальный.

💡 Эти шаблоны можно комбинировать. Например: «Решай пошагово, сгенерируй 3 разных варианта, сравни и дай согласованный ответ» — это уже CoT + Self-Consistency.