CoMT: метод обучения AI по принципам человеческого мышления
Исследователи предложили новый метод постобучения больших языковых моделей (LLM), вдохновленный принципами человеческого мышления. Существующие методы, как правило, оптимизируют весь процесс рассуждения целиком, в то время как люди сначала формируют общую стратегию, а затем адаптируют ее к конкретной задаче.
Новый подход, названный Chain-of-Meta-Thought (CoMT), разделяет процесс обучения на два этапа. Сначала модель обучается распознавать абстрактные схемы рассуждений, не привязанные к конкретным задачам. Затем, с помощью Confidence-Calibrated Reinforcement Learning (CCRL), происходит адаптация к конкретным ситуациям с учетом уверенности модели в каждом шаге.
Это позволяет не только повысить обобщающую способность модели, но и снизить вероятность ошибок, а также сократить время обучения на 65-70% и объем используемых токенов на 50%. Эксперименты показали улучшение результатов на 2.19% и 4.63% при решении задач, представленных в обучающей выборке и вне ее.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.