google deepmind alphaevolve: новая модель для разработки алгоритмов
Исследование Google DeepMind позволило большой языковой модели (LLM) переписывать собственные алгоритмы теории игр. Система под названием AlphaEvolve обнаружила новые варианты алгоритмов, которые работают на уровне или лучше существующих. В частности, были разработаны VAD-CFR и SHOR-PSRO.
Исследователи применили эту технологию к Counterfactual Regret Minimization (CFR) и Policy Space Response Oracles (PSRO). В обоих случаях система нашла новые варианты алгоритмов, которые конкурируют или превосходят существующие. Все эксперименты проводились с использованием OpenSpiel framework.
В игре 3-player Kuhn Poker, 2-player Leduc Poker, 4-card Goofspiel, и 5-sided Liars Dice VAD-CFR превзошла существующие алгоритмы в 10 из 11 игр.
В другом эксперименте была создана модель Asymmetric Optimistic Discounted CFR (AOD-CFR). Также была разработана модель Smoothed Hybrid Optimistic Regret PSRO (SHOR-PSRO) которая показала хорошие результаты в 8 из 11 игр.
AlphaEvolve автоматизирует процесс проектирования алгоритмов, используя Gemini 2.5 Pro для мутации исходного кода. Исследование показывает, что LLM могут быть полезным инструментом для решения сложных задач и создания новых алгоритмов.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru