google ai представляет android bench для оценки llm

Компания Google AI представила Android Bench – оценочный фреймворк и таблицу лидеров для больших языковых моделей (LLM) в разработке под Android. Этот инструмент предназначен для оценки возможностей LLM в задачах, связанных с разработкой приложений для Android, таких как генерация кода, завершение кода и исправление ошибок.

Android Bench включает в себя набор из 200 задач, основанных на реальных примерах кода из проектов Android, доступных в открытом исходном коде. Задачи охватывают различные сценарии разработки, включая манипулирование строками, работу с файлами и взаимодействие с API Android.

Фреймворк Android Bench предоставляет метрики для оценки производительности LLM, включая точность, скорость и эффективность использования памяти. Также создана таблица лидеров, которая позволяет сравнивать различные модели LLM на основе их результатов в Android Bench. В таблице лидеров представлены оценки моделей, таких как Gemini 1.5 Pro, GPT-4 и Claude 3 Opus.

Google AI опубликовала код Android Bench и результаты оценки моделей в открытом доступе, чтобы помочь исследователям и разработчикам продвигать использование LLM в разработке Android. Дополнительная информация доступна в документе. Также, Android Bench размещен на Hugging Face.

Похожие новости

применение больших языковых моделей в оценке жизненного цикла

Google antigravity: превращение prd в код с помощью llm

Ускорение обучения LLM: новый метод от MIT и NVIDIA

clindet-bench: оценка суждений больших языковых моделей

Смесь Экспертов (MoE) в Трансформерах: Масштабирование и Эффективность

Контекстное проектирование LLM: Когда 'помощь' вредит