ulysses: параллелизм последовательностей для больших языковых моделей
Мы представляем Ulysses, новый метод параллелизма последовательностей, который позволяет обучать большие языковые модели (LLM) с контекстами в миллион токенов. Ulysses решает проблему, когда длительные последовательности не помещаются в память GPU, используя технику, которую мы называем "параллелизм последовательностей".
Архитектура улисса
В основе Ulysses лежит идея разделения входной последовательности на сегменты, каждый из которых помещается в память GPU. Эти сегменты затем обрабатываются параллельно, а результаты объединяются для получения окончательного выхода. Конкретно, Ulysses использует три основных компонента:
- Разделение последовательности: Входная последовательность делится на N сегментов, каждый длиной L токенов.
- Параллельная обработка: Каждый сегмент обрабатывается отдельным GPU.
- Агрегация: Результаты обработки каждого сегмента объединяются для получения окончательного выхода.
Для эффективной агрегации результатов Ulysses использует механизм внимания, который позволяет модели учитывать зависимости между различными сегментами.
Эксперименты и результаты
Мы оценили Ulysses на различных задачах и обнаружили, что он превосходит существующие методы параллелизма последовательностей. Например, на задаче языкового моделирования Ulysses достиг перформанса, превосходящего предыдущие методы на 10%.
Улисс масштабируется до контекстов длиной до миллиона токенов, что позволяет моделировать сложные и долгосрочные зависимости в данных. Мы также обнаружили, что Ulysses хорошо работает с различными архитектурами LLM, включая Transformer и Recurrent Neural Networks. Обучение с контекстами в миллион токенов требует значительных вычислительных ресурсов, но Ulysses эффективно использует доступную память GPU, делая это практичным. В наших экспериментах мы использовали до 64 GPU для обучения модели с контекстом длиной один миллион токенов.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru