масштабируемые пайплайны аналитики и машинного обучения с vaex
Это руководство по кодированию для создания масштабируемого конвейера аналитики и машинного обучения на миллионах строк, использующего Vaex.
vaex — это библиотека Python, предназначенная для работы с большими табличными наборами данных. Она предоставляет инструменты для отложенной оценки выражений, вычислений и визуализации, позволяя эффективно работать с данными, которые не помещаются в память.
установка и импорт
Установите Vaex с помощью pip: pip install vaex. Затем импортируйте необходимые библиотеки:
import vaex
import numpy as np
создание датафрейма
Создайте DataFrame Vaex из массива NumPy:
df = vaex.from_arrays(
x=np.random.rand(10_000_000),
y=np.random.rand(10_000_000),
)
Этот код создает DataFrame с 10 миллионами строк, где столбцы 'x' и 'y' содержат случайные числа.
фильтрация данных
Используйте фильтры для выбора подмножества данных. Например, чтобы выбрать строки, где x > 0.5:
df = df[df.x > 0.5]
Vaex выполняет фильтрацию лениво, то есть она не вычисляет фильтр сразу, а применяет его только при необходимости.
вычисления
Выполняйте вычисления над DataFrame. Например, чтобы создать новый столбец, который является суммой x и y:
df['z'] = df.x + df.y
Вычисления также выполняются лениво.
агрегация
Используйте groupby() для агрегирования данных. Например, чтобы вычислить среднее значение z по группам на основе x:
df = df.groupby(df.x // 0.1).agg(z=vaex.agg.mean(df.z))
Этот код группирует данные по диапазонам значений x (с шагом 0.1) и вычисляет среднее значение z для каждой группы.
визуализация
Визуализируйте данные с помощью встроенных инструментов Vaex или сторонних библиотек, таких как Matplotlib.
import vaex.plot
vaex.plot.scatter(df, x='x', y='z', width=1000, height=500)
Этот код создает график рассеяния, показывающий взаимосвязь между столбцами x и z.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru