масштабируемые пайплайны аналитики и машинного обучения с vaex

Это руководство по кодированию для создания масштабируемого конвейера аналитики и машинного обучения на миллионах строк, использующего Vaex.

vaex — это библиотека Python, предназначенная для работы с большими табличными наборами данных. Она предоставляет инструменты для отложенной оценки выражений, вычислений и визуализации, позволяя эффективно работать с данными, которые не помещаются в память.

установка и импорт

Установите Vaex с помощью pip: pip install vaex. Затем импортируйте необходимые библиотеки:

import vaex
import numpy as np

создание датафрейма

Создайте DataFrame Vaex из массива NumPy:

df = vaex.from_arrays(
    x=np.random.rand(10_000_000),
    y=np.random.rand(10_000_000),
)

Этот код создает DataFrame с 10 миллионами строк, где столбцы 'x' и 'y' содержат случайные числа.

фильтрация данных

Используйте фильтры для выбора подмножества данных. Например, чтобы выбрать строки, где x > 0.5:

df = df[df.x > 0.5]

Vaex выполняет фильтрацию лениво, то есть она не вычисляет фильтр сразу, а применяет его только при необходимости.

вычисления

Выполняйте вычисления над DataFrame. Например, чтобы создать новый столбец, который является суммой x и y:

df['z'] = df.x + df.y

Вычисления также выполняются лениво.

агрегация

Используйте groupby() для агрегирования данных. Например, чтобы вычислить среднее значение z по группам на основе x:

df = df.groupby(df.x // 0.1).agg(z=vaex.agg.mean(df.z))

Этот код группирует данные по диапазонам значений x (с шагом 0.1) и вычисляет среднее значение z для каждой группы.

визуализация

Визуализируйте данные с помощью встроенных инструментов Vaex или сторонних библиотек, таких как Matplotlib.

import vaex.plot
vaex.plot.scatter(df, x='x', y='z', width=1000, height=500)

Этот код создает график рассеяния, показывающий взаимосвязь между столбцами x и z.

масштабируемые пайплайны аналитики и машинного обучения с vaex

установка и импорт

создание датафрейма

фильтрация данных

вычисления

агрегация

визуализация

Похожие статьи

Объяснимый анализ ИИ с помощью shap-iq

Многоуровневые причинно-следственные вложения для машинного обучения

Качество обучающих данных и производительность классификатора

Искусственный интеллект: текущее состояние и новые исследования

Новый подход к предсказанию разреженной гауссовской занятости

watervib: надежные водяные знаки с помощью вариационной воронки