Переход из аналитики в ai: 7 неожиданных открытий

Когда я начал работать в аналитической инженерии, мне казалось, что я понимаю, как строить системы на основе данных: хранилища, модели, отчёты, дашборды. Я знал, как проектировать pipeline’ы, как писать SQL и как писать код для обработки данных. Я думал, что это уже и есть «искусственный интеллект» — просто более сложные и большие данные. Но я ошибся.

Я не ожидал, что в AI-проектах ключевым этапом станет не сбор и очистка данных, а их сборка. В аналитике данные уже есть в системах, их нужно только выгрузить и привести в порядок. В AI — их надо создать. С нуля. Для каждой задачи отдельно. Это значит: поиск источников, проектирование схем, сбор сырых данных из разных интерфейсов, разметка, аугментация, балансировка. И это — не разовая задача. Это цикл, повторяющийся для каждой новой модели.

Я не ожидал, что качество модели будет зависеть не от точности SQL-запросов или скорости ETL, а от качества промптов. В аналитике мы верили: «гребёшь мусор — получишь мусор». В AI получается иначе: даже чистые данные могут дать плохую модель, если промпт-инженерия сделана неверно. А если данные зашумлены, но промпт продуман — результат может быть лучше. Это обратная логика по сравнению с тем, к чему я привык.

Я не ожидал, что разработка модели станет противоположной разработке аналитических систем. В аналитике: чем больше автоматизации и тестирования — тем лучше. В AI: большая часть работы — эксперименты, и они не воспроизводимы в классическом смысле. Даже при фиксированных данных и коде результат может отличаться от запуска к запуску из-за случайных факторов в обучении. Проверки статистической значимости и доверительные интервалы стали обязательны, а не опциональны.

Я не ожидал, что «деплой» модели — это не просто запуск сервиса. Это — мониторинг смещения данных (data drift), мониторинг смещения модели (model drift), периодическое пересоздание датасета и тестирование на новых данных. Даже если модель работала хорошо три месяца назад, сегодня она может давать неточные ответы — и никто не скажет почему, если не вести этот мониторинг.

Я не ожидал, что в AI-проекте ключевой фигура — не инженер данных, не аналитик и не разработчик, а специалист по оценке качества генеративных ответов. Его задача — смотреть на сгенерированный текст, определять, соответствует ли он целям, насколько он полезен, насколько он фактически точен. И если нет — давать фидбек, который превращается в новые данные для дообучения. Такой специалист — не часть традиционного аналитического стека, но он критичен.

Я не ожидал, что «финал» проекта — это не release, а начало. Модель не устанавливается и не забывается. Она живёт. Её учат новому, её проверяют, её обновляют. Даже если она достигла 95 % метрики, это не конец — это точка входа в следующий итеративный цикл. Это бесконечная гонка — не за качеством, а за актуальностью.

Когда я пришёл из аналитической инженерии, я был готов к логике «ввод-обработка-вывод». В AI я оказался внутри логики «сбор-обучение-оценка-дообучение». Это другой мир. Не хуже. Не хуже — просто другой. И в нём я всё ещё учусь.

Похожие новости

Саморазвивающаяся система навыков на основе openspace и ещё 16 новости

Будущее искусственного интеллекта и науки и ещё 12 новости

Как обучать LLM локально через федеративное обучение с LoRA и ещё 12 новости

Пятиуровневая структура безопасности для автономных агентов llm и ещё 17 новости

ИИ: разделение на открытые модели и системы с ограниченным доступом

Безопасные конвейеры llm с outlines и pydantic и ещё 15 новости