AI Platform Integrates Multi-Omics Data for Cancer Understanding

Изучение экспрессии генов в клетках ракового пациента может помочь клиническим биологам понять происхождение рака и спрогнозировать успех различных методов лечения. Но клетки сложны и содержат много слоев, поэтому то, как биолог проводит измерения, влияет на то, какие данные он может получить. Например, измерение белков в клетке может дать другую информацию об эффектах рака, чем измерение экспрессии генов или морфологии клеток.

Манипулирование множественными измерениями

Важно, откуда исходит информация в клетке. Для получения полной информации о состоянии клетки ученым часто необходимо проводить много измерений с использованием разных методов и анализировать их по отдельности. Методы машинного обучения могут ускорить этот процесс, но существующие методы объединяют всю информацию из каждого типа измерений, что затрудняет определение того, откуда получены данные - из какой части клетки.

Чтобы преодолеть эту проблему, исследователи из Института Широкого спектра MIT и Гарварда и ETH Zurich/Paul Scherrer Institute (PSI) разработали платформу, основанную на искусственном интеллекте, которая изучает, какая информация о состоянии клетки общая для различных типов измерений, а какая уникальна для конкретного типа измерения.

Определяя, из какой части клетки получена информация, подход обеспечивает более целостное представление о состоянии клетки, облегчая биологу понимание полной картины клеточных взаимодействий. Это может помочь ученым понять механизмы заболеваний и отслеживать прогрессирование рака, нейродегенеративных расстройств, таких как болезнь Альцгеймера, и метаболических заболеваний, таких как диабет.

"Когда мы изучаем клетки, одного измерения часто бывает недостаточно, поэтому ученые разрабатывают новые технологии для измерения различных аспектов клеток. У нас много способов взглянуть на клетку, но в конечном итоге у нас есть только одно базовое состояние клетки. Объединяя информацию из всех этих типов измерений более разумным способом, мы можем получить более полное представление о состоянии клетки", - говорит ведущий автор Синьи Чжан, бывший аспирант кафедры электротехники и компьютерных наук MIT (EECS) и сотрудник Эрика и Венди Шмидта. в Институте Широкого спектра MIT и Гарварда, а ныне руководитель группы в AITHYRA в Вене, Австрия.

К Чжану присоединились G.V. Shivashankar, профессор кафедры здравоохранения и технологий в ETH Zurich и руководитель Лаборатории мультимасштабной биовизуализации в PSI; и старший автор Кэролайн Улер, профессор EECS и Института данных, систем и общества (IDSS) в MIT, член Лаборатории информации и систем принятия решений MIT (LIDS) и директор Эрика и Венди Шмидта. в Институте Широкого спектра. Исследование опубликовано сегодня в журнале Nature Computational Science.

Существует множество инструментов, которые ученые могут использовать для получения информации о состоянии клетки. Например, они могут измерять РНК, чтобы увидеть, растет ли клетка, или измерять морфологию хроматина, чтобы увидеть, имеет ли клетка дело с внешними физическими или химическими сигналами.

"Когда ученые проводят мультимодальный анализ, они собирают информацию, используя несколько типов измерений, и интегрируют ее для лучшего понимания лежащего в основе состояния клетки. Некоторая информация захватывается только одним типом измерений, а другая информация общая для нескольких типов измерений. Чтобы полностью понять, что происходит внутри клетки, важно знать, откуда взялась информация", - говорит Шивашанкар.

Часто для ученых единственный способ это выяснить - это провести несколько отдельных экспериментов и сравнить результаты. Этот медленный и трудоемкий процесс ограничивает объем информации, которую они могут собрать.

В новой работе исследователи создали платформу машинного обучения, которая специально понимает, какая информация перекрывается между различными типами измерений, а какая уникальна для конкретного типа измерений и не захватывается другими.

"Как пользователь, вы можете просто ввести данные о своей клетке, и она автоматически сообщит вам, какие данные являются общими, а какие - специфичными для типа измерений", - говорит Чжан.

Чтобы создать эту платформу, исследователи переосмыслили типичный способ проектирования моделей машинного обучения для захвата и интерпретации мультимодальных клеточных измерений.

Обычно эти методы, известные как автокодировщики, имеют одну модель для каждого типа измерений, и каждая модель кодирует отдельное представление для данных, захваченных этим типом измерений. Представление - это сжатая версия входных данных, которая отбрасывает любые несущественные детали.

Метод MIT имеет общее пространство представлений, где кодируются данные, которые перекрываются между несколькими типами измерений, а также отдельные пространства, где кодируются уникальные данные из каждого типа измерений.

По сути, это можно представить как диаграмму Венна клеточных данных.

Исследователи также использовали специальную процедуру обучения в два этапа, которая помогает их модели справиться со сложностью, связанной с определением того, какие данные являются общими для нескольких типов измерений. После обучения модель может идентифицировать общие и уникальные данные при подаче данных о клетках, которые она никогда раньше не видела.

Различение данных

В тестах на синтетических наборах данных платформа правильно захватила известную общую и специфичную для типа измерений информацию. Когда они применили свой метод к реальным наборам данных отдельных клеток, он всесторонне и автоматически разделил активность генов, захваченную совместно двумя типами измерений, таких как транскриптомика и доступность хроматина, а также правильно определил, какая информация поступала только из одного из этих типов измерений.

Кроме того, исследователи использовали свой метод для определения того, какой тип измерений захватил определенный белковый маркер, указывающий на повреждение ДНК у пациентов с раком. Знание того, откуда эта информация взялась, помогло бы клиническому ученому определить, какую технику следует использовать для измерения этого маркера.

"В клетке слишком много типов измерений, и мы не можем измерить их все, поэтому нам нужен инструмент прогнозирования. Но тогда возникает вопрос: какие типы измерений следует измерять, а какие - предсказывать? Наш метод может ответить на этот вопрос", - говорит Улер.

В будущем исследователи хотят включить в модель возможность предоставлять более понятную информацию о состоянии клетки. Они также хотят провести дополнительные эксперименты, чтобы убедиться, что она правильно разделяет клеточную информацию, и применить модель к более широкому кругу клинических вопросов.

"Недостаточно просто объединять информацию из всех этих типов измерений", - говорит Улер. "Мы можем многое узнать о состоянии клетки, если тщательно сравним различные типы измерений, чтобы понять, как различные компоненты клеток регулируют друг друга".

Это исследование финансируется, в частности, Эриком и Венди Шмидтом в Институте Широкого спектра, Швейцарским национальным научным фондом, Национальными институтами здравоохранения США, Управлением военно-морских исследований США, AstraZeneca, Лабораторией искусственного интеллекта MIT-IBM Watson, Клиникой машинного обучения и здоровья MIT J и премией исследователя Саймонса.

НАВИГАЦИЯ

МЕНЮ

Манипулирование множественными измерениями

Различение данных

Похожие новости

ИИ для изучения клеток: полный взгляд на данные

Генеративный ИИ и физика: создание персонализированных объектов

Синтетические данные и приватность в AI: риски и методы защиты дифференциальной

OpenClaw: Безопасное развертывание автономных агентов в 2026 году

новости ИИ: ChatGPT помогает в лечении рака

Новости AI на 24 сентября 2025: Alibaba, Microsoft и инвестиции в инфраструктуру