banner
Дом / Новости / Анализ соответствия для уменьшения размеров, пакетной интеграции и визуализации отдельных
Новости

Анализ соответствия для уменьшения размеров, пакетной интеграции и визуализации отдельных

May 16, 2023May 16, 2023

Научные отчеты, том 13, Номер статьи: 1197 (2023) Цитировать эту статью

3634 Доступа

1 Цитаты

20 Альтметрика

Подробности о метриках

Уменьшение эффективного размера имеет важное значение для анализа одноклеточной РНК-секвенции (scRNAseq). Анализ главных компонентов (PCA) широко используется, но требует непрерывных, нормально распределенных данных; следовательно, он часто сочетается с лог-трансформацией в приложениях scRNAseq, что может искажать данные и скрывать значимые вариации. Мы описываем анализ соответствия (CA), основанную на подсчете альтернативу PCA. CA основан на разложении остаточной матрицы хи-квадрат без искажающего логарифмического преобразования. Чтобы решить проблему чрезмерной дисперсии и высокой разреженности данных scRNAseq, мы предлагаем пять адаптаций CA, которые являются быстрыми, масштабируемыми и превосходят стандартные CA и glmPCA, для вычисления встраивания клеток с более производительной или сопоставимой точностью кластеризации в 8 из 9 наборов данных. В частности, мы обнаружили, что CA с остатками Фримена-Тьюки работает особенно хорошо в различных наборах данных. Другие преимущества структуры CA включают визуализацию ассоциаций между генами и популяциями клеток в «биграфике CA» и расширение многотабличного анализа; мы вводим Corralm для интегративного уменьшения размеров данных scRNAseq в нескольких таблицах. Мы реализуем CA для данных scRNAseq в Corral, пакете R/Bioconductor, который напрямую взаимодействует с классами отдельных клеток в Bioconductor. Переключение с PCA на CA достигается посредством простой замены конвейера и улучшает уменьшение размерности наборов данных scRNAseq.

Секвенирование мРНК отдельных клеток (scRNAseq) одновременно измеряет уровни транскриптов генов в тысячах отдельных клеток, обеспечивая представление о транскрипционном и функциональном разнообразии клеток в ткани или эксперименте. Эти сложные наборы данных на несколько порядков больше, чем те, которые встречаются при анализе «объемных» данных RNAseq из образцов тканей. Хотя такие данные с высоким разрешением потенциально могут выявить новые биологические данные, данные scRNAseq демонстрируют разреженность, зашумленность и технические артефакты, превосходящие те, которые наблюдаются для объемных образцов РНК1,2, что требует специфической предварительной обработки и нормализации scRNAseq3,4. Обычно анализ scRNAseq включает использование уменьшения размеров для ослабления шума и обеспечения вычислительной простоты, но выбор метода значительно влияет на последующие анализы, результаты и выводы3,5.

Важно выбрать подходящий метод уменьшения размеров; эффективный метод находит представление данных, которое минимизирует шум и избыточность, одновременно обнаруживая значимые сигналы, которые раскрывают скрытые структуры и закономерности в данных6,7. При определении на основе данных scRNAseq представления встраивания уменьшенных размеров наиболее полезны, когда они сохраняют значимые, биологически значимые вариации; являются устойчивыми, что означает, что разложение новых, но похожих наблюдений последовательно дает аналогичное пространство вложения; а также обобщать и переносить новые данные, позволяя проецировать новые наблюдения, возникающие в результате аналогичных биологических процессов, в то же скрытое пространство.

Подсчеты ScRNAseq обычно моделируются как полиномиально распределенные и часто аппроксимируются отрицательным биномом или Пуассоном2, что отражает тот факт, что данные не являются ни непрерывными, ни приблизительно гауссовыми. Таким образом, использование анализа главных компонентов (PCA) требует, чтобы дискретные и разреженные данные подсчета scRNAseq были преобразованы до уменьшения размеров с помощью этого метода6. PCA — это метод уменьшения линейных размеров, который обеспечивает низкоразмерное представление данных вдоль ортогональных линейных осей, так что доля дисперсии, учитываемой по каждой оси, максимизируется в евклидовом пространстве4,8,9,10,11. Поскольку PCA наиболее подходит для непрерывных данных, которые примерно нормально распределены, он может проявлять артефакты при применении к данным с градиентами или прерывистым данным (например, подсчетам); один из таких артефактов, называемый эффектом «арки» или «подковы», возникает, когда PCA применяется к данным scRNAseq без логарифмического преобразования4,6,12. Таким образом, на практике, несмотря на известные проблемы с применением лог-преобразования к данным подсчета scRNAseq2,13,14, большинство рабочих процессов с отдельными клетками начинаются с логарифмического (x + 1) преобразования матрицы подсчетов, а затем используют PCA для разложения полученного результата. данные «logcounts»3. Использование logcounts имеет плохое теоретическое обоснование и в некоторых случаях может скрывать значимые вариации2,14, но полученные в результате внедрения уменьшенных размерностей данных PCA, тем не менее, используются в кластеризации scRNAseq, анализе траекторий и классификации типов клеток3. Было предложено несколько подходов к уменьшению размеров, адаптированных для подсчета scRNAseq, включая такие методы, как ZINB-WaVE, первый метод, подходящий для использования с подсчетами, который основан на отрицательной биномиальной модели с нулевым завышением для разложения подсчетов и факторном анализе с нулевым завышением ( ЗИФА)2,15,16,17. Тем не менее, PCA остается наиболее широко используемым методом во многом благодаря своей простоте, скорости и вычислительной эффективности. При сравнении 18 методов уменьшения размерности метод PCA получил высокие оценки, если учитывать точность и производительность последующего анализа с учетом вычислительной масштабируемости18.