13 лет в современную эпоху электромобилей Америка не приблизилась к стандарту зарядки
May 06, 202313 лет в современную эпоху электромобилей Америка не приблизилась к стандарту зарядки
Jun 28, 2023Контракт на сумму 1,7 миллиона долларов показывает, что Иран
Nov 21, 2023Ford Transit 2023 года нужен новый топливный бак, иначе он может протечь
Dec 24, 2023Руководство по Honda SCL500 2023 года • Мотоцикл Total
Jun 14, 2023Анализ соответствия для уменьшения размеров, пакетной интеграции и визуализации отдельных
Научные отчеты, том 13, Номер статьи: 1197 (2023) Цитировать эту статью
3634 Доступа
1 Цитаты
20 Альтметрика
Подробности о метриках
Уменьшение эффективного размера имеет важное значение для анализа одноклеточной РНК-секвенции (scRNAseq). Анализ главных компонентов (PCA) широко используется, но требует непрерывных, нормально распределенных данных; следовательно, он часто сочетается с лог-трансформацией в приложениях scRNAseq, что может искажать данные и скрывать значимые вариации. Мы описываем анализ соответствия (CA), основанную на подсчете альтернативу PCA. CA основан на разложении остаточной матрицы хи-квадрат без искажающего логарифмического преобразования. Чтобы решить проблему чрезмерной дисперсии и высокой разреженности данных scRNAseq, мы предлагаем пять адаптаций CA, которые являются быстрыми, масштабируемыми и превосходят стандартные CA и glmPCA, для вычисления встраивания клеток с более производительной или сопоставимой точностью кластеризации в 8 из 9 наборов данных. В частности, мы обнаружили, что CA с остатками Фримена-Тьюки работает особенно хорошо в различных наборах данных. Другие преимущества структуры CA включают визуализацию ассоциаций между генами и популяциями клеток в «биграфике CA» и расширение многотабличного анализа; мы вводим Corralm для интегративного уменьшения размеров данных scRNAseq в нескольких таблицах. Мы реализуем CA для данных scRNAseq в Corral, пакете R/Bioconductor, который напрямую взаимодействует с классами отдельных клеток в Bioconductor. Переключение с PCA на CA достигается посредством простой замены конвейера и улучшает уменьшение размерности наборов данных scRNAseq.
Секвенирование мРНК отдельных клеток (scRNAseq) одновременно измеряет уровни транскриптов генов в тысячах отдельных клеток, обеспечивая представление о транскрипционном и функциональном разнообразии клеток в ткани или эксперименте. Эти сложные наборы данных на несколько порядков больше, чем те, которые встречаются при анализе «объемных» данных RNAseq из образцов тканей. Хотя такие данные с высоким разрешением потенциально могут выявить новые биологические данные, данные scRNAseq демонстрируют разреженность, зашумленность и технические артефакты, превосходящие те, которые наблюдаются для объемных образцов РНК1,2, что требует специфической предварительной обработки и нормализации scRNAseq3,4. Обычно анализ scRNAseq включает использование уменьшения размеров для ослабления шума и обеспечения вычислительной простоты, но выбор метода значительно влияет на последующие анализы, результаты и выводы3,5.
Важно выбрать подходящий метод уменьшения размеров; эффективный метод находит представление данных, которое минимизирует шум и избыточность, одновременно обнаруживая значимые сигналы, которые раскрывают скрытые структуры и закономерности в данных6,7. При определении на основе данных scRNAseq представления встраивания уменьшенных размеров наиболее полезны, когда они сохраняют значимые, биологически значимые вариации; являются устойчивыми, что означает, что разложение новых, но похожих наблюдений последовательно дает аналогичное пространство вложения; а также обобщать и переносить новые данные, позволяя проецировать новые наблюдения, возникающие в результате аналогичных биологических процессов, в то же скрытое пространство.
Подсчеты ScRNAseq обычно моделируются как полиномиально распределенные и часто аппроксимируются отрицательным биномом или Пуассоном2, что отражает тот факт, что данные не являются ни непрерывными, ни приблизительно гауссовыми. Таким образом, использование анализа главных компонентов (PCA) требует, чтобы дискретные и разреженные данные подсчета scRNAseq были преобразованы до уменьшения размеров с помощью этого метода6. PCA — это метод уменьшения линейных размеров, который обеспечивает низкоразмерное представление данных вдоль ортогональных линейных осей, так что доля дисперсии, учитываемой по каждой оси, максимизируется в евклидовом пространстве4,8,9,10,11. Поскольку PCA наиболее подходит для непрерывных данных, которые примерно нормально распределены, он может проявлять артефакты при применении к данным с градиентами или прерывистым данным (например, подсчетам); один из таких артефактов, называемый эффектом «арки» или «подковы», возникает, когда PCA применяется к данным scRNAseq без логарифмического преобразования4,6,12. Таким образом, на практике, несмотря на известные проблемы с применением лог-преобразования к данным подсчета scRNAseq2,13,14, большинство рабочих процессов с отдельными клетками начинаются с логарифмического (x + 1) преобразования матрицы подсчетов, а затем используют PCA для разложения полученного результата. данные «logcounts»3. Использование logcounts имеет плохое теоретическое обоснование и в некоторых случаях может скрывать значимые вариации2,14, но полученные в результате внедрения уменьшенных размерностей данных PCA, тем не менее, используются в кластеризации scRNAseq, анализе траекторий и классификации типов клеток3. Было предложено несколько подходов к уменьшению размеров, адаптированных для подсчета scRNAseq, включая такие методы, как ZINB-WaVE, первый метод, подходящий для использования с подсчетами, который основан на отрицательной биномиальной модели с нулевым завышением для разложения подсчетов и факторном анализе с нулевым завышением ( ЗИФА)2,15,16,17. Тем не менее, PCA остается наиболее широко используемым методом во многом благодаря своей простоте, скорости и вычислительной эффективности. При сравнении 18 методов уменьшения размерности метод PCA получил высокие оценки, если учитывать точность и производительность последующего анализа с учетом вычислительной масштабируемости18.