Integrative Multi-Omics Analysis using Multivariate Random Forest

Wei Zhang

Back

Dissertation

Integrative Multi-Omics Analysis using Multivariate Random Forest

Wei Zhang

Doctor of Philosophy (PhD), University of Miami

2024-07

Abstract

Data integration

Multiomics

Multivariate Random forest

Variable selection

Clustering

Advancements in high-throughput techniques have increased the availability of omics data, such as mRNA expression, DNA methylation, microRNA, and proteomics. Integrating these data types offers a more comprehensive analysis than using single data types. Traditional methods like sparse canonical correlation analysis (sCCA) and sparse partial least squares (sPLS) struggle with nonlinear, mixed-type data. Kernel-based methods can handle complexity but often overfit.

The random forest algorithm effectively handles complex omics data and reduces overfitting but is underused in data integration. We propose a novel framework using multivariate random forest (MRF) for variable selection and dimension reduction in multi-omics integration and cancer subtyping. We also introduce two MRF-based fusion methods for clustering to integrate multi-omics data.

Our framework demonstrates effectiveness in variable extraction and subtype clustering in simulation studies. Applied to TCGA-BRCA, TCGA-COAD, and TCGA-PAN cancer datasets, it shows promise in biomarker selection and provides new biological insights into cancer subtypes.

Files and links (1)

pdf

wxz337S247.29 MB

Embargoed Access, Embargo ends: 2026-07-21

Metrics

113 Record Views

Details

Title: Integrative Multi-Omics Analysis using Multivariate Random Forest
Creators: Wei Zhang
Contributors: Xi Steven Chen (Committee Member)
Lily Wang (Committee Member)
Min Lu (Committee Member)
Xiaodong Cai (Committee Member)
Theses and Dissertations: Doctor of Philosophy (PhD), University of Miami; Dissertation
Degree in: Biostatistics
Date of defense: 2024-06-21
Academic Unit: Miller School of Medicine
Language: English
Resource Type: Dissertation
Record Identifier: 991032075819002976