Abstract
HIV testing is the foundation for consolidated HIV treatment and prevention. In this study, we aim to discover the most relevant variables for predicting HIV testing uptake among substance users in substance use disorder treatment programs by applying random forest (RF), a robust multivariate statistical learning method. We also provide a descriptive introduction to this method for those who are unfamiliar with it. We used data from the National Institute on Drug Abuse Clinical Trials Network HIV testing and counseling study (CTN-0032). A total of 1281 HIV-negative or status unknown participants from 12 US community-based substance use disorder treatment programs were included and were randomized into three HIV testing and counseling treatment groups. The a priori primary outcome was self-reported receipt of HIV test results. Classification accuracy of RF was compared to logistic regression, a standard statistical approach for binary outcomes. Variable importance measures for the RF model were used to select the most relevant variables. RF based models produced much higher classification accuracy than those based on logistic regression. Treatment group is the most important predictor among all covariates, with a variable importance index of 12.9%. RF variable importance revealed that several types of condomless sex behaviors, condom use self-efficacy and attitudes towards condom use, and level of depression are the most important predictors of receipt of HIV testing results. There is a non-linear negative relationship between count of condomless sex acts and the receipt of HIV testing. In conclusion, RF seems promising in discovering important factors related to HIV testing uptake among large numbers of predictors and should be encouraged in future HIV prevention and treatment research and intervention program evaluations.La prueba del VIH es la base para el tratamiento y la prevención del VIH. En este estudio, buscamos descubrir las variables más relevantes para predecir la utilización de la prueba del VIH entre los usuarios de sustancias en programas de tratamiento del trastorno por uso de sustancias mediante la aplicación de bosque aleatorio (RF), un método robusto de aprendizaje estadístico multivariado. También proporcionamos una introducción descriptiva de este método, para aquellos que no están familiarizados con el mismo. Utilizamos datos del ensayo clínico de VIH, CTN-0032, del Instituto Nacional Sobre el Abuso de Drogas (NIDA), Red de Ensayos Clínicos (Clinical Trials Network). Se incluyeron 1281 participantes VIH-negativos o con estatus desconocido a través de 12 programas comunitarios de tratamiento para los trastornos por uso de sustancias en los Estados Unidos y se asignaron al azar a tres grupos de tratamiento y asesoramiento sobre el VIH. El resultado primario a priori es el auto reporte del recibimiento de los resultados de la prueba del VIH. La precisión de la clasificación de RF se comparó con la regresión logística, un enfoque estadístico estándar para los resultados binarios. Se utilizaron medidas de importancia variable para el modelo RF para seleccionar las variables más relevantes. Los modelos basados en RF produjeron una precisión de clasificación mucho mayor que los basados en la regresión logística. El grupo de tratamiento es el predictor más importante entre todas las covariables, con un índice de variable de importancia del 12.9%. La importancia de la variable RF reveló que varios tipos de comportamientos sexuales sin condón, la autoeficacia del uso del condón y las actitudes hacia el uso del condón, y el nivel de depresión son los predictores más importantes de la recepción de los resultados de las pruebas de VIH. Existe una relación no lineal negativa entre el recuento de los actos sexuales sin condón y la recepción de la prueba del VIH. En conclusión, RF parece ser prometedor en el descubrimiento de factores importantes relacionados con la utilización de pruebas de VIH entre un gran número de predictores y debe ser alentado en el futuro la investigación en la prevención y tratamiento del VIH y en las evaluaciones del programa de intervención.