L’outil aide les scientifiques à repérer la source de maladies neurologiques avec des statistiques et de la science des données

Les chercheurs de l’Université de Carnegie Mellon ont développé un outil statistique qui pourrait aider à déterminer les changements génétiques qui provoquent des maladies comme la maladie d’Alzheimer et la schizophrénie. Alors que les scientifiques ont longtemps identifié les gènes associés à ces conditions, confirmant que les changements provoquent réellement la maladie sont restés un défi. L’outil, CausArray, offre de l’espoir.

Kathryn Roeder de CMU, professeur de statistiques et de sciences de la vie de l’Université UPMC dans les départements de statistiques et de science des données et de biologie informatique, a déclaré que CausArray s’est déjà prouvé efficace pour identifier des changements génétiques importants.

« Passer des études statistiques de l’association aux études de causalité est l’une des principales réalisations du domaine au cours des 10 dernières années, » Elle a dit.

Roeder a co-écrit l’étude avec Jin-Hong Du et Maya Shen de CMU, ainsi que Hansruedi Mathys, professeur adjoint au Département de neurobiologie de l’Université de Pittsburgh.

Déstaurer des relations causales complexes

CausArray s’appuie sur le concept de « confusion non mesurée »- des facteurs subtils, souvent cachés qui influencent le sort d’une cellule. « Vous avez une vie différente de moi. Nous avons des facteurs de confusion, » dit Roeder. « Eh bien, les cellules ont également des facteurs de confusion. »

À titre d’exemple de la façon dont CausArray peut être utilisé, Roeder a déclaré que l’outil sera essentiel dans l’analyse des données de CRISPR (qui signifie Reprection de répétitions palindromiques courtes régulièrement entremêlées). Dans une étude CRISPR typique, les chercheurs pourraient modifier sélectivement l’ADN d’un organisme vivant en éliminant un gène dans une cellule, puis en regardant ce qui se passe, en déduisant les effets de ce traitement en comparant les résultats à l’état des cellules qui restent intactes.

L'outil aide les scientifiques à repérer la source de maladie

Cependant, de telles approches ne peuvent pas prendre en considération les facteurs de confusion non mesurés – des facteurs tels que le cycle cellulaire ou la température de l’expérience – qui peuvent également avoir un impact sur le chemin que chaque cellule prendra, quels que soient les gènes éliminés.

« Ce que nous faisons, c’est dire, eh bien, prenons cette cellule qui a obtenu le traitement et estimez ce qui serait arrivé à cette cellule particulière si elle n’avait pas de traitement, » dit Roeder. « C’est ce que l’on appelle un contrefactuel. »

Dans le même temps, CausArray utilise de grandes quantités de données d’expression génique pour prédire également ce qui arriverait aux cellules témoins.

« Nous essayons de examiner les données du modèle commun trouvé dans plusieurs gènes pour identifier ces facteurs de confusion non mesurés, » dit DU, auteur principal de l’étude et diplômé récent du doctorat. dans le programme de statistiques et d’apprentissage automatique. « Et en corrigeant ces effets, nous essayons de passer de l’association à la causalité. »

Pour être clair, Roeder et Du ont déclaré qu’ils n’avaient pas inventé l’approche contrefactuelle. Ils sont plutôt parmi les premiers à l’appliquer à la génomique, en utilisant le logiciel causArray codé élégamment codé.

« Vous pouvez réellement consulter les caractéristiques des données, et les données prendront ce signal en raison d’une corrélation implicite entre les gènes, » dit Roeder. « Les avancées récentes, comme CRISPR, tiennent la promesse de conduire à de réelles percées dans notre compréhension des troubles cérébraux, mais nous n’atteindrons ces avancées que si elles sont associées à de puissants outils statistiques.

« C’est la magie de celui-ci. »

Les résultats sont publiés sur biorxiv serveur de préimprimée.