Le séquençage à lecture longue révèle davantage d’informations génétiques tout en réduisant le temps et le coût des diagnostics de maladies rares

Une personne sur dix dans le monde est touchée par une maladie génétique rare, mais environ 50 % d’entre elles ne sont pas diagnostiquées malgré l’augmentation rapide de la technologie et des tests génétiques. Même lorsqu’une personne a accès aux tests, le processus d’obtention d’un diagnostic peut prendre environ cinq ans, voire plus, ce qui est parfois trop tard pour que les patients, qui sont souvent des enfants, puissent commencer le traitement approprié.

Cela est dû en partie au fait que les tests cliniques actuels utilisent une méthode appelée séquençage à lecture courte, qui ne peut pas accéder aux informations de certaines régions du génome et peut donc manquer des preuves cruciales pour aider à établir un diagnostic.

Mais les chercheurs de l’UC Santa Cruz font avancer la recherche sur une méthode alternative de pointe, appelée séquençage à lecture longue, qui peut fournir un ensemble de données plus complet pour trouver des variations, éliminer le besoin de plusieurs tests spécialisés et rationaliser le diagnostic des maladies rares.

Une nouvelle étude montre que le séquençage à lecture longue a le potentiel d’améliorer le taux de diagnostic tout en réduisant le délai de diagnostic de plusieurs années à quelques jours, en un seul test et à un coût bien inférieur.

L’étude a été publiée dans Le Journal américain de génétique humaine et dirigé par les membres principaux du professeur d’ingénierie biomoléculaire (BME) Benedict Paten et du professeur agrégé de BME Karen Miga, ainsi que par l’ancien chercheur postdoctoral de l’UCSC Jean Monlong.

« Les maladies rares sont quelque chose que les gens ont du mal à diagnostiquer depuis tant d’années, et si nous disposons d’une technologie de séquençage qui rationalise les tests de diagnostic, je pense que ce sera une énorme contribution – et c’est ce que nous avons testé dans le cadre de cet article,  » a déclaré Shloka Negi, titulaire d’un doctorat BME à l’UC Santa Cruz. étudiant qui est le premier auteur de l’article.

« Aujourd’hui, le rendement diagnostique du séquençage génétique est extrêmement faible », a déclaré Paten. « Une cause probable réside dans les méthodes de séquençage incomplètes utilisées dans la pratique clinique. Dans ce travail, nous testons l’hypothèse selon laquelle un nouveau séquençage à lecture longue plus complet peut générer des informations supplémentaires utiles pour le diagnostic génétique.

« Nous étions ravis de découvrir de nombreuses variantes génétiques et signaux épigénétiques potentiellement intéressants dans notre cohorte. Même s’il n’en est encore qu’à ses débuts, ces informations sont très prometteuses et il faudra du temps à la communauté pour interpréter et comprendre pleinement une grande partie de ces informations. de nouvelles informations. »

Trouver une maladie rare

Cette étude s’est concentrée sur les maladies monogéniques rares, c’est-à-dire celles causées par la perturbation d’un seul gène.

Les scientifiques diagnostiquent les maladies génétiques en recherchant dans leur matériel génétique des variantes, c’est-à-dire des différences dans un gène qui peuvent l’empêcher de fonctionner correctement. L’approche typique pour trouver ces variantes utilise une technique appelée séquençage à lecture courte, qui lit les paires de bases génétiques – combinaisons d’adénine (A), de cytosine (C), de guanine (G) et de thymine (T) – dans des séquences d’environ 150 à 250 à la fois.

La limite du séquençage à lecture courte, cependant, est qu’il peut manquer des informations cruciales dans certaines régions du génome, comme des modèles de paires de bases bien plus longues que 250 paires de bases. Il ne peut pas non plus effectuer de « phasage », le processus permettant de déterminer quelles variantes sont héritées de la mère et lesquelles proviennent du père.

Cela peut aider les cliniciens à découvrir de qui les variantes sont héritées ; par exemple, si deux variantes sont héritées du même parent, une de chaque parent, ou ne sont pas héritées du tout. Cela peut être une information très utile pour les diagnostics génétiques, surtout lorsque les données parentales ne sont pas disponibles.

En revanche, le séquençage à lecture longue peut lire de longues portions d’ADN à la fois, éliminant ainsi les lacunes qui pourraient amener les scientifiques et les cliniciens à manquer des informations importantes sur la variation génétique. Le séquençage à lecture longue fournit également des données directes sur la phase ainsi que des informations sur la méthylation, un processus chimique dans l’ADN qui provoque l’activation ou la désactivation des gènes et peut contribuer à la maladie.

« Le séquençage à lecture longue sera bien meilleur dans certains cas, et nous prenons des mesures pour le prouver », a déclaré Negi.

Leader en méthodes

Les chercheurs de l’UC Santa Cruz Genomics Institute ont une riche histoire d’innovation et d’expertise dans le séquençage à lecture longue et développent activement des méthodes pour optimiser le séquençage et l’analyse pour un large éventail d’applications de recherche en santé. De nombreuses techniques développées par les chercheurs pour réaliser des prouesses, telles que le premier génome de référence véritablement complet « télomère à télomère », sont désormais utilisées pour améliorer les résultats pour les patients.

« En renforçant les découvertes antérieures, nous avons constaté que les avantages de l’utilisation du séquençage à lecture longue étaient considérablement augmentés en utilisant un génome de référence complet, dit « télomère à télomère », à la place de la référence génomique incomplète mais largement utilisée », Miga dit.

« Nous prévoyons que les pangénomes – des références qui représentent diverses variations humaines – tireront encore plus d’avantages des nouvelles technologies de séquençage à lecture longue. »

Les laboratoires de Paten et Miga se sont associés à des cliniciens pour travailler sur les cas de 42 patients atteints de maladies rares, dont certains ont reçu un diagnostic via des méthodes à lecture courte ou d’autres tests spécialisés, et d’autres n’étaient toujours pas diagnostiqués. Dans certains cas, les chercheurs ont eu accès aux informations génétiques parentales, mais dans d’autres non.

Le séquençage à lecture longue des patients a été dirigé par le laboratoire Miga à l’aide du séquençage nanopore, une méthode de séquençage à lecture longue mise au point à l’UCSC, pour obtenir des lectures de bout en bout très précises du génome des patients pour environ 1 000 $ par échantillon.

Les données génomiques ont été analysées à l’aide de méthodes informatiques développées dans le laboratoire de Paten pour trouver des variantes petites et grandes, des données de mise en phase et des données de méthylation, le tout en utilisant un pipeline appelé pipeline Napu. Le processus d’analyse prend environ une journée ou moins, selon la vitesse de traitement de l’ordinateur, et coûte 100 $.

Résoudre des cas

Après avoir séquencé et analysé les données des patients, les chercheurs ont découvert que les lectures longues fournissaient un ensemble de données plus exhaustif par rapport à ce qui pouvait être dérivé avec un séquençage à lecture courte.

Le séquençage à lecture longue a fourni un diagnostic concluant pour 11 des 42 patients de la cohorte, fournissant tout ce qui était connu à partir des données à lecture courte ainsi que des informations supplémentaires, y compris des variantes candidates rares supplémentaires, le phasage à longue portée et la méthylation, le tout dans un protocole unique, rentable et rapide.

Les 11 cas diagnostiqués comprenaient quatre hypoplasie surrénale congénitale (une maladie rare dans laquelle les glandes surrénales sont hypertrophiées et ne fonctionnent pas correctement). Le gène responsable de cette maladie se trouve dans une région particulièrement complexe du génome : il ne peut pas être caractérisé avec une technologie de séquençage à lecture courte, et les tests cliniques actuels sont lourds et incomplets.

« Pour résoudre ces cas, nous avons développé un nouvel outil pangénomique qui intègre de nouveaux assemblages de haute qualité comme le génome de référence » télomère à télomère «  », a déclaré Monlong, qui a commencé ce projet en tant que chercheur postdoctoral dans le laboratoire de Paten et l’a poursuivi dans son poste actuel à l’INSERM en France.

« Nous étions ravis de voir que nous pourrions trouver et mettre en phase les variantes pathogènes des quatre patients souffrant de cette maladie dans notre cohorte. À l’avenir, cela pourrait offrir un test clinique rapide et complet. Nous savons que de nombreuses maladies rares impliquent des régions du génome humain qui ont été historiquement difficiles à étudier, nos résultats nous encouragent donc à étendre notre approche à davantage de maladies qui sont au point mort depuis longtemps.

En outre, deux cas concernaient des troubles du développement sexuel, tandis qu’un cas rare d’hypoplasie des cellules de Leydig affectait le développement sexuel masculin en raison du sous-développement des cellules de Leydig dans les testicules. De plus, quatre cas de troubles neurodéveloppementaux, chacun représentant des odyssées diagnostiques longues et difficiles, ont finalement été résolus.

« Le séquençage à lecture longue est probablement le deuxième meilleur test pour les cas non résolus avec des variantes convaincantes dans un seul gène ou un phénotype clair », a déclaré Negi. « Il peut servir de test de diagnostic unique, réduisant ainsi le besoin de plusieurs visites cliniques et transformant un parcours de diagnostic de plusieurs années en quelques heures. »

En moyenne, chaque patient possédait 280 gènes (y compris certains gènes de la maladie mendélienne, liés à des troubles héréditaires causés par des mutations monogéniques) avec des régions codantes pour les protéines importantes uniquement couvertes par des lectures longues et non détectées par des lectures courtes.

« Il y a tellement plus de génome que les longues lectures peuvent débloquer », a déclaré Negi. « Mais il faudra un certain temps avant que nous puissions interpréter pleinement ces nouvelles informations révélées par de longues lectures. Ces données ont été absentes de nos bases de données cliniques, qui ont été construites à l’aide d’une analyse à lecture courte et d’une cartographie avec la référence standard.

« Nous avons montré que les lectures longues révèlent environ 5,8 % de plus du génome télomère à télomère auquel les lectures courtes ne pouvaient tout simplement pas accéder. »

Parmi les autres chercheurs de l’UC Santa Cruz impliqués dans cette recherche figurent Brandy McNulty, Ivo Violich, Joshua Gardner, Todd Hillaker et Sara O’Rourke.