banner
Heim / Nachricht / Aberrante Spleißvorhersage in menschlichen Geweben
Nachricht

Aberrante Spleißvorhersage in menschlichen Geweben

Sep 02, 2023Sep 02, 2023

Nature Genetics Band 55, Seiten 861–870 (2023)Diesen Artikel zitieren

13.000 Zugriffe

1 Zitate

174 Altmetrisch

Details zu den Metriken

Aberrantes Spleißen ist eine Hauptursache für genetische Störungen, sein direkter Nachweis in Transkriptomen ist jedoch auf klinisch zugängliche Gewebe wie Haut oder Körperflüssigkeiten beschränkt. Während DNA-basierte Modelle für maschinelles Lernen seltene Varianten hinsichtlich der Beeinträchtigung des Spleißens priorisieren können, bleibt ihre Leistung bei der Vorhersage gewebespezifischer abweichender Spleißvorgänge noch unbewertet. Hier haben wir aus dem Genotype-Tissue Expression (GTEx)-Datensatz einen Benchmark-Datensatz für abweichendes Spleißen erstellt, der über 8,8 Millionen seltene Varianten in 49 menschlichen Geweben umfasst. Bei einem Rückruf von 20 % erreichen modernste DNA-basierte Modelle eine maximale Präzision von 12 %. Durch die Kartierung und Quantifizierung der gewebespezifischen Spleißstellennutzung im gesamten Transkriptom und die Modellierung der Isoformenkonkurrenz konnten wir die Präzision bei gleichem Abruf um das Dreifache steigern. Durch die Integration von RNA-Sequenzierungsdaten klinisch zugänglicher Gewebe in unser Modell AbSplice wurde eine Präzision von 60 % erreicht. Diese Ergebnisse, die in zwei unabhängigen Kohorten repliziert wurden, tragen wesentlich zur Identifizierung nichtkodierender Funktionsverlustvarianten sowie zum Design und der Analyse genetischer Diagnostik bei.

Die Identifizierung nichtkodierender DNA-Varianten mit Funktionsverlust stellt einen großen Engpass bei der Interpretation des gesamten Genoms dar, da die Vorhersage der Funktion außerhalb kodierender Regionen schwierig ist1. Varianten, die das Spleißen verändern, stellen eine wichtige Klasse nichtkodierender Funktionsverlustvarianten dar, da sie zu drastisch veränderten RNA-Isoformen führen können, indem sie beispielsweise Frameshifts oder Ablationen funktionell wichtiger Proteindomänen induzieren. Wenn die Variante die Wahl der Spleißisoform stark verändert, kann die verbleibende Häufigkeit funktioneller RNA-Isoformen so reduziert werden, dass die Funktion des Gens verloren geht. Aufgrund der Relevanz des Spleißens für die Varianteninterpretation, insbesondere in der Diagnostik seltener Krankheiten und in der Onkologie, wurden Algorithmen entwickelt, um vorherzusagen, ob Varianten das Spleißen beeinflussen2,3,4,5,6,7,8,9. Allerdings wurden erst kürzlich abnormale Spleißereignisse, d. h. seltene große Veränderungen der Verwendung von Spleißisoformen, in menschlichen Geweben festgestellt10,11,12. Während eine Methode vorgeschlagen wurde, mit der im Nachhinein mögliche kausale seltene Varianten für beobachtete aberrante Spleißereignisse priorisiert werden können12, wurde das Vorwärtsproblem, d.

Hier haben wir uns zum Ziel gesetzt, Modelle zu etablieren, die vorhersagen, ob eine seltene Variante mit fehlerhaftem Spleißen in einem bestimmten menschlichen Gewebe einhergeht. Zunächst gingen wir davon aus, dass nur DNA verfügbar sei, und betrachteten später weiter komplementäre RNA-Sequenzierungsdaten (RNA-seq) von klinisch zugänglichen Geweben (CATs) (Abb. 1).

Wir wollten vorhersagen, ob seltene Varianten mit fehlerhaftem Spleißen in 49 menschlichen Geweben einhergehen. a: Wir haben einen umfassenden Benchmark für aberrantes Spleißen erstellt, indem wir GTEx-Proben mit einem kürzlich veröffentlichten Aberrant-Splicing-Caller10 verarbeitet haben, auf dessen Grundlage wir Prädiktoren bewerten und entwickeln konnten, die als Eingabe DNA-Sequenz und optional RNA-seq-Daten von CATs verwenden könnten. b: Das Benchmarking ergab eine bescheidene Leistung der derzeit verwendeten Algorithmen, die nur auf DNA basieren, eine erhebliche Leistungsverbesserung bei der Integration dieser Modelle mit SpliceMap, einer quantitativen Karte des gewebespezifischen Spleißens, die wir in dieser Studie entwickelt haben, und weitere Verbesserungen, wenn auch direkte Messungen von Abweichungen einbezogen wurden Spleißen in zugänglichem Gewebe.

Wir haben mit dem Aberrant Splicing Caller FRASER (Find RAre Splicing Events in RNA-seq)10 einen Benchmark für 16.213 RNA-seq-Proben des Genotype-Tissue Expression (GTEx)-Datensatzes erstellt, der 49 Gewebe und 946 Individuen umfasst. Im Vergleich zu anderen Splicing-Ausreißererkennungsmethoden11,12 zeigte FRASER durchweg die höchste Übereinstimmung mit sequenzbasierten Prädiktoren und wurde daher anschließend für unsere Auswertungen verwendet (Extended Data, Abb. 1). Für jedes Individuum haben wir jedes proteinkodierende Gen berücksichtigt, das mindestens eine seltene Variante trägt (Minor Allel Frequency (MAF) weniger als 0,1 % basierend auf der Genome Aggregation Database (gnomAD)13 und bei nicht mehr als zwei Individuen in GTEx gefunden) und festgelegt Ziel ist es, vorherzusagen, in welchem ​​Gewebe, wenn überhaupt, dieses Gen fehlerhaft gespleißt ist. Wir haben ein Gen als fehlerhaft gespleißt in einer Probe definiert, wenn es als transkriptomweit signifikanter Spleißausreißer bezeichnet wurde und eine ausreichende Amplitude (differenzielles Einspleißen (Ψ) größer als 0,3; Methoden) aufweist, und siehe Erweiterte Daten Abb. 1 für Ergebnisse mit alternativen Grenzwerten). Frühere Studien hatten berichtet, dass bis zu 75 % der abnormalen Spleißereignisse in GTEx-RNA-seq-Proben nicht über Gewebe hinweg repliziert werden10,12 und daher möglicherweise technische Artefakte oder fehlerhaftes Spleißen widerspiegeln, das nicht genetisch bedingt ist. Wir haben die Anreicherung replizierter Spleißausreißer in Geweben desselben Individuums in Bezug auf den Abstand zur nächstgelegenen seltenen Variante quantifiziert und festgestellt, dass sie bis zu einem Abstand von 250 Basenpaaren (bp) angereichert sind (Erweiterte Daten, Abb. 2). Daher erforderten wir auch, dass eine seltene Variante weniger als 250 bp von den Grenzen eines Introns entfernt ist, das mit der fehlerhaft gespleißten Spleißstelle verbunden ist (Methoden und erweiterte Daten, Abb. 3). Dieser Filter lieferte ähnliche Ergebnisse wie die Filterung nach replizierten abweichenden Ereignissen, mit dem zusätzlichen Vorteil, dass er auf unabhängige Kohorten anwendbar ist, die eine einzige Stichprobe pro Person haben (Erweiterte Daten, Abb. 4).

Anschließend bewerteten wir die Leistung zweier komplementärer, hochmoderner sequenzbasierter Deep-Learning-Modelle: der modularen Modellierung des Spleißens (MMSplice)3, die quantitative Nutzungsänderungen vordefinierter Spleißstellen innerhalb eines 100-bp-Fensters einer Variante vorhersagt. und SpliceAI2, das unabhängig von Genanmerkungen ist und die Entstehung oder den Verlust von Spleißstellen innerhalb eines 50-bp-Fensters einer Variante vorhersagt (Extended Data Abb. 5). Die Verwendung größerer Vorhersagefenstergrößen für SpliceAI verbesserte die Ergebnisse nicht (ergänzende Abbildung 1). Für Personen mit mehreren seltenen Varianten eines Gens haben wir die höchste Punktzahl jedes Modells beibehalten. Die sofort einsatzbereite Anwendung von MMSplice und SpliceAI zeigte eine mäßige Leistung mit einer Gesamtpräzision von 8 % für MMSplice und von 12 % für SpliceAI bei 20 % Recall und einer Fläche unter der Präzisions-Recall-Kurve (auPRC) von 4 % ± 1 Prozentpunkt über die Gewebe hinweg für MMSplice und 5 % ± 2 Prozentpunkte für SpliceAI.

Wir haben beobachtet, dass viele falsche Vorhersagen auf ungenaue Annotationen des Genoms zurückzuführen sind. Einerseits sind Standardannotationen des Genoms nicht gewebespezifisch, was zu falsch positiven Vorhersagen führt. Dazu gehören Vorhersagen für Gene, die im interessierenden Gewebe nicht exprimiert werden, wie für das Gen TRPC6 im Gehirn (Abb. 2a), und unter den exprimierten Genen Vorhersagen für Exons, die im Gewebe nicht kanonisch verwendet werden, wie für Exon 2 von C2orf74 im Nervus tibialis (Abb. 2b). Andererseits fehlen viele Spleißstellen in Standard-Genomanmerkungen14,15. Diese nicht annotierten Spleißstellen werden häufig auf einer niedrigen Ebene gespleißt, können jedoch durch Varianten stark verstärkt werden (siehe Abb. 2c für ein Beispiel) und gelten vermutlich als Hauptursache für fehlerhaftes Spleißen 16, 17. Um all diese Probleme anzugehen, haben wir unter Verwendung von GTEx-RNA-seq-Daten eine gewebespezifische Spleißstellenkarte erstellt, die wir SpliceMap nannten. SpliceMap schließt nicht transkribierte Spleißstellen und Introns für jedes Gewebe aus und schließt nicht annotierte Spleißstellen und Introns ein, die reproduzierbar in Proben desselben Gewebes beobachtet wurden (Methoden). Die Standard-Genomannotation GENCODE18 (Version 38 von hg38) enthält 244.189 Donorstellen und 235.654 Akzeptorstellen, von denen 93 % mindestens in einem GTEx-Gewebe nachgewiesen wurden (Abb. 2d). SpliceMap enthält 168.004 ± 9.288 Spenderstellen und 164.702 ± 8.950 Akzeptorstellen pro Gewebe (Extended Data Abb. 6). Davon waren 7.060 ± 3.706 Spenderstellen und 8.222 ± 3.740 Akzeptorstellen nicht annotiert, wobei der Hoden die maximale Anzahl an nicht annotierten Donor- und Akzeptorstellen enthielt (29.673 bzw. 29.911), was den einzigartigen Transkriptions- und Spleißmustern der Hoden entspricht19,20 . SpliceMap ist robust gegenüber Schwankungen der Stichprobengröße und gegenüber verschiedenen Split-Read-Zählwerkzeugen 21, 22 (ergänzende Abbildung 2). Darüber hinaus stellten wir fest, dass die derzeit verfügbaren Long-Read-RNA-Seq-Daten in GTEx23 noch nicht empfindlich genug waren, um nicht annotierte Spleißstellen zuverlässig zu identifizieren (ergänzende Abbildung 2). Die Anwendung von MMSplice auf die durch SpliceMap definierten gewebespezifischen Spleißstellen erhöhte die Präzision von MMSplice auf 13 % bei 20 % Recall (Abb. 2e), mit einem deutlich höheren auPRC durchgängig über alle Gewebe hinweg (Abb. 2f). In ähnlicher Weise erhöhte die Anwendung von SpliceMap auf SpliceAI die Präzision auf 22 % bei 20 % Rückruf.

a–c, Sashimi-Diagramme, die die RNA-seq-Read-Coverage (y-Achse) und die Anzahl der Split-Reads über ein Intron zeigen, das auf der Exon-Verbindungslinie angegeben ist (unter Verwendung von pysashimi50), um die Vorteile der SpliceMap-Annotation zu veranschaulichen. Für jede Instanz werden zwei Personen angezeigt. Das Individuum mit der seltenen genetischen Variante (befindet sich an der gestrichelten schwarzen Linie) wird in der unteren Spur (dunklere Farbe) angezeigt. SpliceMap katalogisiert exprimierte Gene und Spleißstellen in jedem Gewebe und kann so bei der Identifizierung von Fällen helfen, bei denen es in Geweben, die nicht das gesamte Gen (a) oder das Exon (b) in der Nähe der Variante exprimieren, keinen Varianteneffekt gibt. Darüber hinaus enthält SpliceMap schwache Spleißstellen, die auf niedriger Ebene gespleißt werden, aber aktiviert werden können und in Gegenwart einer Variante (c) neue Exons erzeugen. d, Venn-Diagramm zum Vergleich annotierter Spleißstellen in der Standard-Genomannotation (GENCODE-Version 38) und SpliceMap, das alle GTEx-Gewebe aggregiert. e, Präzisions-Recall-Kurven, die die Gesamtvorhersageleistung über alle GTEx-Gewebe hinweg (n = 49) vergleichen: MMSplice angewendet auf GENCODE-Spleißstellen, MMSplice angewendet auf gewebespezifische Spleißstellen gemäß SpliceMap, SpliceAI und SpliceAI unter Verwendung gewebespezifischer SpliceMaps. f, Verteilung des auPRC über alle GTEx-Gewebe der Modelle in e. Mittellinie, Median; Box-Limits, erstes und drittes Quartil; Whisker umfassen alle Daten innerhalb von 1,5 Interquartilbereichen des unteren und oberen Quartils. Die P-Werte wurden mithilfe des gepaarten einseitigen Wilcoxon-Tests berechnet. Alt, Alternative; Ind, individuell; Referenz, Referenz.

Varianten, die das Spleißen beeinflussen, sind typischerweise mit Änderungen des Häufigkeitsverhältnisses konkurrierender Spleißisoformen verbunden, die gemäß dem sogenannten Skalierungsgesetz des Spleißens zu nichtlinearen Auswirkungen auf die Isoformenverhältnisse führen 25, 26. Ausgehend von einem Verhältnis von 1:1 zwischen einer Spleißisoform und ihrer Alternative in einem Hauptallel-Hintergrund führt beispielsweise eine zehnfache Verringerung zu einem Verhältnis von 1:10, was einer Verringerung um etwa 40 Prozentpunkte entspricht (von 50 % auf etwa 10 %). ). Allerdings führt die gleiche Änderung des Verhältnisses um ein Vielfaches ausgehend von einem Verhältnis von 1:10 zu einer Verringerung um weniger als 1 Prozentpunkt (Erweiterte Daten, Abb. 7). Daher impliziert das Skalierungsgesetz des Spleißens, dass allein die Variation der Isoformenhäufigkeit zwischen Geweben im Hauptallelhintergrund einige der gewebespezifischen Auswirkungen von Varianten auf den Isoformenanteil erklären kann25, wie am Beispiel von Exon 7 des Gens TRPC6 (Abb. 3a) . Wir haben die Hauptallel-Hintergrundwerte der alternativen Donor- und Akzeptor-Spleißstellennutzungsanteile für alle Introns und alle Gewebe von SpliceMap geschätzt (Erweiterte Daten, Abb. 7). Durch die Integration dieser Referenzwerte wurden die MMSplice-Vorhersagen über alle Gewebe hinweg konsistent um das 1,6-fache verbessert, und in geringerem Maße auch die SpliceAI-Vorhersagen (Abb. 3b, c und Methoden). Wir vermuten, dass MMSplice im Vergleich zu SpliceAI eine stärkere relative Verbesserung zeigte, da es den Prozentsatz der gespleißten vordefinierten Spleißstellen modelliert und Referenzniveaus mithilfe des Skalierungsgesetzes auf prinzipielle Weise integrieren kann. Im Gegensatz dazu modelliert SpliceAI die Entstehung oder den Verlust von Spleißstellen. Wir haben Referenzpegel mit SpliceAI integriert, indem wir Filter (Methoden) angewendet haben. Allerdings sind vorhergesagte Aktivierungen kommentierter Spleißstellen und vorhergesagte Deaktivierungen nicht kommentierter Spleißstellen bereits in SpliceAI maskiert, wodurch der Effekt der Verwendung von Referenzpegelfiltern für eine große Anzahl von Spleißstellen qualitativ erfasst wird.

a, Sashimi-Diagramm von TRPC6 um Exon 7 in Lunge und Gehirn für zwei Individuen, von denen eines keine seltene Variante in dieser Region trägt (Kontrolle, obere Spuren) und eines eine exonische seltene Deletion trägt (gestrichelte Linie und untere Spuren), die mit reduziertem Spleißen verbunden ist von Exon 7. Die Spenderstellen von Exon 6 und Exon 7 konkurrieren miteinander um das Spleißen mit der Akzeptorstelle von Exon 8. Für die Kontrollperson wird die Spenderstelle von Exon 7 70 % der Zeit in der Lunge verwendet, und nur 11 % der Zeit im Gehirn. Die Variante geht mit einem stärkeren Unterschied (33 Prozentpunkte) in der Lunge einher als im Gehirn (1 Prozentpunkt). b, Präzisions-Recall-Kurve, die die Gesamtvorhersageleistung für alle GTEx-Gewebe von SpliceAI, SpliceAI mit SpliceMap, SpliceAI mit SpliceMap zusammen mit quantitativen Referenzniveaus des Spleißens, MMSplice mit GENCODE-Annotation, MMSplice mit SpliceMap-Annotation, MMSplice mit SpliceMap-Annotation zusammen mit quantitativen Referenzniveaus vergleicht Referenzebenen des Spleißens und das integrative Modell AbSplice-DNA. Es werden verschiedene Grenzwerte angezeigt (SpliceAI, hoch: 0,8, mittel: 0,5, niedrig: 0,2; MMSplice (Absolutwert der Punktzahl), hoch: 2, mittel: 1,5, niedrig: 1; AbSplice-DNA, hoch: 0,2, mittel: 0,05, niedrig: 0,01). c, Verteilung der auPRC der Modelle in b über Gewebe (n = 49). Mittellinie, Median; Box-Limits, erstes und drittes Quartil; Whisker umfassen alle Daten innerhalb von 1,5 Interquartilbereichen des unteren und oberen Quartils. Die P-Werte wurden mithilfe des gepaarten einseitigen Wilcoxon-Tests berechnet. d, Modellleistung in verschiedenen VEP51-Variantenkategorien. Die Kategorien sind von links nach rechts nach abnehmendem Schweregrad geordnet. Jede kommentierte Variante ist nach ihrer schwerwiegendsten Kategorie gekennzeichnet. Die Kategorie „Exon“ besteht aus den VEP-Kategorien Stop Gain, Stop Lost, Missense und Synonym. e, Modellleistung über nicht-exklusive Ausreißer-Ergebniskategorien hinweg (Methoden). Für die Panels d und e enthält die Kategorie „Alle“ alle eindeutigen Varianten (unabhängig von der VEP-Annotation und den Ausreißer-Ergebniskategorien) und n ist die Anzahl der mit Ausreißern verbundenen Varianten.

Um die Komplementarität von MMSplice- und SpliceAI-Vorhersagen7 zu nutzen, haben wir als Nächstes ein verallgemeinertes additives Modell trainiert, das die Ergebnisse beider Deep-Learning-Modelle sowie Annotationsmerkmale von gewebespezifischen SpliceMaps (Methoden) verwendet. Dieses Modell, das wir AbSplice-DNA nennen, erzielte eine zusätzliche 1,5-fache Verbesserung (Abb. 3b, c). Die AbSplice-DNA-Scores sind Wahrscheinlichkeitsschätzungen, die unserer Meinung nach auf GTEx gut kalibriert sind (Extended Data Abb. 8). AbSplice sagt für jede Variante voraus, wie wahrscheinlich es ist, dass in einem bestimmten Gewebe fehlerhaftes Spleißen stattfindet, und meldet die Spleißstelle mit dem stärksten Effekt (ein Beispiel finden Sie in der Ergänzungstabelle 1). Um nachgelagerte Anwendungen zu vereinfachen, schlagen wir drei Grenzwerte vor (hoch: 0,2, mittel: 0,05, niedrig: 0,01), die ungefähr die gleichen Rückrufe haben wie die hohen, mittleren und niedrigen Grenzwerte von SpliceAI (Abb. 3b).

Wir haben auch die Integration anderer Prädiktoren in AbSplice-DNA getestet, indem wir Ergebnisse aus Combined Annotation Dependent Depletion-Splice (CADD-Splice)7, Multi-tissue Splice (MTSplice)9 und Super Quick Information-content Random-forest Learning of Splice-Varianten einbezogen haben ( EICHHÖRCHEN)8 (Methoden). Allerdings führten diese Modelle nur zu geringfügigen Verbesserungen (Extended Data Abb. 9). Wir haben beschlossen, nur MMSplice und SpliceAI in das endgültige Modell zu integrieren, um kein Modell durch Konservierungsinformationen zu verfälschen (verwendet von CADD-Splice und SQUIRLS) und um die Möglichkeit zu behalten, neue Gewebe einfach zu integrieren, was bei diesem nicht der Fall wäre MTSplice. Dennoch kann der Code von AbSplice leicht geändert werden, um neue Funktionen zu integrieren. Wir haben auch Random Forest und logistische Regression als alternative Modelle für maschinelles Lernen ausprobiert, die ähnliche Leistungen wie das verallgemeinerte additive Modell erbrachten (Methoden und erweiterte Daten, Abb. 9).

Wir haben die Modellleistungen detaillierter bewertet, indem wir die Ergebnisse auf zwei verschiedene Szenarien geschichtet haben. Zuerst haben wir nach Variantenkategorien geschichtet. Wie erwartet war die Präzision bei Varianten am besten, die die Donor- und Akzeptor-Dinukleotide in allen Modellen beeinflussten, gefolgt von Varianten in der Spleißregion (innerhalb von 1–3 Basen des Exons oder 3–8 Basen des Introns) und dann in der Exonregion und schließlich in den intronischen Regionen (Methoden und Abb. 3d). AbSplice-DNA übertraf alle Modelle in allen Variantenkategorien, einschließlich intronischer Varianten, deren Auswirkungen bekanntermaßen schwieriger vorherzusagen sind. Zweitens analysierten wir die Modellleistung für fünf nicht exklusive, aberrante Spleißergebnisse: Exon-Verlängerung, Exon-Verkürzung, Exon-Skipping, Ausreißer bei der Auswahl alternativer Spender oder Akzeptoren und Ausreißer bei der Spleißeffizienz. AbSplice-DNA schnitt beim Exon-Skipping besser ab als bei der Exon-Verlängerung und -Verkürzung sowie bei der Wahl eines alternativen Spenders oder Akzeptors besser als bei Ausreißern der Spleißeffizienz. Darüber hinaus übertraf AbSplice-DNA alle anderen Modelle in allen untersuchten Ausreißer-Ergebniskategorien (Abb. 3e).

Nachdem wir unser Modell auf GTEx etabliert hatten, beurteilten wir als nächstes, wie gut sich die Leistung in unabhängigen Kohorten replizierte. Wir haben zunächst einen Datensatz ausgewertet, der aus RNA-seq-Proben von Hautfibroblasten von 303 Personen mit Verdacht auf eine seltene Mitochondriopathie besteht27. Wir fanden heraus, dass es in SpliceMaps, die aus GTEx-Fibroblasten und aus dieser Kohorte generiert wurden, eine große Überlappung (86 %) der Spleißstellen gab (Abb. 4a und ergänzende Abb. 3). Darüber hinaus beobachteten wir konsistente Referenzniveaus des Spleißens zwischen den beiden Datensätzen (Abb. 4b, Pearson-Korrelation 0,87). Wir haben auf GTEx trainierte AbSplice-DNA unter Verwendung der SpliceMap von GTEx-Fibroblasten auf die Teilmenge dieser Daten angewendet, für die eine Sequenzierung des gesamten Genoms (WGS) verfügbar war (n = 20), und haben abweichende Spleißaufrufe verwendet, die an den RNA-seq-Proben durchgeführt wurden, um das zu bewerten Vorhersagen. Die relativen Verbesserungen zwischen den Basismodellen und der replizierten AbSplice-DNA. AbSplice-DNA erreichte 13,2 ± 1,5 % auPRC, 2,5-fach höher als SpliceAI oder MMSplice allein (Abb. 4c). Unter dem Gesichtspunkt der Priorisierung seltener Varianten lieferte AbSplice-DNA typischerweise etwa doppelt so viele Kandidatenvorhersagen bei gleicher Erinnerungsstufe wie SpliceAI und schnitt selbst im Vergleich zu MMSplice positiv ab (ergänzende Abbildung 4). Daher kann AbSplice-DNA die Diagnose seltener Krankheiten unterstützen, indem es im Vergleich zu modernsten sequenzbasierten Modellen wesentlich kürzere Listen vorhergesagter Kandidatenvarianten zur Untersuchung bereitstellt.

a, Venn-Diagramm zum Vergleich der Spleißstellen in der SpliceMap, die aus Fibroblasten aus einem Datensatz mitochondrialer Erkrankungen (n = 303) und GTEx (n = 492) generiert wurde. b, Korrelation der Referenz-Ψ-Werte aus der Vereinigung der Introns der SpliceMaps aus a. Für die Vereinigung von Introns: n = 736.503, Pearson-Korrelation = 0,87, R2 = 0,74, wobei der Referenz-Ψ von sich nicht schneidenden Introns auf Null gesetzt wurde. Für den Schnittpunkt von Introns: n = 522.876, Pearson-Korrelation = 1,0, R2 = 0,99. c, AuPRC zur Klassifizierung anomaler Spleißereignisse aus seltenen Varianten im mitochondrialen Krankheitsdatensatz für SpliceAI, MMSplice und AbSplice-DNA, trainiert auf GTEx unter Verwendung der GTEx-Fibroblasten-SpliceMap von a. Fehlerbalken stellen SEM dar (Jackknife über Stichproben, n = 20). d, Anreicherung von High-Score-Vorhersagen in ALS-Genen (n = 165). Grenzwerte gelten für SpliceAI (hoch: 0,8), MMSplice (hoch: 2) und AbSplice-DNA (hoch: 0,2). Die Stichprobengröße n in den X-Achsen-Beschriftungen entspricht der Gesamtzahl der Vorhersagen über dem Grenzwert. P-Werte wurden mithilfe einseitiger Fisher-Tests berechnet, wobei alle proteinkodierenden Gene als Universum betrachtet wurden. e, Anteil seltener Varianten, die die in d beschriebenen hohen Grenzwerte für MMSplice mit GENCODE-Annotation, SpliceAI und AbSplice-DNA bestehen, trainiert auf GTEx und unter Verwendung von GTEx-Gehirn-SpliceMaps sowie einer SpliceMap von ALS-Motoneuronen, validiert mithilfe von Proteomik (Z-Score). < −2; Methoden) im ALS-Datensatz. Die Stichprobengröße n in den Y-Achsenbeschriftungen entspricht der Gesamtzahl der Vorhersagen oberhalb des Grenzwerts. Fehlerbalken stellen 95 %-KIs aus dem Binomialtest dar. f, Genomweite Depletion von Varianten mit hoher Auswirkung unter seltenen SNVs (gnomAD MAF < 0,1 %) innerhalb eines Gens (n ​​= 19.534) als Funktion der LOEUF-Score-Dezile. Varianten mit hoher Auswirkung werden durch einen SpliceAI-Score > 0,8, einen MMSplice-Score > 2 (absoluter Score) und einen AbSplice-DNA-Score > 0,2 in mindestens einem Gewebe definiert. Sternchen markieren Signifikanzniveaus zweiseitiger Fisher-Tests von AbSplice-DNA im Vergleich zu SpliceAI (*<0,05, **<10−4, ***<10−8). NS, nicht signifikant.

Als nächstes betrachteten wir eine Kohorte von WGS-Proben, gepaart mit RNA-seq- und Proteomikdaten von aus induzierten pluripotenten Stammzellen (iPSC) stammenden spinalen Motoneuronen von 245 von Amyotropher Lateralsklerose (ALS) betroffenen und 45 gesunden Personen aus dem Answer ALS-Projekt (Methoden). ). Da von iPSC abgeleitete spinale Motoneuronen in GTEx nicht profiliert wurden, haben wir zwei Ansätze in Betracht gezogen. Einerseits haben wir die gesunden Answer ALS-Kontrollen verwendet, um eine SpliceMap für von iPSC abgeleitete spinale Motoneuronen zu erstellen. Andererseits verwendeten wir die SpliceMap von GTEx-Gehirngeweben als Proxy, die die höchste Überlappung aller GTEx-Gewebe zeigte (ergänzende Abbildung 5). Wir fanden heraus, dass die GTEx-SpliceMap aus Hirngewebe sowohl qualitativ (76 % gemeinsame Spleißstellen) als auch quantitativ (Pearson-Korrelation 0,86; ergänzende Abbildung 5) einigermaßen gut mit der aus dieser Kohorte abgeleiteten übereinstimmte. Auch hier übertraf AbSplice-DNA SpliceAI und MMSplice. Interessanterweise erzielte AbSplice-DNA ähnliche Leistungen mit der SpliceMap aus GTEx-Gehirngeweben oder mit der SpliceMap aus iPSC-abgeleiteten spinalen Motoneuronen, was darauf hindeutet, dass AbSplice-DNA auch in Abwesenheit von Kontrollproben mithilfe von SpliceMaps aus Proxy-Geweben robust angewendet werden kann (ergänzende Abbildung). 6). Darüber hinaus wurden AbSplice-DNA-Vorhersagen für Gene angereichert, die mit ALS28,29,30,31,32 assoziiert sind (dreifache Anreicherung; Abb. 4d), was bei MMSplice-Vorhersagen weniger der Fall war und bei SpliceAI-Vorhersagen nicht der Fall war. Wir haben AbSplice-DNA anhand der für diese Kohorte verfügbaren Proteomikdaten weiter validiert. Bei unserem empfohlenen Grenzwert sagte AbSplice-DNA voraus, dass 58 Gene fehlerhaft gespleißt waren, von denen 31 % (18 von 58; 95 %-Konfidenzintervall (95 %-KI), 20–45 %) der entsprechenden Proteine ​​eine signifikant geringe Häufigkeit aufwiesen (Z -score < −2; Methoden), konsistent mit RNA-Abbau durch Nonsense-vermittelten Zerfall oder Proteinisoformen, die aus fehlerhaften Spleißereignissen resultieren, die schlechter übersetzt oder weniger stabil sind. In ähnlicher Weise führte die unabhängige Bestätigung durch Proteomik zu Validierungsraten von MMSplice (26 von 183; 95 %-KI, 9–20 %) und SpliceAI (17 von 80; 95 %-KI, 13–32 %), die mit den ursprünglich beobachteten Validierungsraten übereinstimmten bei diesen Grenzwerten unter Verwendung des GTEx RNA-seq-Benchmarks (Abb. 3b). Insgesamt bestätigen die Proteomikanalysen die relativen Verbesserungen der verschiedenen Modelle und stimmen insgesamt mit unseren Präzisionsschätzungen überein.

Darüber hinaus haben wir AbSplice-DNA auf 203.306.868 seltene Varianten (MAF <0,1 %) aus dem gnomAD-Datensatz angewendet, indem wir SpliceMaps aus allen GTEx-Geweben verwendet haben. In stark eingeschränkten Genen, definiert als die 10 % der Gene, die in gnomAD13 am stärksten für Funktionsverlustvarianten abgereichert sind, waren seltene Varianten für hohe AbSplice-DNA-Scores in mindestens einem Gewebe stärker abgereichert (3,4-fache Abreicherung) als für hohe SpliceAI-Scores (2,9-fache Erschöpfung, P <10−21; Abb. 4f) oder hohe MMSplice-Scores (2,2-fache Erschöpfung). Eine stärkere Erschöpfung als bei SpliceAI oder MMSplice trat auch auf, wenn der AbSplice-DNA-Cutoff gelockert wurde, um der Gesamtzahl der Vorhersagen von SpliceAI zu entsprechen (ergänzende Abbildung 7).

Zusammenfassend belegen diese Ergebnisse unabhängiger Daten die Robustheit und Anwendbarkeit von AbSplice-DNA und legen ihren Nutzen für die Diagnose seltener Krankheiten und die Interpretation seltener Varianten nahe.

Die Sequenzierung von Transkriptomen von CATs wie Haut oder Körperflüssigkeiten ist in der Forschung zu seltenen Krankheiten von zunehmendem Interesse, da sie den direkten Nachweis fehlerhafter Spleißstellen für die Spleißstellen ermöglicht, die sowohl im CAT als auch in Geweben mit vermuteter Krankheitsrelevanz verwendet werden16,33,34,35. Der GTEx-Datensatz besteht aus postmortal gesammelten RNA-seq-Proben aus einer Vielzahl von Geweben und bietet dadurch die einzigartige Möglichkeit zu bewerten, inwieweit fehlerhaftes Spleißen in einem zugänglichen Gewebe fehlerhaftes Spleißen in einem anderen interessierenden Gewebe widerspiegelt. Ein positives Beispiel bei GTEx ist das fehlerhafte Spleißen von DDX27 im Herzen, das auch in Hautfibroblasten beobachtet werden kann (Abb. 5a). In Übereinstimmung mit einer früheren Studie35, die auf der Ensembl-Genannotation36 basierte, stellten wir fest, dass Fibroblasten unter den CATs laut SpliceMap die höchste Überlappung transkribierter Spleißstellen mit nicht zugänglichen Geweben aufweisen, gefolgt von Lymphozyten und Vollblut (Abb. 5b). Um abweichendes Spleißen in nichtzugänglichen Geweben vorherzusagen, haben wir in Betracht gezogen, die Gene eines Individuums zunächst nach signifikantem und großem aberrantem Spleißen in einem CAT (False Discovery Rate (FDR) < 0,1 und |ΔΨ| > 0,3) und dann nach Signifikanzniveau zu ordnen. Diese einfache Methode ergab im Vergleich zu den DNA-basierten Modellen eine deutlich höhere Präzision, bis zu fast 40 % Recall (Abb. 5c und Extended Data Abb. 10a). Allerdings bleiben RNA-basierte Vorhersagen auf die im CAT exprimierten und gespleißten Spleißstellen beschränkt. Daher haben wir als nächstes Modelle trainiert, die AbSplice-DNA-Merkmale zusammen mit RNA-seq-basierten Merkmalen von CATs integrieren, einschließlich Schätzungen der differentiellen Spleißamplitude, um das Spleißskalierungsgesetz und die SpliceMaps (Methoden) zu nutzen. Diese Modelle, die wir AbSplice-RNA nennen, übertrafen alle anderen Modelle (Abb. 5c und Extended Data Abb. 10a). Wir fanden heraus, dass die Verwendung von Fibroblasten nur zu der gleichen Leistung wie die Verwendung aller CATs führte und eine Präzision von etwa 60 % bei 20 % Recall erreichte, was einer zweifachen Verbesserung gegenüber AbSplice-DNA gleichkam (Abb. 5c und Extended Data Abb. 10b). Diese Verbesserungen waren in allen Zielgeweben konsistent (Abb. 5d). Wie erwartet übertraf AbSplice-RNA AbSplice-DNA für in CATs exprimierte Gene und blieb ansonsten gleichauf (Extended Data Abb. 10c). Insgesamt stellen diese Ergebnisse eine formale Möglichkeit dar, direkte Messungen von aberrantem Spleißen zusammen mit sequenzbasierten Modellen zu integrieren, um aberrantes Spleißen in einem interessierenden Gewebe vorherzusagen.

a, Sashimi-Diagramm von DDX27 um Exon 10 für zwei Personen im Herzen und in Fibroblasten. Ein Individuum trägt in dieser Region keine seltene Variante (Kontrolle, obere Spuren), und eines trägt eine exonische seltene Variante (gestrichelte Linie, untere Spuren), die mit einer erhöhten Spleißung von Exon 10 verbunden ist. Dieses Exon zeigt eine ähnliche Verwendung in Fibroblasten und im Herzen (Referenzprozentsatz der gespleißten Spenderstelle, Ψ3 = 8 %, laut SpliceMap in beiden Geweben, im Einklang mit den Messwerten für die angezeigte Kontrollperson: Ψ3 = 6 % im Herzen und Ψ3 = 5 % in Fibroblasten). Der mit der Variante verbundene Effekt bei Fibroblasten ähnelt gut dem im Herzen (Unterschied bei der Nutzung der Spenderstelle, ΔΨ3 = 50 % im Herzen und 37 % bei Fibroblasten). In diesem Fall kann fehlerhaftes Spleißen direkt am zugänglichen Gewebe erkannt werden. b, Anteil der Spleißstellen, die in klinisch nicht zugänglichen GTEx-Zielgeweben (Zeilen) verwendet werden, die auch in GTEx-CATs (Spalten) verwendet werden. c, Präzisions-Recall-Kurve, die die Gesamtvorhersageleistung für alle GTEx-Gewebe von SpliceAI, MMSplice unter Verwendung von GENCODE-Annotation, AbSplice-DNA, FRASER-P-Werten auf Genebene in Fibroblasten und AbSplice-RNA vergleicht, die AbSplice-DNA-Merkmale mit Merkmalen aus RNA integriert -seq aus Fibroblasten. d, Verteilung des auPRC der Modelle in c über Gewebe (n = 49). Mittellinie, Median; Box-Limits, erstes und drittes Quartil; Whisker umfassen alle Daten innerhalb von 1,5 Interquartilbereichen des unteren und oberen Quartils; Die P-Werte wurden mithilfe des gepaarten einseitigen Wilcoxon-Tests berechnet.

Wir haben einen umfassenden Benchmark für die Vorhersage von Varianten erstellt, die zu fehlerhaftem Spleißen in menschlichen Geweben führen, und dabei die begrenzte Leistung modernster sequenzbasierter Modelle aufgedeckt. Wir haben eine gewebespezifische Spleißanmerkung (SpliceMap) basierend auf GTEx erstellt, die die Spleißstellen von Akzeptoren und Spendern kartiert und deren Verwendung in 49 menschlichen Geweben quantifiziert. Wir haben gezeigt, dass die Integration von SpliceMap mit DNA-basierten Vorhersagemodellen bei gleichem Rückruf zu einer dreifachen Steigerung der Präzision führt. Darüber hinaus haben wir herausgefunden, dass die RNA-Sequenz von CATs DNA-basierte Spleißvorhersagen ergänzt, wenn sie in ein integratives Modell integriert wird.

Die Vorhersage spleißstörender Varianten hat eine lange Geschichte von über 20 Jahren Arbeit2,3,4,5,6,7,8,9,26,37,38,39,40,41,42,43,44. Dazu gehören gewebespezifische Modelle für Mäuse43,44 und neuerdings auch für Menschen9,41. Diese Modelle zeigten Erfolge bei verschiedenen Spleißvorhersageaufgaben, wie z. B. der quantitativen Änderung des prozentualen Spleißanteils, der Spleißstellennutzung oder der Spleißeffizienz. Diese Studie konzentriert sich hauptsächlich auf die Vorhersage extremer Spleißeffekte (Ausreißer), die noch nicht bewertet wurden. Diese Modellierungsaufgabe konnte erst jetzt untersucht werden, nachdem abweichende Splicing-Caller10,11,12 entwickelt wurden, die die Etablierung einer Grundwahrheit für die Vorhersage von Splicing-Ausreißern ermöglichten. Wir gehen davon aus, dass das Paradigma der Vorhersage extremer Effekte beim Spleißen aus DNA eine Inspiration für zukünftige Forschungen sein und weiter auf die Vorhersage abweichender Expression oder Proteinhäufigkeit ausgeweitet werden könnte. Darüber hinaus ermöglichten uns die von GTEx bereitgestellten großen Kohorten mit mehreren Geweben die Bewertung und Entwicklung gewebespezifischer Prädiktoren. Die Verwendung abweichender Spleißvorhersagen für Gewebe, die mechanistisch mit der interessierenden Krankheit in Zusammenhang stehen, kann sich als hilfreich bei der Identifizierung des Effektorgens erweisen, ebenso wie gewebespezifische Vorhersagen für transkriptomweite Assoziationsstudien wichtig sind45.

Einige Modelle zur Vorhersage von Spleißvarianteneffekten nutzen die Konservierung als weiteren Beweis für die funktionale Relevanz einer Variante7,8. Obwohl die Konservierung ein starker Indikator für die Funktion ist, haben wir uns entschieden, die Konservierung nicht in unser endgültiges Modell einzubeziehen, da Varianten, die abweichendes Spleißen verursachen, nicht unbedingt in konservierten Regionen vorkommen müssen. Darüber hinaus hängt die Erhaltung von der funktionellen Bedeutung des Gens ab. Ein Nukleotid, das das Spleißen eines nicht konservierten Gens stark beeinflusst, kann weniger konserviert sein als ein Nukleotid mit einem milderen Einfluss auf das Spleißen, das sich in einem hochkonservierten Gen befindet. Außerdem kann ein Nukleotid aufgrund seiner anderen möglichen Rollen neben dem Spleißen konserviert werden. Beispielsweise könnten exonische Regionen in der Nähe von Spleißstellen aufgrund ihrer Rolle bei der Proteinfunktion konserviert werden. Obwohl die Konservierung unser Modell immer noch geringfügig, aber deutlich verbessern könnte (Erweiterte Daten, Abb. 9), haben wir uns insgesamt dafür entschieden, der Gemeinschaft ein Modell zur Verfügung zu stellen, das abweichendes Spleißen per se vorhersagt, indem wir Modelle integrieren, die ausschließlich auf DNA-Sequenz und aus RNA gemessenen Spleißmetriken trainiert wurden. seq oder Massively Parallel Reporter Assays (MPRAs) (SpliceAI und MMSplice). AbSplice-Benutzer können in Nachbearbeitungsschritten weiterhin von Konservierungsnachweisen profitieren, um Varianten weiter zu priorisieren.

Wir haben SpliceMaps erstellt und fehlerhaftes Spleißen aus kurz gelesenen RNA-Sequenzen festgestellt. Wir fanden heraus, dass die aktuellen für GTEx23 verfügbaren Long-Read-RNA-Seq-Daten keine ausreichende Abdeckung boten, um nicht annotierte Spleißstellen zu erkennen (ergänzende Abbildung 2). Da geteilte Short-Reads Spleißstellen offenlegen, gehen wir davon aus, dass der größte Mehrwert der Long-Read-Sequenzierung gegenüber der Short-Read-Sequenzierung nicht darin besteht, Spleißstellen aufzurufen, sondern die vollständigen RNA-Isoformen zu identifizieren. Dies könnte in Zukunft genutzt werden, um Modelle zu entwickeln, die das genaue Spleißergebnis (z. B. exakte verlängerte oder verkürzte Exongrenzen, Exonkombinationen usw.) vorhersagen, das durch die Variante verursacht wird, was über den Rahmen aktueller Modelle hinausgeht, die hauptsächlich auf Kurzzeitmodellen trainiert werden. Daten lesen.

Wir haben gezeigt, wie die RNA-Sequenz von CATs DNA-basierte Vorhersagen effektiv ergänzt. Eine Alternative zu diesem Ansatz besteht darin, Zellen in den vermuteten mechanistisch beteiligten Zelltyp umzuprogrammieren oder zu transdifferenzieren und an ihnen eine RNA-Sequenz durchzuführen46. Dieser Ansatz weist jedoch wichtige Vorbehalte auf. Erstens ist nicht sichergestellt, dass der vermutete mechanistisch beteiligte Zelltyp der richtige ist, da sich die Symptome möglicherweise stärker in stromabwärts gelegenen betroffenen Geweben manifestieren. Zweitens ist dieser Ansatz kosten-, zeit- und arbeitsintensiv. Drittens kann die Neuprogrammierung von Zellen Mutationen induzieren und auswählen, die zu falschen Identifizierungen führen können. Daher werden Vorhersagemodelle, die die RNA-Sequenz von CATs nutzen können, in der Praxis wahrscheinlich weiterhin relevant bleiben47. Darüber hinaus deckt RNA-seq die Konsequenzen des Spleißdefekts auf die resultierende Transkript-Isoform auf (z. B. Frameshift oder Exon-Trunkierung), was für die Diagnostik von entscheidender Bedeutung ist.

Durch die Erhöhung der Präzision bei 20 % Rückruf von etwa 10 % auf 60 % sind die kumulativen Verbesserungen unserer Modelle erheblich. Dennoch wird ein Großteil der fehlerhaften Spleißereignisse nicht in Erinnerung gerufen, und es gibt immer noch einen Großteil falsch positiver Ergebnisse. Ein unbekannter und möglicherweise großer Teil der Ereignisse, die nicht abgerufen werden, könnte fehlerhafte Splicing-Aufrufartefakte sein, wie die hohe Anzahl von Singleton-Aufrufen nahelegt. In dieser Studie haben wir Strategien implementiert, die darauf abzielen, den Anteil echter genetisch bedingter abweichender Spleißereignisse in der Grundwahrheit zu verbessern, ohne dabei Verzerrungen zugunsten bestimmter Modelle einzuführen (Erweiterte Daten, Abbildungen 2–4). Jede Klassifizierungsaufgabe basiert jedoch auf einer zuverlässigen Grundwahrheit. Da es sich beim Splicing um einen komplexen Prozess handelt und nicht alle abweichenden Ereignisse zuverlässig von hochmodernen Aufrufern für abweichendes Splicing aufgerufen werden können, bleibt die Grundwahrheit in der Vorhersageaufgabe ein Proxy. Fortschritte beim Aufruf von abweichenden Splicing-Ereignissen oder ein besseres Verständnis der technischen Gründe könnten die Anzahl falsch aufgerufener abweichender Splicing-Ereignisse verringern und den Rückruf verbessern. Darüber hinaus könnten einige der scheinbar falsch-positiven Vorhersagen tatsächlich richtig sein. Dies ist der Fall, wenn die abweichende Spleißisoform ein vorzeitiges Terminationscodon enthält und häufig, wenn auch nicht systematisch48, durch unsinnvermittelten Zerfall schnell abgebaut wird. Schnell abgebaute Isoformen weisen kaum Lesevorgänge in RNA-seq-Daten auf und werden daher von fehlerhaften Splicing-Callern typischerweise nicht erkannt. In diagnostischen Anwendungen bleiben diese Varianten relevant. Darüber hinaus können spezielle Experimente durchgeführt werden, um zu testen, ob fehlerhaftes Spleißen stattfindet, beispielsweise mit dem Translationsinhibitor Cycloheximid.

Da WGS in der Forschung und im Gesundheitswesen immer leichter verfügbar wird, besteht ein wachsender Bedarf an einer genauen Annotation nichtkodierender Varianten mit starken schädlichen Auswirkungen, um die genetische Diagnostik seltener Erkrankungen zu etablieren, Effektorgene häufiger Krankheiten zu identifizieren und Krebspatienten auf deren Grundlage präziser zu stratifizieren Tumorgenetische Veränderungen. Varianten, die fehlerhaftes Spleißen verursachen, sind nicht nur eine Hauptklasse solcher nichtkodierenden Funktionsverlustvarianten, sondern ihre Wirkmechanismen werden jetzt auch für ein immer umfangreicheres therapeutisches Arsenal ins Visier genommen49. Aufgrund seiner hohen Präzision und seines Fokus auf Extremereignisse gehen wir davon aus, dass AbSplice für die genombasierte Diagnostik und Therapiegestaltung von entscheidender Bedeutung sein wird.

Für diese Studie wurden keine Primärdaten generiert. Personenbezogene Daten wurden durch autorisierten Zugriff von primären Datenverantwortlichen erhalten. Die Studie hält sich an die Ethik- und Forschungsvereinbarungen zwischen der Technischen Universität München und den primären Datenverantwortlichen. Alle Einverständniserklärungen der Teilnehmer wurden von den primären Datenverantwortlichen eingeholt und verbleiben bei diesen.

Zur Bestimmung der Stichprobengröße wurde keine statistische Methode verwendet. Wir verwendeten kein Studiendesign, das eine Randomisierung oder Verblindung erforderte. In den GTEx-Daten haben wir Gewebe mit weniger als 50 Proben ausgeschlossen. In den Datensätzen zu ALS und mitochondrialen Erkrankungen haben wir keine Proben ausgeschlossen.

Wir haben die RNA-seq-Read-Alignment-Dateien (BAM-Dateien) und die Variantenaufrufdateien (VCF-Dateien) von WGS von GTEx v8p (hg38) aus der Datenbank für Genotypen und Phänotypen (dbGaP) heruntergeladen (Studienzugang: phs000424.v8.p2). . Wir verwendeten Daten von 946 Personen mit gepaarten WGS- und RNA-seq-Messungen (n = 16.213) in mindestens einem Gewebe. Für die Long-Read-RNA-seq-Daten haben wir die von FLAIR52 basierend auf 88 Nanopore-Proben generierte Transkriptannotation (GTF) vom GTEx-Portal heruntergeladen.

Der Datensatz besteht aus 303 Patienten mit Mitochondriopathie, die von Yépez et al.27 beschrieben wurden und alle über RNA-Sequenz aus aus der Haut stammenden Fibroblasten verfügen. Für 20 Personen ist auch WGS verfügbar.

Der Datensatz besteht aus WGS-, RNA-seq- und Proteomics-Daten von 245 mit ALS diagnostizierten Personen und 45 Kontrollproben. RNA-seq-Daten wurden von iPSC-abgeleiteten spinalen Motoneuronen erhalten. Wir haben die Daten vom Answer ALS-Portal (dataportal.answerals.org) heruntergeladen. Gene, von denen bekannt ist, dass sie an der Entwicklung der ALS-Krankheit beteiligt sind, wurden manuell aus der Literatur ausgewählt28,29,30,31,32.

Varianten mussten durch mindestens zehn Lesevorgänge unterstützt werden und den konservativen Genotyp-Qualitätsfilter von GQ ≥ 99 bestehen. Diese Kriterien wurden auf die gleiche Weise für Einzelnukleotidvarianten (SNVs) und Indels verwendet. Wir betrachteten eine Variante als selten, wenn sie in der Allgemeinbevölkerung einen MAF von ≤ 0,001 basierend auf gnomAD (v.3.1.2) aufwies und bei höchstens zwei Personen innerhalb jeder Kohorte gefunden wurde.

Spleißausreißer wurden mit FRASER10 (v.1.6.0) aufgerufen, wie in der Pipeline zur Erkennung von RNA-seq-Ausreißern53 (v.1.1.2) implementiert. FRASER wurde verwendet, um Introns (einschließlich De-novo-Introns) zu erkennen und Split-Reads für jedes Intron zu zählen. Basierend auf den Split-Read-Zählungen wurden drei intronzentrierte Metriken berechnet: alternative Akzeptornutzung mit der ψ5-Metrik, alternative Donornutzung mit der ψ3-Metrik und Spleißeffizienzen gemäß Definition mit den θ5- und θ3-Metriken54:

Dabei ist k die Anzahl der geteilten Lesevorgänge, die das Intron vom Donor D zum Akzeptor A unterstützen. Die Summe im Nenner von ψ5(D,A) geht über alle möglichen Akzeptoren A′ für Donor D und die Summe im Nenner von ψ3( D,A) geht über alle möglichen Donatoren D′ für Akzeptor A. Bei den Spleißeffizienzen enthält der Nenner n(D) oder n(A), die die Anzahl der nicht geteilten Lesevorgänge sind, die die Exon-Intron-Grenze von Donor D oder Akzeptor überspannen A bzw. Der Vorteil dieser intronzentrierten Metriken gegenüber der exonzentrischen Metrik „Percent Spliced-In“ (ψ) besteht darin, dass sie keine Kartierung von Exons erfordern, was eine schlecht definierte Aufgabe ist, wenn man von Short-Read-RNA-Seq-Daten ausgeht.

FRASER modelliert diese Metriken unter Kontrolle latenter Störfaktoren und meldet FDRs sowohl auf Spleißstellenebene als auch auf Genebene. Wir haben abweichende gespleißte Gene mit dem FDR < 0,1 auf Genebene wie bei Mertes et al.10 bezeichnet. Darüber hinaus forderten wir, dass das Gen mindestens eine signifikante Spleißstelle (FDR < 0,05, FRASER-Standard) enthalten muss, die durch 20 Lesevorgänge und mit einem Absolutwert unterstützt wird Abweichung von ψ5,3 vom FRASER-modellierten Erwartungswert größer als 0,3 (bezeichnet als |Δψ5,3| > 0,3). Die gleichen Filter wurden auf die Spleißeffizienzmetriken angewendet.

Um abweichende Spleißaufrufe zu verwerfen, die wahrscheinlich keiner genetischen Grundlage unterliegen10, haben wir zusätzlich verschiedene Filtermethoden angewendet und verglichen (Extended Data Abb. 4). Im GTEx-Datensatz, in dem mehrere RNA-seq-Proben derselben Person verfügbar sind, haben wir untersucht, einschließlich Spleißausreißern aus mindestens zwei Geweben derselben Person (Filter 2; erweiterte Daten, Abb. 4b). Hier galt ein Ausreißer auf Genebene als repliziert, wenn derselbe Ausreißer auf Spleißstellenebene in mehreren Geweben nachgewiesen wurde. Da diese Strategie nicht auf andere Einzelgewebe-Datensätze angewendet werden kann, haben wir alternativ nach Spleißausreißern gefiltert, die eine seltene Variante in der Nähe von ±250 bp jeder Spleißstelle enthalten, basierend auf der RNA-Sequenz aus der Probe (Filter 3; Erweiterte Daten Abb. 4c). Wichtig ist, dass dieser Filter auf alle von FRASER identifizierten Spleißstellen angewendet wurde, was sowohl kommentierte Spleißstellen als auch kryptische Spleißstellen umfasst (Erweiterte Daten, Abb. 3). Aus Gründen der Konsistenz basieren alle gemeldeten Ergebnisse auf Filter 3.

Die Aufgabe besteht darin, vorherzusagen, ob ein proteinkodierendes Gen mit einer oder mehreren seltenen Varianten innerhalb des Genkörpers in einem bestimmten Gewebe eines Individuums fehlerhaft gespleißt ist.

Aufgrund des großen Klassenungleichgewichts im Benchmarking-Datensatz zur Splicing-Outlier-Vorhersage haben wir uns für die Bewertung von Modellen mithilfe von Präzisions-Recall-Kurven entschieden. Als Bewertungsmetrik verwendeten wir den auPRC, berechnet anhand des durchschnittlichen Präzisionswerts (AP)55 (der den Mittelwert der Präzisionen für jeden Schwellenwert gewichtet mit der Recall-Differenz darstellt):

Dabei sind Pn und Rn die Präzision und der Rückruf beim n-ten Schwellenwert.

Für jedes Gewebe haben wir separat eine SpliceMap erstellt, die alle aktiven Introns zusammen mit aggregierten Statistiken über die Nutzung von Akzeptor- und Donorstellen auflistet, die für die Vorhersage abweichender Spleißvorgänge nützlich sind.

Wir haben mit allen von FRASER gemeldeten Introns begonnen. Wir haben nicht transkribierte Spleißstellen und Hintergrundrauschen herausgefiltert, indem wir Introns herausgefiltert haben, die von keinem Split-Read in mehr als 95 % der Proben unterstützt wurden. Für diese und andere Operationen mit Genombereichen haben wir PyRanges56 (v.0.0.115) verwendet.

Aggregierte Statistiken wurden unabhängig voneinander für Spender- und Akzeptorstandorte berechnet. Für die Nutzung der Spenderstelle sind die aggregierten SpliceMap-Statistiken (1) die Gesamtzahl der geteilten Lesevorgänge über Proben, die das Intron unterstützen (Σsk), (2) die Gesamtzahl der geteilten Lesevorgänge über Proben, die dieselbe Akzeptorstelle teilen (ΣsN3) , (3) die mittlere Anzahl geteilter Lesevorgänge pro Probe, die sich dieselbe Akzeptorstelle teilen, und (4) der Referenzisoformenanteil (\(\psi _3^{\mathrm{ref}}\)), definiert als \(\psi _3 ^{\mathrm{ref}} = \frac{{\mathop {\sum}\nolimits_s k }}{{\mathop {\sum}\nolimits_s {N_3} }}\). Aggregierte Statistiken wurden analog für die Nutzung der Akzeptorstandorte berechnet.

Um Informationslecks zu verhindern, wurden die aggregierten Statistiken so berechnet, dass sie keine Informationen über Spleißereignisse im Zusammenhang mit seltenen Varianten enthalten (insbesondere haben wir Daten von Proben mit einer seltenen Variante innerhalb von ±250 bp von einem beliebigen Spender aus den Berechnungen der aggregierten Statistiken ausgeschlossen). oder Akzeptorstelle).

SpliceMaps wurden auch aus Split-Read-Zählungen (Introns) mit Regtools22 (v.0.5.2) und STAR21 (v.2.5.3) für das Gewebe „Haut – nicht der Sonne ausgesetzt (suprapubisch)“ erstellt. Wir haben Regtools mit BAM-Dateien ausgeführt. Regtools führt eine annotationsfreie Zählung durch; Daher werden auch nicht annotierte Introns und Spleißstellen aufgerufen. Wir haben STAR-Split-Read-Zählungen vom GTEx-Portal heruntergeladen. Die GTEx-Pipeline filtert nicht annotierte Spleißstellen, obwohl der STAR-Zwei-Pass-Ansatz nicht annotierte Spleißstellen und Introns aufrufen könnte. Während der SpliceMap-Generierung wurden aktive Introns und Aggregatstatistiken wie oben beschrieben berechnet.

SpliceAI2 (v.1.3.1) ist ein Deep-Learning-Modell, das die Änderung der Spleißstelle für Akzeptor- und Donorstellen anhand der Sequenz vorhersagt. SpliceAI ist annotationsfrei und kann daher alle Varianten bewerten, einschließlich kryptischer Spleißstellen, die durch tief intronische Varianten erstellt wurden. SpliceAI bietet vorberechnete Scores für alle SNVs und Indels bis zu einer Länge von 4 Nukleotiden. Diese Variantenwerte wurden mit 50 bp als maximalem Abstand zwischen der Variante und den gewonnenen/verlorenen Spleißstellen berechnet. Wir haben vorberechnete Variantenbewertungen von Illumina BaseSpace heruntergeladen und sie zur schnellen Suche in einer Schlüsselwertdatenbank RocksDB57 (v.6.10.2) gespeichert. Wir haben SpliceAI ausgeführt, um Variantenwerte für lange Indels zu erhalten, die nicht in der Datenbank verfügbar sind. Außerdem haben wir maskierte Scores von SpliceAI verwendet, wie von den Autoren für die Varianteninterpretation empfohlen. Diese Maskierung setzt die Delta-Scores auf Null, wenn SpliceAI eine Aktivierung für kommentierte Spleißstellen und eine Deaktivierung für nicht kommentierte Spleißstellen vorhersagt.

Wir verwendeten gewebespezifische Spleißstellenanmerkungen von SpliceMap zusammen mit SpliceAI-Vorhersagen. Für jedes Gewebe haben wir die Variantenwerte beibehalten, die eine kommentierte Spleißstelle innerhalb eines 100-bp-Fensters enthielten.

Da SpliceAI darauf trainiert wurde, die Entstehung oder den Verlust von Spleißstellen und nicht ψ vorherzusagen, gibt es keine prinzipielle Möglichkeit, das Spleißskalierungsgesetz auf die Einbeziehung von Referenzniveaus anzuwenden. Daher haben wir Referenzniveaus nur zum Filtern von Vorhersagen verwendet. Analog zur von den Autoren von SpliceAI durchgeführten Maskierung von Scores, die den annotierten Akzeptor-/Spendergewinn und den nicht annotierten Akzeptor-/Spenderverlust repräsentieren, verwendeten wir gewebespezifische ψref-Werte zum Filtern. Insbesondere wurden Variantenwerte herausgefiltert, die mit Akzeptor-/Donor-Gewinn und einer Spleißstelle mit ψref ≥ 0,95 sowie mit Akzeptor-/Donor-Verlust und einer Spleißstelle mit ψref ≤ 0,05 verbunden waren.

MMsplice3 (v.2.3.0) ist ein Deep-Learning-Modell, das die Auswirkung einer Variante (in einem 100-bp-Fenster mit annotierten Spleißstellen) auf die alternative Nutzung einer nahegelegenen Donor- oder Akzeptorstelle vorhersagt. MMSplice sagt die Auswirkung einer Variante in Log-Odds-Verhältnissen (bezeichnet als Δlogitψ5 oder Δlogitψ3) voraus. MMSplice erfordert eine Anmerkung zur Spleißstelle. Wir haben die Annotation GENCODE (Version 38 von hg38) verwendet.

Wir haben MMSplice mit gewebespezifischen Spleißstellenanmerkungen von SpliceMap ausgeführt.

MMSplice ist ein quantitatives Modell zur Vorhersage des Anteils an gespleißten Daten, bei dem das Spleißskalierungsgesetz zur Integration von Referenzwerten genutzt werden kann. Für die Umwandlung des Varianteneffekts in einen natürlichen Maßstab sind Referenzwerte für die Nutzung von Donor- und Akzeptorstandorten erforderlich. Der kürzeren Schreibweise halber schreiben wir im Folgenden ψ statt ψ5 und ψ3. Wir haben MMSplice verwendet, um Δlogit(ψ)-Werte vorherzusagen. Δlogit(ψ)-Werte wurden dann mit dem entsprechenden Referenz-ψ-Wert (ψref) in SpliceMap kombiniert: zunächst im Logit-Maßstab, um den vorhergesagten Varianteneffekt durch MMSplice an das richtige Referenzniveau anzupassen; dann im natürlichen Maßstab unter Verwendung der Sigmoidfunktion (Extended Data Abb. 7a):

Varianten, die weiter als 100 bp von einer SpliceMap-Spleißstelle entfernt waren, wurden mit 0 bewertet (keine Auswirkung).

MTSplice9 (v.2.3.0) ist eine gewebespezifische Version von MMSplice. Das Modell bewertet jedes Exon-Varianten-Paar für 56 Gewebe. In Bezug auf jede annotierte Exon-Grenze nimmt das Modell als Eingabe eine Sequenz von 100 bp im Exon und 300 bp im Intron an. MTSplice sagt den gewebespezifischen Effekt einer Variante in Log-Odds-Verhältnissen (bezeichnet als Δlogit(ψ)) voraus. MTSplice erfordert eine Anmerkung zur Spleißstelle. Wir haben die Annotation GENCODE (Version 38 von hg38) verwendet.

CADD-Splice7 ist ein Ensemble-Modell, das CADD-Scores (enthält Erhaltungs-Scores) mit Spleißvorhersagen von SpliceAI und MMSplice kombiniert. Wir haben CADD-Splice v.1.6 ausgeführt. CADD-Splice bietet Roh- und PHRED-skalierte Scores. Wir haben den PHRED-Score verwendet.

SQUIRLS8 basiert auf konstruierten Spleißfunktionen für Donor- und Akzeptorstellen, die aus einer Genomannotation extrahiert werden. SQUIRLS sagt die Wahrscheinlichkeit voraus, dass eine Variante das Spleißmuster ändert. Wir haben die SQUIRLS-Datenbank v.2203 heruntergeladen und SQUIRLS v.2.0.0 ausgeführt.

AbSplice-DNA ist ein verallgemeinertes additives Modell, nämlich der ExplainableBoostingClassifier aus dem Python-Paket interpretml58. Eine ähnliche Leistung wurde mit einem Random Forest oder einem logistischen Regressionsmodell von scikit-learn55 erzielt. Die Merkmale von AbSplice-DNA waren der Vorhersagewert von MMSplice + SpliceMap, MMSplice + SpliceMap + ψref, der SpliceAI Delta-Score und ein binäres Merkmal von SpliceMap, das angibt, ob die Spleißstelle im Zielgewebe exprimiert wird (unter Verwendung eines Grenzwerts von 10 Lesevorgängen für). die mittlere Anzahl geteilter Lesevorgänge, die sich die Spleißstelle teilen). Das Modell umfasst Interaktionsterme und erfasst so de facto den Effekt der Kombination von SpliceMap- und SpliceAI-Scores. Das Modell wurde auf Variantenebene trainiert, wobei Ausreißer innerhalb eines 250-bp-Abstands von seltenen Varianten als Grundwahrheit verwendet wurden (Extended Data Abb. 4c vor der Aggregation auf Genebene). Das Modell wurde mit fünffach geschichteter Kreuzvalidierung trainiert, nach Individuen gruppiert, um Informationslecks zu vermeiden, und so, dass die Anteile des Negativen (Variante ist mit keinem Ausreißer auf dem Gen verbunden) und des Positiven (Variante ist mit einem Ausreißer auf dem Gen verbunden) übereinstimmen Genklassen blieben in jeder Falte erhalten.

Wir verwendeten verschiedene Merkmale aus der RNA-Sequenz von drei CATs aus GTEx (Vollblut, Zellen transformierter Fibroblasten und Zellen mit Epstein-Barr-Virus (EBV)-transformierten Lymphozyten), um abweichendes Spleißen in nicht zugänglichen Zielgeweben vorherzusagen.

Als ein Vorhersagemerkmal verwendeten wir die mit FRASER ermittelten nominalen P-Werte auf Genebene von −log10. Im Benchmark haben wir alle Spleiß-Ausreißergene (FDR < 0,1 und |Δψ| > 0,3) niedriger eingestuft als die übrigen Gene und die Gene innerhalb jeder dieser beiden Gruppen weiter eingestuft, indem wir den P-Wert erhöht haben.

Zusätzlich verwendeten wir SpliceMaps aus den zugänglichen und nicht zugänglichen Geweben zusammen mit ψ-Messungen aus RNA-seq und wendeten das Spleißskalierungsgesetz an, um Δψ-Werte im nicht zugänglichen Zielgewebe abzuleiten:

wobei ΨCAT das Spleißniveau im CAT ist und \(\varPsi _{\mathrm{ref}}^{\mathrm{CAT}}\) das Referenzniveau des Spleißens ist, das von SpliceMap erhalten wird, und die Differenz dieser beiden Werte ergibt der gewebeunspezifische Varianteneffekt, Δlogit(Ψ). Anschließend wird Δlogit(Ψ) mit dem Referenzwert der Spleißung des Zielgewebes \({\mathrm{logit}}\left( {\varPsi_{\mathrm{ref}}^{{\mathrm{target}}}} addiert. \right)\) im Logit-Maßstab und die Rückumrechnung in den natürlichen Maßstab liefert Ψtarget im Zielgewebe. Durch Subtrahieren des Referenzniveaus der Spleißung des Zielgewebes \(\varPsi _{\mathrm{ref}}^{{\mathrm{target}}}\) erhalten Sie die vorhergesagte Spleißänderung im Zielgewebe, ΔΨtarget, unter Verwendung von RNA -seq-Messungen in CAT.

Alle Präzisions-Recall-Kurven mit CATs wurden anhand einer Teilmenge der Daten berechnet, wobei CATs aus den Zielgeweben ausgeschlossen wurden und nur Personen berücksichtigt wurden, die RNA-seq-Messungen aus mehreren Geweben (einschließlich des CAT) hatten.

Wir trainierten integrative Modelle unter Verwendung der beiden oben beschriebenen Prädiktoren aus RNA-seq-Daten von CATs zusätzlich zu DNA-basierten Merkmalen, die in AbSplice-DNA verwendet werden.

Wir haben AbSplice-RNA-Modelle mit einem einzelnen CAT und allen CATs zusammen trainiert. Für das Modell, das alle CATs zusammen verwendet, haben wir AbSplice-RNA auf CAT-agnostische Weise trainiert, sodass das Modell Ausreißer unabhängig von der CAT-Quelle vorhersagt. Dies kann in einer diagnostischen Umgebung hilfreich sein, da sich der verfügbare CAT möglicherweise von den CATs unterscheidet, auf denen AbSplice-RNA trainiert wurde.

Für Gene mit mehreren Varianten haben wir die höchste Punktzahl pro Modell beibehalten.

Variantenkategorien wurden mit dem Ensembl Variant Effect Predictor (VEP)51 annotiert. Für jede Variante wurde die schwerwiegendste VEP-Anmerkung berücksichtigt. Für die Kategorie „Exon“ wurden die folgenden VEP-Kategorien gruppiert: synonymous_variant, missense_variant, stop_lost, stop_gained. Für die nicht-exklusiven Spleiß-Ausreißerkategorien haben wir „Exon-Verlängerung“, „Exon-Verkürzung“ und „Exon-Überspringen“ mithilfe des FRASER-Zweigs definiert: https://github.com/c-mertes/FRASER/tree/junction_annotation ref. 59. Wir haben die Kategorie „Jede alternative Donor- oder Akzeptorwahl“ als jeden ψ5- oder ψ3-Ausreißer und die Kategorie „Jeder Spleißeffizienz-Ausreißer“ als jeden θ-Ausreißer definiert.

Die Anreicherung von 165 manuell kuratierten Genen, die an ALS28,29,30,31 beteiligt sind, wurde als Anteil der Varianten mit hohem Spleißeffekt innerhalb dieser Gene dividiert durch alle High-Score-Vorhersagen der jeweiligen Modelle berechnet. Die Erschöpfung wurde als 1/Anreicherung berechnet.

Wir haben die Proteinintensitätsmatrix der ALS-Kohorte, bestehend aus 4.442 Proteinen und 204 Proben, vom Answer ALS-Portal heruntergeladen. Wir haben die 178 betroffenen Personen berücksichtigt. Proteine ​​mit fehlenden Werten in mehr als 30 % der Proben wurden herausgefiltert, wobei 3.329 übrig blieben. Anschließend haben wir PROTRIDER60 ausgeführt, eine auf Autoencoder basierende Methode zur Rauschunterdrückung, um Ausreißer in Proteomikdaten zu erkennen. Die Codierungsdimension wurde durch das Einfügen von Ausreißern optimiert. Es wurden keine Kovariaten angegeben. Z-Scores wurden aus der Ergebnistabelle extrahiert.

Für alle möglichen seltenen SNVs (gnomAD MAF < 0,1 %) in 19.534 proteinkodierenden Genen haben wir AbSplice-DNA-Scores berechnet und die vorberechneten SpliceAI-Scores von Illumina BaseSpace erhalten. Die LOEUF-Werte (Loss-of-Function Observed/Expected Upper Bound Fraction) wurden von https://gnomad.broadinstitute.org/downloads heruntergeladen. Für jedes LOEUF-Dezil haben wir den Anteil der Varianten mit hohem Spleißeffekt an der Gesamtsumme der Varianten mit hohem Einfluss berechnet und ihn durch den Anteil seltener Varianten in jedem Dezil dividiert.

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Portfolio Reporting Summary.

Für diese Studie wurden keine Primärdaten generiert. Seltene Varianten von gnomAD v.3.1.2 sind öffentlich verfügbar unter https://gnomad.broadinstitute.org. Der GTEx v8-Datensatz ist unter (unter dbGaP-Schutz) https://gtexportal.org/home verfügbar. Der ALS-Datensatz ist nach einem Registrierungs- und Genehmigungsprozess unter http://dataportal.answerals.org verfügbar. Der mitochondriale Datensatz wird von Yépez et al.27 beschrieben. Vorberechnete SpliceAI-Ergebnisse sind nach der Registrierung bei Illumina Basespace, https://basespace.illumina.com/s/otSPW8hnhaZR, öffentlich verfügbar. SpliceMaps für alle 49 GTEx-Gewebe und iPSC-abgeleitete spinale Motoneuronen von ALS (hg38) sind bei Zenodo verfügbar, https://doi.org/10.5281/zenodo.6387937. Vorberechnete AbSplice-DNA-Scores (hg38) in allen 49 GTEx-Geweben sind bei Zenodo verfügbar, https://doi.org/10.5281/zenodo.6408331. Aufgrund einer möglichen Neuidentifizierung des Spenders bei der Aufdeckung seltener Varianten kann der Benchmark-Datensatz nicht ohne Einschränkungen weitergegeben werden. Benutzer mit Zugriff auf die GTEx-Daten können den Benchmark mithilfe des folgenden Code-Repositorys reproduzieren.

SpliceMaps können mit dem benutzerdefinierten Python-Paket „splicemap“ generiert werden (öffentlich verfügbar unter: https://github.com/gagneurlab/splicemap Ref. 61). AbSplice-Vorhersagen mithilfe der erweiterten SpliceMap-Annotation können mit dem benutzerdefinierten Python-Paket „absplice“ durchgeführt werden (öffentlich verfügbar unter: https://github.com/gagneurlab/absplice Ref. 62). Wir bieten auch eine schnelle Implementierung der Berechnung von SpliceAI-Vorhersagen mithilfe eines Wrappers, der auf einer schnellen Suche in einer Datenbank mit vorberechneten Bewertungen für vorhandene Varianten und der Ausführung von SpliceAI für nicht vorberechnete Varianten basiert, unter https://github.com/gagneurlab/spliceai_rocksdb ref. 63. Eine schnelle Suche aller gnomAD-Varianten kann mit https://github.com/gagneurlab/gnomad_rocksdb ref durchgeführt werden. 64. Die Analysen sind unter https://github.com/gagneurlab/AbSplice_analysis ref verfügbar. 65.

Zappala, Z. & Montgomery, SB Nichtkodierende Funktionsverlustvariation im menschlichen Genom. Summen. Hered. 81, 78–87 (2016).

CAS PubMed Google Scholar

Jaganathan, K. et al. Vorhersage des Spleißens aus der Primärsequenz mit Deep Learning. Zelle 176, 535–548.e24 (2019).

CAS PubMed Google Scholar

Cheng, J. et al. MMSplice: Modulare Modellierung verbessert die Vorhersage genetischer Varianteneffekte beim Spleißen. Genombiol. 20, 48 (2019).

PubMed PubMed Central Google Scholar

Yeo, G. & Burge, CB Maximale Entropiemodellierung kurzer Sequenzmotive mit Anwendungen auf RNA-Spleißsignale. J. Comput. Biol. 11, 377–394 (2004).

CAS PubMed Google Scholar

Rosenberg, AB, Patwardhan, RP, Shendure, J. & Seelig, G. Lernen der Sequenzdeterminanten des alternativen Spleißens aus Millionen von Zufallssequenzen. Zelle 163, 698–711 (2015).

CAS PubMed Google Scholar

Xiong, HY et al. Der menschliche Spleißcode offenbart neue Erkenntnisse über die genetischen Determinanten von Krankheiten. Science 347, 1254806 (2015).

PubMed Google Scholar

Rentzsch, P., Schubach, M., Shendure, J. & Kircher, M. CADD-Splice – Verbesserung der genomweiten Vorhersage von Varianteneffekten mithilfe von Deep-Learning-abgeleiteten Splice-Scores. Genommed. 13, 31 (2021).

CAS PubMed PubMed Central Google Scholar

Danis, D. et al. Interpretierbare Priorisierung von Spleißvarianten bei der diagnostischen Next-Generation-Sequenzierung. Bin. J. Hum. Genet. 108, 2205 (2021).

CAS PubMed PubMed Central Google Scholar

Cheng, J., Çelik, MH, Kundaje, A. & Gagneur, J. MTSplice sagt Auswirkungen genetischer Varianten auf gewebespezifisches Spleißen voraus. Genombiol. 22, 94 (2021).

CAS PubMed PubMed Central Google Scholar

Mertes, C. et al. Erkennung abweichender Spleißereignisse in RNA-seq-Daten mit FRASER. Nat. Komm. 12, 529 (2021).

CAS PubMed PubMed Central Google Scholar

Jenkinson, G. et al. LeafCutterMD: ein Algorithmus zur Erkennung von Ausreißer-Splicing bei seltenen Krankheiten. Bioinformatik 36, 4609–4615 (2020).

CAS PubMed PubMed Central Google Scholar

Ferraro, NM et al. Transkriptomische Signaturen in menschlichen Geweben identifizieren funktionelle seltene genetische Variationen. Wissenschaft 369, eaaz5900 (2020).

PubMed PubMed Central Google Scholar

Karczewski, KJ et al. Das Mutationsbeschränkungsspektrum wurde anhand der Variation bei 141.456 Menschen quantifiziert. Natur 581, 434–443 (2020).

CAS PubMed PubMed Central Google Scholar

Wilks, C. et al. recount3: Zusammenfassungen und Abfragen für groß angelegte RNA-seq-Expression und Spleißen. Genombiol. 22, 323 (2021).

CAS PubMed PubMed Central Google Scholar

Ling, JP et al. ASCOT identifiziert Schlüsselregulatoren des neuronalen Subtyp-spezifischen Spleißens. Nat. Komm. 11, 137 (2020).

CAS PubMed PubMed Central Google Scholar

Kremer, LS et al. Genetische Diagnose von Mendelschen Störungen mittels RNA-Sequenzierung. Nat. Komm. 8, 15824 (2017).

CAS PubMed PubMed Central Google Scholar

Dawes, R., Joshi, H. & Cooper, ST Empirische Vorhersage von durch Varianten aktivierten kryptischen Spleißspendern mithilfe bevölkerungsbasierter RNA-Seq-Daten. Nat. Komm. 13, 1655 (2022).

CAS PubMed PubMed Central Google Scholar

Frankish, A. et al. GENCODE-Referenzanmerkung für das Genom von Mensch und Maus. Nukleinsäuren Res. 47, D766–D773 (2019).

CAS PubMed Google Scholar

Elliott, DJ & Grellscheid, SN Alternative RNA-Spleißregulation im Hoden. Reproduktion 132, 811–819 (2006).

CAS Google Scholar

de la Grange, P., Gratadou, L., Delord, M., Dutertre, M. & Auboeuf, D. Spleißfaktor und Exon-Profilierung in menschlichen Geweben. Nukleinsäuren Res. 38, 2825–2838 (2010).

PubMed PubMed Central Google Scholar

Dobin, A. et al. STAR: ultraschneller universeller RNA-seq-Aligner. Bioinformatik 29, 15–21 (2013).

CAS PubMed Google Scholar

Cotto, KC, Feng, YY, Ramu, A. et al. Integrierte Analyse genomischer und transkriptomischer Daten zur Entdeckung von Spleiß-assoziierten Varianten bei Krebs. Nat Commun 14, 1589 (2023).

Glinos, DA et al. Transkriptomvariation in menschlichen Geweben durch Long-Read-Sequenzierung aufgedeckt. Natur 608, 353–359 (2022).

CAS PubMed Google Scholar

Amarasinghe, SL et al. Chancen und Herausforderungen bei der Analyse von Long-Read-Sequenzierungsdaten. Genombiol. 21, 30 (2020).

PubMed PubMed Central Google Scholar

Baeza-Centurion, P., Miñana, B., Schmiedel, JM, Valcárcel, J. & Lehner, B. Die kombinatorische Genetik enthüllt ein Skalierungsgesetz für die Auswirkungen von Mutationen auf das Spleißen. Zelle 176, 549–563.e23.

CAS PubMed Google Scholar

Cheng, J., Çelik, MH, Nguyen, TYD, Avsec, Ž. & Gagneur, J. CAGI 5-Spleißherausforderung: verbesserte Exon-Skipping- und Intron-Retention-Vorhersagen mit MMSplice. Summen. Mutat. 40, 1243–1251 (2019).

CAS PubMed PubMed Central Google Scholar

Yépez, VA et al. Klinische Implementierung der RNA-Sequenzierung für die Mendelsche Krankheitsdiagnostik. Genommed. 14, 38 (2022).

PubMed PubMed Central Google Scholar

Abel, O., Powell, JF, Andersen, PM & Al-Chalabi, A. ALSoD: ein benutzerfreundliches Online-Bioinformatik-Tool für die Genetik der amyotrophen Lateralsklerose. Summen. Mutat. 33, 1345–1351 (2012).

CAS PubMed Google Scholar

Gregory, JM, Fagegaltier, D., Phatnani, H. & Harms, MB Genetik der amyotrophen Lateralsklerose. Curr. Genet. Med. Rep. 8, 121–131 (2020).

Google Scholar

Pecoraro, V. et al. Die NGS-Technologie zur Identifizierung von Genen, die mit ALS assoziiert sind. Eine systematische Übersicht. EUR. J. Clin. Investieren. 50, e13228 (2020).

PubMed PubMed Central Google Scholar

Hardiman, O. et al. Amyotrophe Lateralsklerose. Nat. Rev. Dis. Primer 3, 17071 (2017).

PubMed Google Scholar

McCann, EP et al. Hinweise auf eine polygene und oligogene Basis der sporadischen amyotrophen Lateralsklerose in Australien. J. Med. Genet. https://doi.org/10.1136/jmedgenet-2020-106866 (2020).

Cummings, BB et al. Verbesserung der genetischen Diagnose bei der Mendelschen Krankheit durch Transkriptomsequenzierung. Wissenschaft. Übers. Med. 9, eaal5209 (2017).

PubMed PubMed Central Google Scholar

Frésard, L. et al. Identifizierung seltener Krankheitsgene mittels Bluttranskriptomsequenzierung und großen Kontrollkohorten. Nat. Med. 25, 911–919 (2019).

PubMed PubMed Central Google Scholar

Aicher, JK, Jewell, P., Vaquero-Garcia, J., Barash, Y. & Bhoj, EJ Kartierung von RNA-Spleißvariationen in klinisch zugänglichen und nichtzugänglichen Geweben, um die Diagnose der Mendelschen Krankheit mithilfe von RNA-seq zu erleichtern. Genet. Med. 22, 1181–1190 (2020).

PubMed PubMed Central Google Scholar

Yates, AD et al. Ensemble 2020. Nucleic Acids Res. 48, D682–D688 (2020).

CAS PubMed Google Scholar

Pertea, M., Lin, X. & Salzberg, SL GeneSplicer: eine neue Berechnungsmethode zur Vorhersage der Spleißstelle. Nukleinsäuren Res. 29, 1185–1190 (2001).

CAS PubMed PubMed Central Google Scholar

Desmet, F.-O. et al. Human Splicing Finder: ein Online-Bioinformatik-Tool zur Vorhersage von Spleißsignalen. Nukleinsäuren Res. 37, e67 (2009).

PubMed PubMed Central Google Scholar

Ke, S. et al. Quantitative Bewertung aller Hexamere als exonische Spleißelemente. Genomres. 21, 1360–1374 (2011).

CAS PubMed PubMed Central Google Scholar

Jian, X., Boerwinkle, E. & Liu, X. In-silico-Vorhersage von Spleiß-verändernden Einzelnukleotidvarianten im menschlichen Genom. Nukleinsäuren Res. 42, 13534–13544 (2014).

CAS PubMed PubMed Central Google Scholar

Xiong, HY et al. RNA-Spleißen. Der menschliche Spleißcode offenbart neue Erkenntnisse über die genetischen Determinanten von Krankheiten. Wissenschaft 347, 1254806 (2015).

PubMed Google Scholar

Sonnenburg, S., Schweikert, G., Philips, P., Behr, J. & Rätsch, G. Genaue Spleißstellenvorhersage mithilfe von Support-Vektor-Maschinen. BMC Bioinf. 8, S7 (2007).

Google Scholar

Barash, Y. et al. Entschlüsselung des Spleißcodes. Natur 465, 53–59 (2010).

CAS PubMed Google Scholar

Xiong, HY, Barash, Y. & Frey, BJ Bayesianische Vorhersage des geweberegulierten Spleißens unter Verwendung von RNA-Sequenz und zellulärem Kontext. Bioinformatik 27, 2554–2562 (2011).

CAS PubMed Google Scholar

Wainberg, M. et al. Chancen und Herausforderungen für transkriptomweite Assoziationsstudien. Nat. Genet. 51, 592–599 (2019).

CAS PubMed PubMed Central Google Scholar

Gonorazky, HD et al. Erweiterung der Grenzen der RNA-Sequenzierung als diagnostisches Instrument für die seltene Mendelsche Krankheit. Bin. J. Hum. Genet. 104, 466–483 (2019).

CAS PubMed PubMed Central Google Scholar

Martorella M. Nichtinvasive, kostengünstige RNA-Sequenzierung erhöht das Entdeckungspotenzial von Transkriptomstudien. Vorabdruck bei bioRxiv https://www.biorxiv.org/content/10.1101/2022.09.06.506813v1 (2022).

Teran, NA et al. Der durch Unsinn vermittelte Zerfall ist bei Individuen und Geweben äußerst stabil. Bin. J. Hum. Genet. 108, 1401–1408 (2021).

CAS PubMed PubMed Central Google Scholar

Rogalska, ME, Vivori, C. & Valcárcel, J. Regulierung des prä-mRNA-Spleißens: Rollen in Physiologie und Krankheit sowie therapeutische Aussichten. Nat. Rev. Genet. https://doi.org/10.1038/s41576-022-00556-8 (2022).

Artikel PubMed Google Scholar

Zhang, Y., Zhou, R. & Wang, Y. Sashimi.py: ein flexibles Toolkit für die kombinatorische Analyse genomischer Daten. Vorabdruck bei bioRxiv https://doi.org/10.1101/2022.11.02.514803 (2022).

McLaren, W. et al. Der Ensemble-Varianteneffekt-Prädiktor. Genombiol. 17, 122 (2016).

PubMed PubMed Central Google Scholar

Tang, AD et al. Die vollständige Transkriptcharakterisierung der SF3B1-Mutation bei chronischer lymphatischer Leukämie zeigt eine Herunterregulierung zurückgehaltener Introns. Nat. Komm. 11, 1438 (2020).

CAS PubMed PubMed Central Google Scholar

Yépez, VA et al. Erkennung abweichender Genexpressionsereignisse in RNA-Sequenzierungsdaten. Nat. Protokoll. 16, 1276–1296 (2021).

PubMed Google Scholar

Pervouchine, DD, Knowles, DG & Guigo, R. Intron-zentrierte Schätzung des alternativen Spleißens aus RNA-seq-Daten. Bioinformatik 29, 273–274 (2013).

CAS PubMed Google Scholar

Pedregosa, F. et al. Scikit-learn: Maschinelles Lernen in Python. J. Mach. Lernen. Res. 12, 2825–2830 (2011).

Google Scholar

Stovner, EB & Sætrom, P. PyRanges: Effizienter Vergleich genomischer Intervalle in Python. Bioinformatik 36, 918–919 (2020).

CAS PubMed Google Scholar

Dong, S., Kryczka, A., Jin, Y. & Stumm, M. RocksDB: Entwicklung der Entwicklungsprioritäten in einem Schlüsselwertspeicher für Großanwendungen. ACM Trans. Lagerung 17, 26:1–26:32 (2021).

Google Scholar

Nori, H., Jenkins, S., Koch, P. & Caruana, R. InterpretML: ein einheitliches Framework für die Interpretierbarkeit maschinellen Lernens. Vorabdruck bei arXiv190909223 Cs Stat https://doi.org/10.48550/arXiv.1909.09223 (2019).

Mertes, C., Scheller, I. & Gagneur, J. FRASER code used in AbSplice publication. Zenodo https://doi.org/10.5281/zenodo.7447804 (2022).

Kopajtich, R. et al. Die Integration von Proteomik mit Genomik und Transkriptomik erhöht die Diagnoserate von Mendelschen Störungen. Vorabdruck unter https://www.medrxiv.org/content/10.1101/2021.03.09.21253187v1 (2021).

Wagner, N. et al. SpliceMap-Code, der in der AbSplice-Veröffentlichung verwendet wird. Zenodo https://doi.org/10.5281/zenodo.7626022 (2022).

Wagner, N. et al. AbSplice-Code, der in der AbSplice-Veröffentlichung verwendet wird. Zenodo https://doi.org/10.5281/zenodo.7626035 (2022).

Wagner, N. et al. Code zum Generieren von SpliceAI rocksdb, der in der AbSplice-Veröffentlichung verwendet wird. Zenodo https://doi.org/10.5281/zenodo.7626078 (2022).

Wagner, N. et al. Code zum Generieren von gnomAD rocksdb, der in der AbSplice-Veröffentlichung verwendet wird. Zenodo https://doi.org/10.5281/zenodo.7625641 (2022).

Wagner, N. et al. Analysecode, der in der AbSplice-Veröffentlichung verwendet wird. Zenodo https://doi.org/10.5281/zenodo.7628868 (2022).

Referenzen herunterladen

Wir danken I. Scheller für Feedback und Ratschläge. MHC dankt X. Xie und A. Mortazavi für die institutionelle Unterstützung. Das Bundesministerium für Bildung und Forschung (BMBF) unterstützte die Studie durch das Model Exchange for Regulatory Genomics-Projekt (MERGE; Fördernummer 031L0174A an FRH und JG), das Deutsche Netzwerk für Mitochondriale Erkrankungen (mitoNET; Fördernummer 01GM1906B an VAY). , das ERA PerMed-Projekt PerMiM (Zuschuss-Nr. 01KU2016A an HP und Zuschuss-Nr. 01KU2016B an JG) und das EJP RD-Projekt GENOMIT (Zuschuss-Nr. 01GM1920A an HP). NW wird von der Helmholtz-Gemeinschaft im Rahmen der gemeinsamen Forschungsschule „Munich School for Data Science – MUDS“ gefördert. Diese Studie wurde von der Deutschen Forschungsgemeinschaft (DFG) über die Projekte „Identifizierung der genetischen Variation des Wirts, die für schweres COVID-19 prädisponiert, durch Genetik, Transkriptomik und Funktionsanalysen“ (Fördernummer 466168909 an VAY und JG) gefördert NFDI 1/1 „GHGA – Deutsches Humangenom-Phänomen-Archiv“ (Grant-Nr. 441914366 an CM und JG). Abbildung 1 wurde mit BioRender.com erstellt. Das Genotype-Tissue Expression (GTEx)-Projekt wurde vom Common Fund des Büros des Direktors der National Institutes of Health sowie von NCI, NHGRI, NHLBI, NIDA, NIMH und NINDS unterstützt. Diese Studie wurde durch Daten des Answer ALS Consortium gestützt, das vom Robert Packard Center for ALS in Johns Hopkins verwaltet wird. Die Geldgeber hatten keinen Einfluss auf das Studiendesign, die Datenerfassung und -analyse, die Entscheidung zur Veröffentlichung oder die Erstellung des Manuskripts.

Diese Autoren haben gleichermaßen beigetragen: Nils Wagner, Muhammed H. Çelik.

Fakultät für Informatik, Information und Technologie, Technische Universität München, Garching, Deutschland

Nils Wagner, Muhammed H. Çelik, Florian R. Hölzlwimmer, Christian Mertes, Vicente A. Yépez & Julien Gagneur

Helmholtz-Gemeinschaft – Munich School for Data Science (MUDS), München, Deutschland

Nils Wagner & Julien Gagneur

Zentrum für komplexe biologische Systeme, University of California, Irvine, Irvine, CA, USA

Muhammed H. Çelik

Munich Data Science Institute, Technische Universität München, Garching, Deutschland

Christian Mertes

Institut für Humangenetik, Medizinische Fakultät, Technische Universität München, München, Deutschland

Holger Prokisch & Julien Gagneur

Computational Health Center, Helmholtz-Zentrum München, Neuherberg, Deutschland

Holger Prokisch & Julien Gagneur

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

JG konzipierte das Projekt. NW, MHC und JG haben die Methodik entworfen. NW und MHC stellten die Software zur Verfügung. NW, MHC, FRH, HP und VAY führten Validierungen durch. NW, MHC, FRH, VAY und CM führten die formale Analyse durch. NW, MHC, FRH und VAY haben die Daten kuratiert. NW, MHC, VAY und JG haben den Originalentwurf des Manuskripts geschrieben. Alle Autoren haben das Manuskript überprüft und bearbeitet. NW, MHC, FRH, VAY und JG führten Visualisierungen durch. JG betreute das Projekt.

Korrespondenz mit Julien Gagneur.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Nature Genetics dankt Jamie Ellingford, Xin Gao und den anderen, anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit. Peer-Reviewer-Berichte sind verfügbar.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

a, Verteilung der Fläche unter der Precision-Recall-Kurve über GTEx-Gewebe (n = 49) verschiedener Vorhersagemethoden (SpliceAI, SpliceAI mit SpliceMap-Annotation, SpliceAI mit SpliceMap-Annotation zusammen mit quantitativen Referenzniveaus des Spleißens, MMSplice mit GENCODE-Annotation, MMSplice unter Verwendung der SpliceMap-Annotation, MMSplice unter Verwendung der SpliceMap-Annotation zusammen mit quantitativen Referenzniveaus des Spleißens und dem integrativen Modell AbSplice-DNA, das als Grundwahrheit drei verschiedene abweichende Spleißaufrufer verwendet: FRASER, LeafcutterMD und SPOT. Ein Gen galt als fehlerhaft gespleißt, wenn es mindestens einen signifikanten Spleißausreißer enthielt, der vom Aufrufer des fehlerhaften Spleißvorgangs gemeldet wurde, ohne dass eine zusätzliche Replikation oder ein Filter für seltene Varianten angewendet wurde (Extended Data Abb. 4a für FRASER). Mittellinie, Median; Box-Limits, erstes und drittes Quartil; Whisker umfassen alle Daten innerhalb von 1,5 Interquartilbereichen des unteren und oberen Quartils. Die P-Werte wurden mithilfe des gepaarten einseitigen Wilcoxon-Tests berechnet. b, Precision-Recall-Kurven, die die Gesamtvorhersageleistung für alle GTEx-Gewebe derselben Modelle wie in a vergleichen, unter Verwendung von FRASER als Ausreißeraufrufer und dem Filter für seltene Varianten in Extended Data Abb. 4c mit 250 bp zusammen mit unterschiedlichen differenziellen Spleißgrenzwerten, nämlich |ΔΨ| = 0,1, 0,2, 0,3.

a, Anreicherung replizierter Spleißausreißer über Gewebe hinweg in Bezug auf den Abstand zur nächsten seltenen Variante. Beachten Sie, dass es zu einer Anreicherung bis zu einer Entfernung von 250 bp kommt. „Anzahl der Gewebe“ bezeichnet die minimale Anzahl von Geweben einer Person mit einem gemeinsamen Spleiß-Ausreißer, sodass der Ausreißer als repliziert gilt. b, Replikationsrate anomaler Spleißereignisse zwischen Geweben (n = 49) einer Probe für alle anomalen Spleißereignisse (rot) im Vergleich zu anomalen Spleißereignissen, die eine seltene Variante innerhalb eines 250-bp-Fensters enthalten (blau). Das Filtern nach abweichenden Spleißereignissen mit einer seltenen Variante reduziert die Anzahl der Singletons, wahrscheinlich durch das Herausfiltern technischer Artefakte. Mittellinie, Median; Box-Limits, erstes und drittes Quartil; Whisker umfassen alle Daten innerhalb von 1,5 Interquartilbereichen des unteren und oberen Quartils. c, Prozentsatz der Singletons (abweichende Spleißereignisse, die nur in einem Gewebe beobachtet werden) unter allen Ausreißern (in Rot) und unter Ausreißern mit einer seltenen Variante (in Blau) für jedes Gewebe. Der GTEx-Datensatz enthält nahezu keine replizierten RNA-seq-Proben. Daher sind unter allen Singleton-Ereignissen wirklich gewebespezifische aberrante Spleißereignisse schwer von nicht reproduzierbaren technischen Artefakten zu unterscheiden.

Visualisierung verschiedener Fälle für den Ausreißerfilter für seltene Varianten (entspricht Filter 3 in Extended Data Abb. 4). a, Exons 1, 3 und 4 wurden in SpliceMap mit Anmerkungen versehen. Exon 2 ist ein neuartiges Exon, das bei einer Person entdeckt wurde, deren Spleißstellen nicht in SpliceMap enthalten sind. Wenn innerhalb von 250 bp von einer Spleißstelle (in SpliceMap oder nicht) eine seltene Variante existiert, die eine Verbindung mit der Donor- oder Akzeptorstelle des Ausreißerereignisses teilt, besteht der Ausreißer den „Filter für seltene Varianten“. Fälle 1 und 2: Das Individuum hat eine seltene Variante innerhalb von 250 bp von entweder der Donorstelle von Exon 1 oder der Akzeptorstelle von Exon 2, den Spleißstellen der Ausreißerverbindung. Wichtig ist, dass Exon 2 nicht von SpliceMap quantifiziert wurde, sondern der Ausreißerfilter ausschließlich von Split-Reads abhängt. Fall 3: Das Individuum hat eine seltene Variante innerhalb von 250 bp der Spenderstelle von Exon 2. Diese Spenderstelle ist jedoch nicht Teil des Ausreißerereignisses. Fall 4: Das Individuum hat eine seltene Variante innerhalb von 250 bp von der Akzeptorstelle von Exon 3, die eine Spleißverbindung mit der Donorstelle von Exon 1 bildet. Fall 5: Das Individuum hat zwei seltene Varianten, eine davon weiter als 250 bp Spleißstelle, die andere innerhalb von 250 bp der Akzeptorstelle von Exon 4. Insbesondere kann eine Variante weit von der Ausreißerverbindung entfernt sein und dennoch am Ausreißerereignis beteiligt sein. b: Exon-Verlängerung als Ausreißer der Spleißeffizienz erkannt. Bei Ausreißern der Spleißeffizienz wird nur die betroffene Spleißstelle mit veränderter Spleißeffizienz für den Variantenfilter berücksichtigt. Fall 1: Das Individuum hat eine seltene Variante innerhalb von 250 bp von der Donorstelle von Exon 1. Fall 2: Das Individuum hat eine seltene Variante, die die Akzeptorstelle des verlängerten Exon 3 überlappt, aber weiter als 250 bp von der Akzeptorstelle entfernt ist von Exon 3. Fall 3: Das Individuum hat eine seltene Variante innerhalb von 250 bp von der Akzeptorstelle von Exon 3. Fall 4: Das Individuum hat eine seltene Variante innerhalb von 250 bp von der Donorstelle von Exon 3, aber der Spender ist nicht verwandt zur Exonverlängerung.

Precision-Recall-Kurve vergleicht die Gesamtvorhersageleistung für alle GTEx-Gewebe von SpliceAI, SpliceAI mit SpliceMap-Annotation, SpliceAI mit SpliceMap-Annotation zusammen mit quantitativen Referenzniveaus des Spleißens, MMSplice mit GENCODE-Annotation, MMSplice mit SpliceMap-Annotation, MMSplice mit SpliceMap-Annotation zusammen mit quantitativen Referenzniveaus des Spleißens und das integrative Modell AbSplice-DNA, das verschiedene Filter für fehlerhaft gespleißte Gene verwendet. a, Filter 1: FRASER-Standardgrenzwerte (|ΔΨ| > 0,3, FDR < 0,05, 126.308 abweichende Ereignisse) b, Filter 2: wie a, aber beschränkt auf Gene, die in mindestens zwei verschiedenen Geweben desselben Individuums abweichend gespleißt sind (32.886 abweichende Ereignisse). c, Filter 3: wie a, jedoch beschränkt auf Gene, die eine seltene Variante innerhalb von 250 bp der Spleißstellen aufweisen (22.766 aberrante Ereignisse). Während die Ergebnisse mit Filter 3 am besten sind, sind die relativen Verbesserungen in Bezug auf die Präzision bei gleichem Abruf zwischen den Methoden dieselben wie mit Filter 2. Insbesondere wurde auf Varianten beschränkt, die 250 bp von jeder erkannten Split-Read-Grenze entfernt sind (Filter 3). ) hat unsere Analyse für die Spleißstellen-zentrierte Methode MMSplice gegenüber SpliceAI nicht beeinflusst. d: Nach Anwendung von Filter 3 wurden Ausreißer in „repliziert“ (14.030 abweichende Ereignisse), d. h. in mindestens zwei verschiedenen Geweben derselben Person auftretend, und „nicht repliziert“ (8.736 abweichende Ereignisse) stratifiziert. Alle Modelle zeigten eine deutlich höhere Leistung bei abweichenden Spleißereignissen, die in zwei oder mehr Proben wiederholt wurden, im Vergleich zu denen, die nur in einer einzelnen Probe gemeldet wurden.

a, Ein Genmodell mit 3 annotierten Exons in der Standardannotation (1, 3 und 4) und 3 von SpliceMap erkannten Exons (1, 2 und 4). SpliceAI bewertet für jeden Bp in einem 50-Bp-Fenster einer Variante (dargestellt als roter Stern) und meldet die maximale Punktzahl unabhängig von der Entfernung zu einer Kreuzung. MMSplice stellt eine Bewertung in einem 100-bp-Fenster um eine Variante bereit, solange in diesem Fenster eine Kreuzung vorhanden ist. b: Fall mit einer Variante innerhalb von 100 bp von einer annotierten Kreuzung in SpliceMap, aber weiter als 100 bp von einem beliebigen Exon in der Standardannotation. MMSplice + SpliceMap kann die Variante bewerten, MMSplice jedoch nicht. c: Fall mit einer Variante innerhalb von 100 bp von einem annotierten Exon in der Standardannotation, aber weiter als 100 bp von einem beliebigen Exon in der SpliceMap. Daher kann MMSplice die Variante bewerten, MMSplice + SpliceMap hingegen nicht. d, Die Variante befindet sich nicht innerhalb von 100 bp von einer annotierten Kreuzung in der Standardannotation oder SpliceMap. Daher können weder MMSplice noch MMSplice + SpliceMap die Variante bewerten. SpliceAI ist jedoch immer in der Lage, eine Variante zu bewerten. Folglich ist AbSplice immer in der Lage, eine Variante zu bewerten.

Anzahl der Introns, Akzeptorstellen und Donorstellen, die in GENCODE und der SpliceMap jedes GTEx-Gewebes (erste Zeile), nur GENCODE (zweite Zeile) und nur SpliceMap (dritte Zeile) annotiert sind.

a, Ψ gegen Δlogit(Ψ) zeigt das nichtlineare Spleißskalierungsgesetz. Der Mutationseffekt einer Variante kann je nach Referenz-Spleißniveau des Introns zu unterschiedlichen Änderungen von Ψ im natürlichen Maßstab führen. Dieselbe Variante kann beispielsweise zu einer großen Änderung von Ψ führen, wenn Ψref anfänglich auf einem mittleren Niveau liegt, und zu nahezu keiner Änderung, wenn Ψref anfänglich auf einem extremen Wert (hier niedrig) liegt. b, Verteilung von Ψref in SpliceMap. Die meisten Introns sind nicht alternativ gespleißt, sodass der Referenzwert dieser Introns entweder 0 oder 1 ist. c, kumulative Verteilungsfunktion der maximalen Differenz von Ψref (definiert als: max(Ψref) – min(Ψref)) über Gewebe pro Intron. d, Heatmap des Ψref der variabelsten Introns (definiert als: max(Ψref) - min(Ψref) > 0,3) über Gewebe hinweg.

a, Histogramm der AbSplice-DNA-Scores für Gen-, Proben- und Gewebekombinationen, die kein abweichendes Spleißereignis enthalten. Die gestrichelte rote Linie gibt den Median an. b, Histogramm der AbSplice-DNA-Scores für Gen-, Proben- und Gewebekombinationen, die ein abweichendes Spleißereignis enthalten. Der Peak bei logit(AbSplice-DNA) ~-3,1 entspricht AbSplice-DNA-Scores, die aufgrund kleiner SpliceAI- und MMSplice-Scores niedrig sind, jedoch eine ausgeprägte Spleißstelle aufweisen, wie in SpliceMap annotiert. Der Peak bei logit(AbSplice-DNA) ~-4,3 entspricht kleinen SpliceAI- und MMSplice-Scores mit einer ungenutzten Spleißstelle, wie in SpliceMap annotiert. c, Wahrscheinlichkeit abweichender Spleißereignisse als Funktion der Logit-transformierten AbSplice-DNA-Scores (eingeteilt in Bins mit einer Breite von 0,1). Die Linie stellt die Diagonale dar. Beachten Sie die lineare Beziehung (insbesondere im Bereich mit hohem AbSplice-DNA-Score) und den (extrapolierten) Schnittpunkt bei einem AbSplice-DNA-Score von 0,5 (logit(AbSplice-DNA) = 0), was einer logarithmischen Wahrscheinlichkeit von 1 entspricht, was auf eine gute Kalibrierung hinweist Modell.

a, Präzisionsrückrufleistung von CADD-Splice, SQUIRLS, MTSplice, MMSplice und SpliceAI. b, Verteilung der Fläche unter der Precision-Recall-Kurve (auPRC) über alle GTEx-Gewebe (n = 49) der AbSplice-DNA-Modelle, die mit unterschiedlichen Merkmalssätzen unter Verwendung der Modelle in a trainiert wurden, d. h. „AbSplice-DNA (+ CADD). -Splice)‘ verwendete zusätzlich CADD-Splice-Scores während des Trainings. Mittellinie, Median; Box-Limits, erstes und drittes Quartil; Whisker umfassen alle Daten innerhalb von 1,5 Interquartilbereichen des unteren und oberen Quartils. Rot dargestellt ist das im Manuskript verwendete AbSplice-DNA-Modell. Die Modelle sind nach auPRC sortiert. Die P-Werte wurden mithilfe des gepaarten zweiseitigen Wilcoxon-Tests berechnet. cd, AbSplice-DNA wurde mit einem generalisierten additiven Modell (GAM), Random Forest und logistischer Regression trainiert. Im Manuskript wird AbSplice-DNA mit GAM verwendet. c, Precision-Recall-Kurve für alle GTEx-Gewebe. d, Verteilung der Fläche unter der Precision-Recall-Kurve der Modelle in c über Gewebe (n = 49). Mittellinie, Median; Box-Limits, erstes und drittes Quartil; Whisker umfassen alle Daten innerhalb von 1,5 Interquartilbereichen des unteren und oberen Quartils.

a, Precision-Recall-Kurven, die die Gesamtvorhersageleistung bei nicht zugänglichen GTEx-Geweben unter Verwendung der FRASER-p-Werte auf Genebene aus dem CAT, der auf einem einzelnen CAT trainierten AbSplice-RNA und der AbSplice-DNA vergleichen. Jedes Panel zeigt einen anderen CAT und die Anzahl der passenden Proben in den nicht zugänglichen Geweben. b: Wie a, jedoch für Proben mit RNA-Sequenz sowohl aus Blut als auch aus Fibroblasten. AbSplice-RNA (alle CATs) wurde mithilfe von RNA-seq-Daten aus Blut, Fibroblasten und Lymphozyten trainiert. Beachten Sie, dass AbSplice-RNA (Fibroblasten) eine ähnliche Leistung erbrachte wie AbSplice-RNA (alle CATs). Wir haben die Proben nicht auf diejenigen beschränkt, die auch Lymphozyten enthalten, da dies zu einer geringen Anzahl von Proben führen würde (N = 2.258). c, Modellleistung für Gene, die nicht oder in den klinisch zugänglichen Gewebefibroblasten exprimiert werden. Der Grenzwert für die Bezeichnung eines exprimierten Gens war TPM > 1 (Transkript pro Million). AbSplice-RNA verbessert sich bei Genen, die in Fibroblasten exprimiert werden, und bleibt auf Augenhöhe mit AbSplice-DNA für Gene, die nicht in Fibroblasten exprimiert werden.

Ergänzende Abbildungen. 1–7 und Tabelle 1.

Springer Nature oder sein Lizenzgeber (z. B. eine Gesellschaft oder ein anderer Partner) besitzen die ausschließlichen Rechte an diesem Artikel im Rahmen einer Veröffentlichungsvereinbarung mit dem Autor bzw. den Autoren oder anderen Rechteinhabern. Die Selbstarchivierung der akzeptierten Manuskriptversion dieses Artikels durch den Autor unterliegt ausschließlich den Bedingungen dieser Veröffentlichungsvereinbarung und geltendem Recht.

Nachdrucke und Genehmigungen

Wagner, N., Çelik, MH, Hölzlwimmer, FR et al. Aberrante Spleißvorhersage in menschlichen Geweben. Nat Genet 55, 861–870 (2023). https://doi.org/10.1038/s41588-023-01373-3

Zitat herunterladen

Eingegangen: 05. April 2022

Angenommen: 14. März 2023

Veröffentlicht: 04. Mai 2023

Ausgabedatum: Mai 2023

DOI: https://doi.org/10.1038/s41588-023-01373-3

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Naturgenetik (2023)