banner
Heim / Blog / Genom
Blog

Genom

Jun 01, 2023Jun 01, 2023

Nature Genetics (2023)Diesen Artikel zitieren

29.000 Zugriffe

2 Zitate

179 Altmetrisch

Details zu den Metriken

Die Auswirkungen von Codierungsvarianten vorherzusagen ist eine große Herausforderung. Während neuere Deep-Learning-Modelle die Genauigkeit der Vorhersage von Varianteneffekten verbessert haben, können sie aufgrund der Abhängigkeit von engen Homologen oder Softwareeinschränkungen nicht alle Codierungsvarianten analysieren. Hier haben wir einen Arbeitsablauf unter Verwendung von ESM1b, einem 650 Millionen Parameter umfassenden Proteinsprachenmodell, entwickelt, um alle etwa 450 Millionen möglichen Auswirkungen von Missense-Varianten im menschlichen Genom vorherzusagen, und alle Vorhersagen auf einem Webportal verfügbar gemacht. ESM1b übertraf bestehende Methoden bei der Klassifizierung von ca. 150.000 ClinVar/HGMD-Missense-Varianten als pathogen oder gutartig und bei der Vorhersage von Messungen über 28 Datensätze mit tiefen Mutationsscans. Darüber hinaus haben wir etwa 2 Millionen Varianten nur in bestimmten Proteinisoformen als schädlich annotiert, was zeigt, wie wichtig es ist, bei der Vorhersage von Varianteneffekten alle Isoformen zu berücksichtigen. Unser Ansatz lässt sich auch auf komplexere Codierungsvarianten wie In-Frame-Indels und Stop-Gains verallgemeinern. Zusammengenommen etablieren diese Ergebnisse Proteinsprachmodelle als einen effektiven, genauen und allgemeinen Ansatz zur Vorhersage von Varianteneffekten.

Die Bestimmung der phänotypischen Konsequenzen genetischer Varianten, bekannt als Varianteneffektvorhersage (VEP), ist eine zentrale Herausforderung in der Humangenetik1,2,3,4. Kodierungsvarianten, die die Aminosäuresequenzen von Proteinen verändern, sind aufgrund ihrer Anreicherung bei Krankheitsassoziationen, besser verstandenen Mechanismen und therapeutischer Anwendbarkeit von besonderem Interesse5,6,7,8. Die meisten natürlich vorkommenden Kodierungsvarianten sind Missense, bei denen eine Aminosäure durch eine andere ersetzt wird9. Trotz der Fortschritte in der funktionellen Genomik und in genetischen Studien bleibt die Unterscheidung proteinschädigender und neutraler Varianten eine Herausforderung. Darüber hinaus sind die meisten menschlichen Gene alternativ gespleißt, und dieselbe Variante kann für einige Proteinisoformen schädlich sein, für andere jedoch neutral, abhängig von den Wechselwirkungen mit dem Rest des Proteins. Daher bleiben die meisten Missense-Varianten Varianten unsicherer Signifikanz (VUS), was den Nutzen der Exomsequenzierung in der klinischen Diagnose einschränkt2,10. VEP stellt eine noch größere Herausforderung für Codierungsvarianten dar, die mehrere Reste betreffen, wie z. B. In-Frame-Indels.

Experimentelle Ansätze für VEP wie Deep Mutational Scans (DMS)11 und Perturb-seq12 können molekulare und zelluläre Phänotypen über Tausende von Varianten hinweg gleichzeitig messen. Allerdings sind diese Endophänotypen unvollständige Proxys für die relevanten klinischen Phänotypen und es bleibt schwierig, sie genomweit zu skalieren13,14. Im Gegensatz dazu könnten rechnerische Methoden, die die biophysikalischen Eigenschaften oder evolutionären Einschränkungen von Proteinen lernen, theoretisch alle Kodierungsvarianten abdecken15,16,17. Während die meisten Berechnungsmethoden auf markierten Daten pathogener versus gutartiger Varianten trainiert werden10, sagen unüberwachte homologiebasierte Methoden Varianteneffekte direkt aus mehreren Sequenzalignments (MSA) voraus, ohne auf markierten Daten zu trainieren. EVE, eine unbeaufsichtigte Deep-Learning-Methode, die einen generativen Variations-Autoencoder implementiert, hat kürzlich gezeigt, dass sie überwachte Methoden übertrifft4. Aufgrund ihrer Abhängigkeit von MSA liefern homologiebasierte Methoden jedoch nur Vorhersagen für eine Teilmenge gut ausgerichteter Proteine ​​und Reste. Da alternative Isoformen desselben Gens identische Homologe aufweisen, ist außerdem unklar, ob sie die Auswirkungen von Varianten auf verschiedene Isoformen unterscheiden können.

Ein weiterer Deep-Learning-Ansatz für VEP verwendet Protein-Sprachmodelle, eine Technik, die aus der Verarbeitung natürlicher Sprache abgeleitet ist. Hierbei handelt es sich um tiefe neuronale Netze, die darauf trainiert sind, den Raum bekannter Proteinsequenzen zu modellieren, die im Laufe der Evolution ausgewählt und in großen Proteindatensätzen wie UniProt18 erfasst wurden (Abb. 1a). Insbesondere erfordern Proteinsprachmodelle keine explizite Homologie und können die Wahrscheinlichkeit einer möglichen Aminosäuresequenz abschätzen. Es wurde gezeigt, dass sie implizit lernen, wie die Proteinsequenz viele Aspekte der Proteinstruktur und -funktion bestimmt, einschließlich der Sekundärstruktur, Ferninteraktionen, posttranslationalen Modifikationen und Bindungsstellen19,20,21,22,23,24. Eines der größten Proteinsprachenmodelle ist ESM1b, ein öffentlich verfügbares Modell mit 650 Millionen Parametern, das auf etwa 250 Millionen Proteinsequenzen trainiert wurde20. Es wurde gezeigt, dass es ohne weiteres Training Varianteneffekte vorhersagt, die mit den Ergebnissen des DMS-Experiments korrelieren25.

a, ESM1b ist ein Proteinsprachenmodell mit 650 Millionen Parametern, das auf 250 Millionen Proteinsequenzen in allen Organismen trainiert wurde. Das Modell wurde über die Masked-Language-Modeling-Aufgabe trainiert, bei der zufällige Reste aus Eingabesequenzen maskiert werden und das Modell die richtige Aminosäure an jeder Position (einschließlich der fehlenden Reste) vorhersagen muss. b, Darstellung der Eingabe (eine Aminosäuresequenz) und Ausgabe (LLR der Effektwerte für alle möglichen Missense-Varianten) des ESM1b-Modells. c, Die Verteilung der MSA-Abdeckung (d. h. der Anteil der Reste eines Proteins, die ausgerichtet sind) über etwa 3.000 krankheitsbezogene Proteine, die von EVE abgedeckt werden. d, Beispiele für die Fähigkeit des Modells, Proteindomänen und funktionelle Regionen, einschließlich außerhalb der MSA-Abdeckung, in den folgenden drei menschlichen Proteinen zu erkennen: SPAST, SLC7A3 und ARX. Jede Heatmap visualisiert die LLR-Scores über alle 20 × L möglichen Missense-Varianten (wobei L die Proteinlänge ist). Proteindomänen ohne MSA-Abdeckung werden orange hervorgehoben.

Allerdings haben mehrere Einschränkungen die Verwendung von ESM1b für VEP eingeschränkt. Erstens ist die Eingabesequenzlänge des Modells auf 1.022 Aminosäuren begrenzt, wobei etwa 12 % der menschlichen Proteinisoformen ausgeschlossen sind. Zweitens ist trotz der Auswertung von DMS-Daten über 32 Gene (10 vom Menschen)25 unbekannt, wie das Modell bei der Vorhersage der klinischen Auswirkungen von Kodierungsvarianten im gesamten Genom funktioniert. Schließlich erfordert die Verwendung von ESM1b Software-Engineering-Kenntnisse, Deep-Learning-Fachwissen und GPUs mit hohem Speicher, die zusammen eine technische Hürde für eine weit verbreitete Verwendung darstellen.

Hier haben wir einen Workflow implementiert, der ESM1b auf Proteinsequenzen beliebiger Länge verallgemeinert, und ihn verwendet, um alle etwa 450 Millionen möglichen Missense-Varianteneffekte über alle 42.336 Proteinisoformen im menschlichen Genom vorherzusagen. Wir haben unseren Workflow anhand von drei verschiedenen Benchmarks bewertet und ihn mit 45 anderen VEP-Methoden verglichen. Unser Workflow übertrifft alle verglichenen Methoden bei der Klassifizierung der Variantenpathogenität (wie von ClinVar10 und HGMD26 kommentiert) und der Vorhersage von DMS-Experimenten. Wir demonstrieren außerdem die Fähigkeit von ESM1b, Varianteneffekte im Kontext verschiedener Proteinisoformen zu bewerten und isoformempfindliche Varianten in 85 % der alternativ gespleißten Gene zu identifizieren. Abschließend stellen wir einen Bewertungsalgorithmus vor, der ESM1b auf Varianten verallgemeinert, die mehrere Reste betreffen, und die genauen Vorhersagen des Modells über In-Frame-Indels und Stop-Gain-Varianten demonstriert. Wir haben ein Webportal erstellt, über das Benutzer Missense-VEPs für alle menschlichen Proteinisoformen abfragen, visualisieren und herunterladen können (zugänglich unter https://huggingface.co/spaces/ntranoslab/esm_variants).

Wir haben einen modifizierten ESM1b-Workflow entwickelt und ihn angewendet, um einen vollständigen Katalog aller etwa 450 Millionen Missense-Varianteneffekte auf alle 42.336 bekannten menschlichen Proteinisoformen zu erhalten. Der Effektwert jeder Variante ist das Log-Likelihood-Verhältnis (LLR) zwischen der Variante und dem Wildtyp-Rest (WT) (Abb. 1b). Im Gegensatz zu homologiebasierten Modellen, die derzeit nur für eine Teilmenge menschlicher Proteine ​​und Reste mit MSA-Abdeckung verfügbar sind (z. B. 84 % der Reste in etwa 3.000 Krankheitsgenen, die von EVE abgedeckt werden; Abb. 1c), sagt ESM1b die Auswirkungen jedes möglichen Missense voraus Variante.

Proteinregionen mit vielen möglichen Mutationen, die von ESM1b als schädlich vorhergesagt werden, stimmen häufig mit bekannten Proteindomänen überein (Abb. 1d). Wie für SPAST, SLC7A3 und ARX dargestellt, liegen diese Domänen möglicherweise außerhalb der MSA-Abdeckung und sind für homologiebasierte Modelle ungeeignet (Abb. 1d), beherbergen jedoch krankheitsassoziierte Varianten. Beispielsweise enthält die Microtubule-Interacting and Trafficking (MIT)-Domäne in SPAST Missense-Varianten, die an hereditären spastischen Paraplegien beteiligt sind27, die CAT-C-Domäne in SLC7A3 enthält eine Autismus-assoziierte Variante (S589T)28 und mehrere Domänen in ARX außerhalb der MSA-Abdeckung (hervorgehoben). in Abb. 1d) enthalten Missense-Varianten im Zusammenhang mit geistiger Behinderung29,30,31,32.

Um die Leistung von ESM1b bei der Vorhersage der klinischen Auswirkungen von Varianten zu bewerten, haben wir die Effektwerte des Modells zwischen pathogenen und gutartigen Varianten in zwei Datensätzen verglichen. Der erste Datensatz enthält in ClinVar10 annotierte pathogene und gutartige Varianten und der zweite enthält von HGMD als krankheitsverursachend annotierte Varianten26 und gutartige Varianten von gnomAD (definiert durch eine Allelhäufigkeit >1 %)9. Es wurden nur Varianten mit hoher Konfidenz einbezogen (ergänzende Methoden). Die Verteilung der ESM1b-Effektwerte zeigt in beiden Datensätzen einen erheblichen Unterschied zwischen pathogenen und gutartigen Varianten (Abb. 2a). Darüber hinaus zeigen pathogene und gutartige Varianten konsistente Verteilungen in den beiden Datensätzen, was darauf hindeutet, dass die Vorhersagen gut kalibriert sind. Die Verwendung eines LLR-Schwellenwerts von –7,5 zur Unterscheidung zwischen pathogenen und gutartigen Varianten ergibt in beiden Datensätzen eine Richtig-Positiv-Rate von 81 % und eine Richtig-Negativ-Rate von 82 %.

a, Oben: Die Verteilung der ESM1b-Effektwerte auf zwei Sätze von Varianten, von denen angenommen wird, dass sie überwiegend pathogen sind („ClinVar: pathogen“ und „HGMD: krankheitsverursachend“), und zwei Sätze von Varianten, von denen angenommen wird, dass sie überwiegend harmlos sind („ClinVar: gutartig“ und „gnomAD: MAF > 0,01“). Unten: Venn-Diagramm der aus HGMD, ClinVar und gnomAD extrahierten Varianten. b, Vergleich zwischen ESM1b und EVE hinsichtlich ihrer Fähigkeit, zwischen pathogenen und gutartigen Varianten zu unterscheiden (gemessen anhand globaler ROC-AUC-Scores), wie durch ClinVar (36.537 Varianten in 2.765 einzigartigen Genen) oder HGMD/gnomAD (30.497 Varianten in 1.991 einzigartigen Genen) gekennzeichnet ). c, Die Verteilung der ESM1b-Effektwerte über ClinVar-Missense-VUS, zerlegt als eine Mischung aus zwei Gaußschen Verteilungen, die Varianten erfassen, die als wahrscheinlicher pathogen (orange) oder wahrscheinlicher harmlos (blau) vorhergesagt wurden. d, Die Verteilung der ESM1b-Effektwerte über alle gängigen ClinVar-Labels, einschließlich der beiden Gaußschen Komponenten aus c. Kästchen markieren Q1–Q3 der Verteilungen, wobei Mittelpunkte die Mediane (Q2) markieren und Whiskers den 1,5-fachen IQR ausdehnen. Insgesamt sind in ClinVar etwa 300.000 Missense-Varianten gekennzeichnet. e,f, Bewertung von 19 VEP-Methoden anhand derselben zwei Benchmarks: ClinVar (e) und HGMD/gnomAD (f). Die Leistung wurde anhand zweier Metriken für die binäre Klassifizierung wie folgt gemessen: ROC-AUC (hellrot) und eine ausgewogene Version von PRC-AUC (hellblau; Methoden). Die Leistung wurde anhand der für alle 19 Methoden verfügbaren Variantensätze bewertet. g,h, direkter Vergleich zwischen ESM1b und jeder der 18 anderen VEP-Methoden über dieselben zwei Datensatz-Benchmarks (in Bezug auf ROC-AUC). Da ESM1b Scores für alle Missense-Mutationen bereitstellt, wird der Vergleich mit den anderen Methoden für den Satz von Varianten mit Effektvorhersagen für diese Methode durchgeführt. Der Prozentsatz der für jede Methode berücksichtigten Varianten wird unten in jedem Balken angezeigt. IQR, Interquartilbereich.

Beim Vergleich von ESM1b und EVE als Klassifikatoren der Variantenpathogenität erhält ESM1b einen Receiver Operating Characteristics-Area Under the Curve (ROC-AUC)-Score von 0,905 für die Unterscheidung zwischen den 19.925 pathogenen und 16.612 gutartigen Varianten in ClinVar (über 2.765 Gene), verglichen mit 0,885 für EVE. Bei HGMD/gnomAD (mit 27.754 krankheitsverursachenden und 2.743 häufigen Varianten in 1.991 Genen) erreicht ESM1b einen ROC-AUC-Score von 0,897 im Vergleich zu 0,882 für EVE (Abb. 2b). Wir haben auch eine genspezifische ROC-AUC-Metrik in Betracht gezogen, bei der ESM1b etwas schlechter abschneidet. Wir halten die globale Metrik jedoch für besser geeignet für das genomweite Scannen von Krankheitsvarianten, wo häufig ein Vergleich von Varianten über verschiedene Gene hinweg erforderlich ist (Erweiterte Daten, Abb. 1b und Methoden).

Die ROC-Kurve zeigt die Richtig-Positiv-Rate (Prozentsatz der erfolgreich als solche vorhergesagten pathogenen Varianten) für jede mögliche Falsch-Positiv-Rate (von gutartigen Varianten, die fälschlicherweise als pathogen vorhergesagt wurden). Während die ROC-AUC-Metrik die Gesamtleistung des Modells durch die Integration der gesamten Falsch- und Richtig-Positiv-Raten bewertet, erfordern klinische Anwendungen normalerweise niedrige Falsch-Positiv-Raten. Bei einer Falsch-Positiv-Rate von 5 % erreicht ESM1b eine Richtig-Positiv-Rate von 60 %, verglichen mit 49 % für EVE über ClinVar und 61 % im Vergleich zu 51 % über HGMD/gnomAD (Erweiterte Daten, Abb. 1a), was einen erheblichen Spielraum zeigt im klinisch relevanten Bereich der ROC-Kurve.

Nachdem wir die hohe Genauigkeit von ESM1b als Klassifikator für die Pathogenität von Varianten nachgewiesen hatten, versuchten wir, die Auswirkungen von VUS in ClinVar vorherzusagen. Zu diesem Zweck haben wir die Verteilung der ESM1b-Effektwerte über VUS als Gaußsche Mischung mit zwei Komponenten modelliert (Abb. 2c). Diese beiden angepassten Verteilungen stimmen gut mit den Verteilungen für kommentierte pathogene und gutartige Varianten überein (Abb. 2d). Nach diesem Modell schätzen wir, dass etwa 58 % der Missense-VUS bei ClinVar gutartig und etwa 42 % pathogen sind.

Zusätzlich zu EVE verglichen wir ESM1b mit 44 anderen VEP-Methoden, einschließlich aller funktionalen Vorhersagemethoden und Erhaltungsbewertungen aus der Datenbank für nicht-synonyme SNPs' Functional Predictions (dbNSFP)33. Für klinische Benchmark-Vergleiche haben wir nur Methoden berücksichtigt, die (1) nicht auf klinischen Datenbanken wie ClinVar und HGMD trainiert wurden oder Merkmale von Methoden verwendeten, die auf solchen Daten trainiert wurden, und (2) die Allelfrequenz nicht als Merkmal verwenden, so wie es ist Wird oft verwendet, um Varianten als harmlos einzustufen. Von den 46 Methoden erfüllen 19 (einschließlich ESM1b und EVE) diese Kriterien für einen unvoreingenommenen Vergleich. Bei den von allen 19 Methoden gemeldeten Varianten übertrifft ESM1b alle anderen Methoden sowohl bei ClinVar als auch bei HGMD/gnomAD (Abb. 2e, f). In ähnlicher Weise übertrifft ESM1b jede Methode einzeln in ihrem jeweiligen Satz gemeldeter Varianten (Abb. 2g, h). Alle Direktvergleiche waren statistisch signifikant mit P < 0,001. Die Bewertungsergebnisse für alle 46 Methoden, einschließlich derjenigen, die aufgrund von Datenlecks ausgeschlossen wurden, sind in der Ergänzungstabelle 2 aufgeführt.

Darüber hinaus verglichen wir alle 46 VEP-Methoden hinsichtlich ihrer Fähigkeit, experimentelle Messungen aus DMS vorherzusagen. Der vollständige DMS-Benchmark besteht aus 28 Tests, die 15 menschliche Gene abdecken (166.132 experimentelle Messungen über 76.133 Varianten; Ergänzungstabelle 1). Wir haben 43 der Methoden mit einer Teilmenge von 16.049 Varianten von 11 Genen verglichen, die von diesen Methoden gemeldet wurden (mit Ausnahme von 3 Methoden, die die Anzahl gemeinsamer Varianten stark reduziert hätten; Methoden). ESM1b liegt mit einer mittleren Spearman-Korrelation von 0,426 zwischen seinen Effektwerten und den experimentellen Messungen am höchsten (Abb. 3a), gefolgt von DEOGEN2 (0,423), REVEL (0,419) und EVE (0,418). DEOGEN2 und REVEL sind überwachte Methoden, während EVE wie ESM1b eine unbeaufsichtigte Methode ist. Der direkte Vergleich von ESM1b und EVE mit den 64.580 Varianten mit EVE-Scores (über 15 Gene) zeigt einen ähnlichen Trend (Abb. 3b und Extended Data Abb. 1c). Ebenso übertrifft ESM1b alle 45 anderen Methoden in Bezug auf die von jeder Methode gemeldeten Varianten (Abb. 3c und Extended Data Abb. 2), wobei 37 von 45 Vergleichen statistisch signifikant sind (P < 0,05).

a, Bewertung von 43 VEP-Methoden (einschließlich ESM1b und EVE) anhand eines DMS-Benchmarks mit 28 Tests über 15 verschiedene menschliche Gene (Ergänzungstabelle 1). Von der gesamten Menge von 76.133 Varianten in 15 Genen erhielten 16.049 Varianten in 11 Genen Wirkungswerte mit allen 43 VEP-Methoden. Wir haben drei VEP-Methoden ausgeschlossen, VARITY_ER, VARITY_R und MTBAN (Methoden), was die Anzahl der von allen Methoden gemeinsam genutzten Varianten und Gene drastisch reduziert hätte. Die Methoden sind nach der durchschnittlichen Spearman-Korrelation zwischen den Ergebnissen jeder Methode und den experimentellen Ergebnissen sortiert. b, Die Leistung von ESM1b und EVE über die 15 einzelnen Gene im DMS-Benchmark. Die durchschnittliche Leistung jeder Methode ist durch eine gestrichelte Linie markiert. Da ESM1b alle Missense-Varianten verarbeiten kann (während EVE nur eine Teilmenge davon bewertet), wird die Leistung von ESM1b entweder für alle Varianten („alle Varianten“) oder für die Teilmenge der Varianten mit EVE-Scores („gleiche Varianten“) angezeigt. . c: Direkter Vergleich zwischen ESM1b und jeder der anderen 45 VEP-Methoden im DMS-Benchmark, wobei jede Methode mit der Menge der Varianten mit Vorhersagen für diese Methode verglichen wird. Die Anzahl der eindeutigen Gene und der Prozentsatz der Varianten mit Vorhersagen für jede Methode werden in eckigen Klammern bzw. Klammern angezeigt. Am Anfang (links) der Balken werden einseitige P-Werte angezeigt, die auf signifikante Unterschiede zu ESM1b hinweisen. Die Methoden werden nach dem Unterschied in der durchschnittlichen Spearman-Korrelation zwischen ESM1b und den anderen Methoden sortiert. Vergleiche mit Methoden, die nicht in klinischen Datenbanken evaluiert wurden, sind ausgegraut. d, Die Verteilung der ESM1b-Effektwerte für Varianten in annotierten Proteindomänen (rot) im Vergleich zu Varianten außerhalb von Domänen (grau). Als Referenz ist die Verteilung gutartiger Varianten (wie in Abb. 2a) dargestellt. e, Durchschnittlicher ESM1b-Effekt-Score (und SD) als Funktion der Allelfrequenz über alle gnomAD-Missense-Varianten.

Zwei zusätzliche Analysen belegen die funktionale Interpretation der ESM1b-Vorhersagen weiter. Erstens weisen Missense-Varianten innerhalb von Domänen, wie anhand einzelner Beispiele veranschaulicht wird (Abb. 1d), negativere (schädigendere) Effektwerte auf, während jene außerhalb von Domänen harmlosen Varianten ähneln (Abb. 3d). Zweitens stimmen die ESM1b-Effektwerte gut mit der Allelhäufigkeit überein, wobei häufige Varianten als weniger schädlich vorhergesagt werden (Abb. 3e), was im Einklang mit der reinigenden Selektion steht und äußerst schädliche Mutationen eliminiert34,35.

Als Proteinsprachenmodell bewertet ESM1b jede Variante im Kontext der eingegebenen Aminosäuresequenz, sodass dieselbe Variante im Kontext verschiedener Proteinisoformen bewertet werden kann. Eine Variante kann für einige Isoformen schädlich sein, für andere jedoch nicht, möglicherweise aufgrund von Wechselwirkungen mit alternativ gespleißten Domänen (Abb. 4a). Beim Vergleich der ESM1b-Scores zwischen der primären und einer kürzeren Isoform von P53 (bekannt als Δ133p53β)36 fanden wir beispielsweise 170 Varianten (hauptsächlich in der Nähe der Spleißverbindungen) mit deutlich unterschiedlichen Scores (LLR-Differenz > 4), darunter drei ClinVar-Varianten mit der Anmerkung „ VUS (Abb. 4b).

a: Die Folgen von Varianten (z. B. schädlich versus neutral) können vom Isoformenkontext abhängen. b, Vergleich der primären und einer der alternativen Isoformen von P53. Drei spezifische Varianten werden detailliert beschrieben. c, links: alle 3.477 ClinVar-Varianten mit sehr unterschiedlichen ESM1b-Effektwerten über verschiedene Isoformen hinweg (definiert durch sd > 2). Mitte: die niedrigsten und höchsten Isoform-Werte, die für alle VUS aus dem linken Feld vorhergesagt wurden (obere zwei Kästchen), verglichen mit den mittleren Werten (über alle Isoformen hinweg) von VUS, gutartigen oder pathogenen Varianten (wie in Abb. 2d; untere drei Kästchen). Die Kästchen stellen den Bereich Q1–Q3 und die Mittellinie (Q2) dar; Whiskers entsprechen 1,5× IQR; Ausreißer (außerhalb der Whiskers) werden einzeln angezeigt. Rechts: die Verteilung der niedrigsten und höchsten Isoform-Scores, die für alle VUS aus dem linken Feld vorhergesagt wurden, im Vergleich zu den Verteilungen für pathogene oder gutartige Varianten von ClinVar, HGMD und gnomAD (wie in Abb. 2a). In allen Panels wird die Anzahl der mit jeder Kategorie verknüpften Varianten in Klammern angezeigt. d, Die 100 besten ClinVar-Gene mit der höchsten Anzahl an Varianten mit stark variablen Effektwerten (wie in c). Die Anzahl der annotierten Isoformen jedes Gens ist in Klammern angegeben.

Wir fanden in ClinVar 3.477 Missense-Varianten mit erheblichen Unterschieden in den vorhergesagten Effekten (LLR sd > 2) zwischen den Isoformen (Abb. 4c). Insbesondere haben wir nur überprüfte, manuell kuratierte Proteinisoformen berücksichtigt (ergänzende Methoden). Zu diesen 3.477 Varianten gehören 148 (4 %) gutartige oder wahrscheinlich gutartige, 437 (13 %) pathogene oder wahrscheinlich pathogene und 2.892 (83 %) VUS. Interessanterweise spiegeln diese VUS die Effekt-Score-Verteilung pathogener Varianten wider, wenn die schädlichste Isoform berücksichtigt wird, und gutartiger Varianten, wenn die am wenigsten schädliche Isoform berücksichtigt wird (Abb. 4c). Wie P53 weisen viele klinisch wichtige Gene eine große Anzahl von ClinVar-Varianten mit hoher Effekt-Score-Varianz zwischen Isoformen auf, einschließlich BRCA1, IRF6 und TGFB3 (Abb. 4d).

Über die ca. 5.000 ClinVar-Gene hinaus suchten wir nach isoformspezifischen Effekten in allen möglichen Missense-Varianten in allen 20.360 kodierenden menschlichen Genen. Wir definieren eine Variante gemäß ESM1b als isoformsensitiv, wenn (1) sie in einer Isoform wahrscheinlich gutartig (LLR > −7), (2) in einer anderen wahrscheinlich pathogen (LLR < −8) und (3) diese beiden Vorhersagen sind sind erheblich unterschiedlich (LLR-Differenz > 4). Wir haben etwa 1,8 Millionen solcher Varianten in etwa 9.000 Genen identifiziert, was 85 % aller Gene mit manuell kuratierten alternativen Isoformen entspricht (Abb. 5a). Isoform-sensitive Varianten (ISV) treten mit größerer Wahrscheinlichkeit in der Nähe von Spleißverbindungen und in Genen mit durch Spleißvorgang unterbrochenen Proteindomänen auf, im Gegensatz zu Domänen, die beim Spleißen entweder intakt eingeschlossen oder vollständig entfernt werden (Abb. 5b).

a: Ungefähr 1,8 Millionen Missense-Varianten in etwa 9.000 Genen im menschlichen Genom sind „isoformensensitiv“, definiert durch (1) den maximalen ESM1b-Effekt-Score (über Isoformen hinweg) > −7, (2) den minimalen Score < −8 und (3) Differenz zwischen minimaler und maximaler Bewertung > 4. b, Oben: ISV liegen näher an der Spleißverbindung, als man zufällig erwarten würde. Unten links: ISV in Genen mit Domänen, die Spleißverbindungen enthalten: 90,31 % gegenüber 28,21 %, die zufällig erwartet wurden. Unten rechts: Metriken zur Vorhersage, ob Gene Domänen enthalten, die durch die Spleißverbindung unterbrochen wurden, vorausgesetzt, sie enthalten ISV oder nicht. c, Ein Beispiel für einen kleinen Spleißeffekt (Ausschneiden von fünf Aminosäuren aus der primären Isoform des MEN1-Proteins), der zu dramatischen Änderungen der vorhergesagten Auswirkungen von Varianten in einer viel größeren Region führt. Unten: AlphaFold-Strukturvorhersagen der beiden Isoformen. Die Pfeile zeigen auf eine kleine Oberflächentasche, die durch die Deletion von fünf Aminosäuren (um Ser145) entstanden ist. d, Ein Beispiel für alternatives Spleißen, das zu einem Ferneffekt im TGFB3-Proprotein führt. Der Ausschluss der TGFβ-3-Kette in einer alternativen Isoform des Proproteins führt dazu, dass eine Region am Anfang der LAP-Kette (orange markiert) ihre Empfindlichkeit gegenüber Missense-Varianten verliert. Rechts: AlphaFold-Vorhersage der Bindung der beiden Ketten, die zeigt, dass diese beiden Regionen in der 3D-Struktur nahe beieinander liegen. ISV, isoformsensitive Varianten; ACC, Genauigkeit; TPR, True-Positive-Rate; F1, F1-Punktzahl; MCC, Matthews Korrelationskoeffizient.

Spleißereignisse können vorhergesagte Varianteneffekte dramatisch beeinflussen. Beispielsweise unterscheidet sich die zweite Isoform von MEN1, einem Tumorsuppressor, der an vielen Krebsarten beteiligt ist, von der primären Isoform durch lediglich fünf fehlende Aminosäuren an den Positionen 149–153. Unterschiede in den vorhergesagten Varianteneffekten zwischen den Isoformen legen nahe, dass diese kleine Deletion eine 30-Aminosäuren-Region einführt, die anfälliger für schädliche Varianten in der zweiten MEN1-Isoform ist (Abb. 5c). Mehrere Studien haben Missense-Varianten in dieser Region mit Krebs in Verbindung gebracht, was darauf hindeutet, dass sie möglicherweise funktionsfähig sind37,38,39,40,41,42. Eine Studie aus dem Jahr 2017 ergab eine abweichende Expression der zweiten MEN1-Isoform in Tumoren, die funktionellen Unterschiede zwischen den beiden Isoformen sind jedoch noch nicht charakterisiert43. Beim Vergleich vorhergesagter dreidimensionaler (3D) Strukturen44 beobachten wir eine kleine Oberflächentasche, die durch die Deletion von fünf Aminosäuren entsteht (Abb. 5c), was ihre funktionelle Relevanz weiter untermauert. Allerdings ist Vorsicht geboten, wenn ein Rechenmodell (AlphaFold) zur Validierung der Vorhersagen eines anderen (ESM1b) verwendet wird.

Der transformierende Wachstumsfaktor Beta-3 (TGFB3) ist ein weiteres Beispiel für isoformempfindliche Varianten. Dieses Proprotein wird in zwei Ketten, LAP und TGFβ-3, gespalten, die ein funktionelles Dimer bilden. Einer alternativen verkürzten Isoform fehlt jedoch die TGFβ-3-Kette. ESM1b sagt voraus, dass viele Varianten in der LAP-Kette nur im Kontext der verkürzten Isoform neutral sind, obwohl sie über 200 Reste von der fehlenden TGFβ-3-Kette entfernt sind. Obwohl sie entlang der eindimensionalen Sequenz weit entfernt sind, deutet die Strukturvorhersage von AlphaFold44 auf einen engen Kontakt zwischen diesen Regionen im 3D-Raum hin (Abb. 5d).

Im Gegensatz zu den meisten VEP-Methoden können Proteinsprachmodelle jede Aminosäuresequenz bewerten und daher genutzt werden, um die Auswirkungen jeder codierenden Mutation, einschließlich In-Frame-Indels und Stop-Gains, vorherzusagen. Wir verwenden den Begriff „Indels“, um Einfügungen, Löschungen und Lösch-Einfügungs-Kombinationen (Delins) einzuschließen. Wir haben den Effektwert eines In-Frame-Indels als Pseudo-Log-Likelihood-Verhältnis (PLLR) zwischen den mutierten und WT-Aminosäuresequenzen definiert, wobei die Pseudo-Log-Likelihoods mit ESM1b geschätzt wurden (Abb. 6a). Pathogene Indels weisen wie Missense-Varianten niedrigere Wirkungswerte auf als gutartige Indels (Abb. 6a).

a, Oben: Funktionseffektwerte werden In-Frame-Indels zugewiesen, indem ESM1b sowohl für die WT- als auch für die mutierte Proteinsequenz aufgerufen und die PLLR zwischen ihnen berechnet wird. Unten: Die Verteilung der ESM1b-Effektwerte über 1.679 gutartige und 1.791 pathogene In-Frame-Indels von ClinVar. b, Vergleich zwischen drei Versionen von ESM1b-basierten Effekt-Scores, CADD (einer überwachten VEP-Methode) und drei Basismodellen als Klassifikatoren von pathogenen versus gutartigen In-Frame-Indels (über denselben Variantensatz wie in a). Für die Unterschiede zwischen der Leistung von CADD und den ESM1b-basierten Effektscores (Methoden) werden einseitige P-Werte angezeigt. Rechts: Aufteilung der 3.470 In-Frame-Indels in Deletionen, Einfügungen und Deletion-Insertion-Kombinationen (Delins). c) Funktionseffekt-Scores werden auch Stop-Gain-Varianten zugewiesen, definiert als der LLR-Score, der der Missense-Variante zugewiesen wird, von der vorhergesagt wird, dass sie unter allen möglichen Missense-Varianten in der verlorenen Region des Proteins die schädlichste ist. Illustriertes Beispiel: Substitution eines Glutamins in ein Stoppcodon an Position 25. d, Bewertung von ESM1b und drei Basismodellen als Klassifikatoren von pathogenen versus gutartigen Stop-Gain-Varianten, gegenüber Varianten, von denen erwartet wird, dass sie entweder (1) keine NMD erleiden (3.672 pathogene und 147 gutartige Varianten), (2) unterliegen einer NMD (32.362 pathogene und 198 gutartige Varianten) oder (3) alle Stop-Gain-Varianten (36.034 pathogene und 345 gutartige Varianten). Fehlerbalken entsprechen der SD der ROC-AUC-Scores, zentriert um den Mittelwert (geschätzt durch Bootstrapping).

Wir verglichen ESM1b mit anderen Modellen als Klassifikator für pathogene und gutartige In-Frame-Indels (Abb. 6b). Wir haben die folgenden drei Variationen der ESM1b-PLLR-Scores berücksichtigt: (1) Vanilla-PLLR, (2) gewichtetes PLLR (unter Berücksichtigung der Indel-Größe) und (3) absolutwertiges PLLR, das funktionale Änderungen als schädlich betrachtet, unabhängig davon, ob sie die Wahrscheinlichkeit erhöhen oder verringern ( Methoden). Der Absolutwert-PLLR übertrifft den Vanilla- (0,869) und den gewichteten PLLR (0,861) geringfügig (ROC-AUC = 0,874). Alle Variationen der ESM1b-PLLR-Scores übertreffen CADD (0,835), das im Gegensatz zu den meisten VEP-Methoden, die Indels unterstützen, nicht direkt auf ClinVar trainiert wurde und daher ausgewertet werden konnte. Besonders groß ist der Leistungsunterschied bei Delin-Varianten (ESM1b = 0,887, CADD = 0,671). Sowohl ESM1b als auch CADD übertrafen die folgenden drei Basismodelle: (1) Bearbeitungsabstand (0,501), (2) paarweise Sequenzausrichtung (0,586) und (3) BlastP (0,581). Wir haben auch die ESM1b-Effektwerte für alle In-Frame-Indel-VUS in ClinVar berechnet und diese Verteilung als eine Mischung der pathogenen und gutartigen Verteilungen angenähert (Extended Data Abb. 3), wobei wir schätzen, dass 52 % dieser Indels pathogen sind (im Vergleich zu 42 %). geschätzte Pathogenitätsrate für Missense-VUS).

Auswirkungen von Stop-Gain-Varianten können aus den ESM1b-Scores für Missense-Varianten vorhergesagt werden, indem jedem Stop-Gain ein Effekt-Score zugewiesen wird, der durch den niedrigsten (d. h. schädlichsten) LLR-Score aller möglichen Missense-Varianten in der verlorenen Region nach dem neuen Stopp bestimmt wird Codon (Abb. 6c). Insbesondere ist ESM1b ein Protein-Sprachmodell, das darauf trainiert ist, Variationen der Proteinsequenz zu bewerten, während die Auswirkungen von Stop-Gains häufig auf Transkriptebene durch Nonsense-Mediated Decay (NMD) auftreten. Tatsächlich ist ESM1b ein guter Klassifikator für Varianten, die gemäß der 50-bp-Regel45 nicht zu NMD führen (ROC-AUC = 0,734), schneidet jedoch gegenüber Varianten, von denen erwartet wird, dass sie NMD verursachen, schlecht ab (0,565) (Abb. 6d). Im gesamten Satz der Nicht-NMD-Varianten übertrifft ESM1b zwei Basismodelle erheblich und erzielt Stop-Gains basierend auf der Gesamtzahl der verlorenen Reste (0,649) oder ihrem Anteil an der WT-Proteinlänge (0,599).

Eine umfassende Auswertung zeigt, dass ESM1b andere hochmoderne VEP-Methoden bei der Unterscheidung pathogener von gutartigen Varianten in ClinVar und HGMD/gnomAD sowie bei der Vorhersage von durch DMS-Assays gemeldeten Wirkungen übertrifft. Als Proteinsprachenmodell, das nicht explizit auf Homologie beruht, bietet ESM1b mehrere zusätzliche Vorteile für VEP. Als unbeaufsichtigte Methode birgt ESM1b kein Risiko eines Informationsverlusts vom Training zu den Testsätzen in klinischen (z. B. ClinVar und HGMD) oder Populationsgenetik- (z. B. gnomAD) Datensätzen, was eine genaue und unvoreingenommene Auswertung ermöglicht. Die Vorhersage mit ESM1b ist viel einfacher und schneller als mit homologiebasierten Methoden, da nach dem Training eines universellen Modells nur eine einzige Eingabesequenz erforderlich ist. Insbesondere können Proteinsprachmodelle Vorhersagen für jede mögliche Aminosäuresequenz liefern und sind auf alle Kodierungsvarianten anwendbar. In dieser Arbeit wurde die Generalisierbarkeit von ESM1b für (1) Varianten außerhalb der MSA-Abdeckung, (2) Varianten mit unterschiedlichen Auswirkungen auf alternative Proteinisoformen, (3) In-Frame-Indels und (4) Stop-Gain-Varianten demonstriert.

Während homologiebasierte VEP-Methoden wie EVE eine starke Erfolgsbilanz vorweisen4, liegen viele wichtige Proteindomänen und -varianten außerhalb der MSA-Abdeckung. Das Einbeziehen von Regionen mit weiter entfernten Homologen erhöht die Abdeckung, verringert jedoch die MSA-Qualität und die Methodenleistung. Proteinsprachmodelle hingegen sind von diesem Kompromiss nicht direkt betroffen, da sie über alle verfügbaren Sequenzen trainiert werden. Einige neuere Strategien haben Proteinsprachmodelle mit homologiebasierten Methoden integriert, die auf den komplementären Stärken dieser beiden Ansätze aufbauen und eine vielversprechende Vorhersagegenauigkeit ergeben 46, 47.

Unser Arbeitsablauf ist einzigartig in seiner Fähigkeit, Varianteneffekte über alternative Isoformen hinweg vorherzusagen, im Gegensatz zu bestehenden Methoden, die nur bestimmen können, ob eine Variante in einer ausgedrückten Isoform enthalten ist48, aber nicht ihre einzigartige Wirkung im Kontext dieser Isoform vorhersagen können. Wir haben 3.477 ClinVar-Missense-Varianten mit unterschiedlichen vorhergesagten Auswirkungen zwischen Isoformen hervorgehoben, die in vielen krankheitsverursachenden Genen vorhanden sind, darunter BRCA1, IRF6 und TGFB3. Es wurde vorhergesagt, dass im gesamten Genom etwa 1,8 Millionen Varianten in etwa 9.000 Genen isoformenempfindlich sind. Während diese Zahlen von Definitionsschwellen abhängen, sind isoformsensitive Effekte eindeutig häufig. Diese Varianten treten tendenziell in der Nähe von Spleißstellen und innerhalb von Genen auf, die durch Spleißung gestörte Domänen enthalten, was auf lokale Effekte schließen lässt. Es wird jedoch vorhergesagt, dass einige Spleißereignisse viel größere oder entferntere Proteinregionen beeinflussen. Durch die Kombination von Isoform-spezifischen Effektvorhersagen mit Isoform-Expressionsdaten (z. B. von GTEx49) könnte man möglicherweise das von pathogenen Varianten betroffene Gewebe verfolgen.

Andere gleichzeitig durchgeführte Arbeiten, die ESM-Modelle für VEP anhand klinischer und DMS-Daten untersuchen, haben Ergebnisse erzielt, die weitgehend mit unseren übereinstimmen, und Protein-Sprachmodelle als führende Methoden für diese Aufgabe etabliert50,51. Durch die Beseitigung der Proteinlängenbeschränkung ermöglicht unser Framework genomweite Vorhersagen für alle Kodierungsvarianten. Infolgedessen haben wir einen vollständigen Katalog aller möglichen Auswirkungen von Missense-Varianten im menschlichen Genom zusammengestellt (https://huggingface.co/spaces/ntranoslab/esm_variants). Wir haben ESM1b weiter erweitert, um die Auswirkungen von Multirest-Varianten vorherzusagen, und zeigten eine gute Leistung gegenüber In-Frame-Indels (einschließlich Lösch-Einfügungs-Kombinationen) und Stop-Gains. Während zahlreiche VEP-Methoden auf Missense-Varianten abzielen, können nur wenige komplexere Aminosäureveränderungen bewerten, wobei die meisten auf klinischen Datenbanken wie ClinVar basieren.

Unser Framework weist einige Einschränkungen auf. Im Gegensatz zu VEP-Methoden, die genomische Merkmale nutzen, um Varianteneffekte auf DNA- oder Transkriptebene zu bewerten, berücksichtigen Proteinsprachmodelle nur Aminosäureveränderungen. Diese Einschränkung wird durch die schlechte Leistung von ESM1b gegenüber Varianten, die zu NMD führen, verdeutlicht. Ebenso wird nicht erwartet, dass ESM1b Varianteneffekte beim Spleißen erkennt52, aber wie gezeigt, kann es isoformspezifische Effekte auf Proteinebene aufdecken. Eine weitere Einschränkung des aktuellen Rahmenwerks ist das Fehlen einer expliziten Konfidenzmetrik für einzelne Vorhersagen, eine Funktion, die einige VEP-Methoden zur Qualitätskontrolle bieten. Bemerkenswert ist, dass dies keine inhärente Einschränkung von ESM1b oder anderen Proteinsprachenmodellen ist, und zukünftige Forschung wird wahrscheinlich Algorithmen zur Quantifizierung der Vorhersageunsicherheit hervorbringen. Schließlich haben wir für die ca. 12 % der menschlichen Proteine, die zu lang sind, als dass ESM1b sie als einzelne Sequenz verarbeiten könnte, einen Schiebefenster-Ansatz (Methoden) verwendet, der unseres Erachtens bei der Erkennung extrem entfernter Wechselwirkungen scheitern wird, insbesondere zwischen Resten, die um mehr als 1.022 voneinander entfernt sind Aminosäuren.

Wir gehen davon aus, dass unser Rahmenwerk und unsere öffentlichen Ressourcen für ein breites Spektrum humangenetischer Aufgaben nützlich sein werden. Bei der Diagnose von Mendelschen Erkrankungen könnte die Integration der ESM1b-Effekt-Scores mit anderen Informationen dazu beitragen, die Mehrdeutigkeit von VUS zu beseitigen. Dies bleibt ein dringender Bedarf angesichts der hohen Prävalenz von VUS in der klinischen Sequenzierung10, die dazu führt, dass viele Patienten keine eindeutige Diagnose haben2,53,54,55. Bei genetischen Assoziationsstudien könnte die Verwendung von Effekt-Scores als A-Prioritäten die Aussagekraft von Variantenbelastungstests und der statistischen Feinkartierung verbessern1. Für das Protein-Engineering wurde gezeigt, dass ESM1b-Effekt-Scores Gain-of-Function-Varianten mit therapeutischem Nutzen benennen können56. Schließlich kann die Verwendung von Protein-Sprachmodellen für VEP Einblicke in die Proteinfunktion liefern, etwa um funktionelle Unterschiede zwischen alternativen Isoformen zu erkennen oder Proteindomänen und andere funktionelle Einheiten zu identifizieren.

In den letzten Jahrzehnten haben sich die rechnergestützten VEP-Methoden dramatisch verbessert4. Angesichts der in dieser Arbeit vorgestellten Ergebnisse und im Einklang mit der Leistung von Sprachmodellen in der Proteinforschung19,20,25,57 und im allgemeinen maschinellen Lernen58,59 gilt die Proteinsprachmodellierung als einer der vielversprechendsten Ansätze zur Bestimmung der klinischen und biologische Folgen genetischer Varianten. Es hat sich gezeigt, dass sich Sprachmodelle tendenziell erheblich verbessern, wenn die Anzahl der Parameter und Trainingsdaten skaliert wird19,58 (obwohl dies möglicherweise nicht immer einfach ist60). Wir gehen davon aus, dass der Trend zu größeren und besseren Proteinsprachmodellen weiterhin von Nutzen sein und VEP verbessern wird.

Für diese Studie war keine ethische Genehmigung erforderlich.

In dieser Studie haben wir die Verwendung von ESM1b, einem von MetaAI20 entwickelten Protein-Sprachmodell, genutzt und erweitert. Der Code und die vorab trainierten Parameter für ESM1b (und andere ESM-Modelle) wurden dem offiziellen GitHub-Repository des Modells unter https://github.com/facebookresearch/esm entnommen. Während dieser Arbeit haben wir das Modell esm1b_t33_650M_UR50S verwendet (heruntergeladen von https://dl.fbaipublicfiles.com/fair-esm/models/esm1b_t33_650M_UR50S.pt). Es gibt auch andere ESM-Modelle, bei denen es sich um subtile Variationen von ESM1b handelt, die speziell für die Aufgabe von VEP vorgeschlagen wurden (z. B. ESM1v)25. Der Vergleich aller ESM-Modelle, einschließlich ESM1b, ESM1 und der fünf ESM1v-Modelle, zeigt, dass ESM1b das leistungsstärkste ESM-Modell über die drei in dieser Arbeit verwendeten Benchmarks ist, während ein Ensemble-ESM1v-Modell die Vorhersagen der fünf einzelnen ESM1v-Modelle leicht mittelt übertrifft ESM1b (Extended Data Abb. 4). In dieser Arbeit wollten wir das Potenzial eines Proteinsprachmodells als VEP-Methode untersuchen und haben uns daher auf ein Nicht-Ensemble-Modell (ESM1b) konzentriert.

ESM1b kann die LLR-Scores für alle möglichen Missense-Mutationen in einem Protein durch einen einzigen Durchgang des neuronalen Netzwerks berechnen. Mit der WT-Aminosäuresequenz als Eingabe gibt ESM1b die Log-Likelihood jeder der 20 Standardaminosäuren (einschließlich der WT-Aminosäure) an jeder Position der Proteinsequenz aus. Der LLR-Score jeder Mutation ist die Differenz zwischen der Log-Likelihood der Missense- und WT-Aminosäuren an dieser Position (Abb. 1b). Proteine, die länger als 1.022 Aminosäuren sind, werden durch den Schiebefenster-Ansatz gekachelt, der im Abschnitt „Umgang mit langen Sequenzen“ weiter unten beschrieben wird.

ESM1b, das erlernte Positionseinbettungen und Selbstaufmerksamkeit (die im Speicher und in der Rechenleistung quadratisch wächst) nutzt, ist auf Sequenzlängen von bis zu 1.022 Aminosäuren beschränkt20. Allerdings überschreiten etwa 12 % der menschlichen Proteine ​​in UniProt diese Länge18. Um diese Einschränkung zu überwinden, verwendeten wir einen Schiebefenster-Ansatz, bei dem längere Sequenzen in überlappende 1.022-Aminosäurefenster mit einer Überlappung von mindestens 511 Aminosäuren unterteilt wurden (Extended Data, Abb. 5). Jede Proteinsequenz wurde gekachelt, indem an beiden Enden der Sequenz iterativ Fenster mit 1.022 Aminosäuren erzeugt wurden, sodass aufeinanderfolgende Fenster genau 511 Aminosäuren überlappten, bis sich die Fenster an beiden Enden in der Mitte trafen. Wenn die Überlappung zwischen den zentralen Fenstern weniger als 511 Aminosäuren betrug, wurde in der Mitte ein zusätzliches Fenster mit 1.022 Aminosäuren hinzugefügt. Die Fensterteilsequenzen wurden als Eingaben für ESM1b bereitgestellt, um die LLR-Scores für alle Missense-Varianten zu berechnen (jede Variante in Bezug auf alle Fenster, die sie enthalten). Da die meisten Rückstände durch mehrere überlappende Fenster abgedeckt wurden (konstruktionsbedingt bis zu drei Fenster), wurden die endgültigen Varianteneffektbewertungen durch einen gewichteten Durchschnittsansatz ermittelt. Um mögliche Kanteneffekte abzuschwächen, wurden Gewichte in der Nähe von Fensterkanten mit einer Sigmoidfunktion konstruiert (Extended Data Abb. 5a). Die endgültige Effektbewertung einer Variante wurde durch (w(i1) × s1+…+w(ik) × sk) / (w(i1)+…+w(ik)) berechnet, wobei s1,…,sk die Effektbewertungen von sind die Variante im Kontext jedes der k Fenster, die sie enthalten (1 ≤ k ≤ 3), i1,…,ik sind die Positionen der Variante in diesen Fenstern und w ist die Fenstergewichtsfunktion (Extended Data Abb. 5b–e) .

Wir haben auch andere Methoden zum Kacheln langer Sequenzen und zum Aggregieren von Effektbewertungen über die 1–3 Fenster hinweg, die jede Variante abdecken, in Betracht gezogen. Neben dem beschriebenen gewichteten Durchschnitt haben wir (1) einfachen Durchschnitt (d. h. ohne Gewichtungen), (2) Minimum (d. h. die Bewertung der schädlichsten Wirkung), (3) Maximum (d. h. am wenigsten schädlich) und (4) getestet ) Platzieren Sie die Variante in der Mitte eines einzelnen Fensters. Wir haben die Ansätze auf zwei komplementäre Arten verglichen. Zunächst bewerteten wir die fünf Kachelansätze im Vergleich zum ClinVar-Benchmark mit unterschiedlichen Fenstergrößen (Extended Data Abb. 6a) und stellten erwartungsgemäß fest, dass sich die Leistung mit der Fenstergröße verbessert. Bei einer Fenstergröße von 1.022 Aminosäuren (dem von ESM1b unterstützten Maximum) übertraf kein Ansatz den gewichteten Durchschnitt. Insbesondere ist es für eine genomweite Analyse zu ineffizient, jede Variante in der Mitte eines einzelnen Fensters zu platzieren, da jede Variante einzeln verarbeitet wird, während Sliding-Window-Ansätze ESM1b einmal aufrufen, um alle Mutationen in jedem Fenster zu verarbeiten. Als zweiten Vergleich haben wir den Fehler quantifiziert, der durch die Verwendung mehrerer Fenster im Gegensatz zu einem einzelnen Fenster entsteht (über ausreichend kurze Sequenzen, die in ein Fenster passen). Auch hier ist keiner der alternativen Ansätze bei den maximalen Fenstergrößen überlegen (Extended Data Abb. 6b). Aufgrund des Rechenaufwands haben wir in diesem Vergleich den Ansatz „Variante in der Mitte“ weggelassen und stattdessen einen Ansatz mit gleitendem Fenster ohne Überlappung zwischen aufeinanderfolgenden Fenstern in Betracht gezogen.

Im Gegensatz zu Missense-Effekt-Scores erfordert die Berechnung verallgemeinerter Effekt-Scores für In-Frame-Indels, dass das neuronale Netzwerk für jede mutierte Sequenz separat aufgerufen wird. Die Pseudo-Log-Likelihood einer Folge s = s1,…, sL wird berechnet als \({\rm{PLL}}(s)={\sum }_{i=1}^{L}\log {\ rm{Pr}}({x}_{i}={s}_{i}{|s})\), wobei L die Sequenzlänge, si die Aminosäure an Position i und log Pr(xi = si|s) ist die von ESM1b vorhergesagte Log-Likelihood für die Beobachtung der Eingabeaminosäure si an Position i bei gegebener gesamter Eingabesequenz s. In diesem Rahmen wird die Ausgabe von ESM1b als eine Folge von Zufallsvariablen x = x1,…,xL betrachtet, wobei xi die Wahrscheinlichkeiten der Beobachtung jeder der 20 Standardaminosäuren an Position i ausdrückt. Der Effektwert eines In-Frame-Indels ist der PLLR zwischen den mutierten und WT-Sequenzen: PLL(smut) − PLL(sWT) (Abb. 6a).

Angesichts der Proteinlängenbeschränkung von ESM1b wird PLLR unter Verwendung von Teilsequenzen berechnet, die diese Einschränkung erfüllen, wenn entweder die WT- oder mutierten Sequenzen 1.022 Aminosäuren überschreiten. Zu diesen Teilsequenzen gehören die durch das Indel gelöschte und/oder eingefügte Region sowie nicht betroffene Regionen vor und nach dem Indel (die als Kontext sowohl für die WT- als auch für die mutierten Sequenzen enthalten sind). Vor dem Indel fügen wir ein Segment von 511 Resten ein (oder so viele wie es gibt). Nach dem Indel geben wir die Anzahl der Reste an, die die Gesamtlänge auf 1.022 Aminosäuren vervollständigen würden, unter Berücksichtigung der längeren Zeit zwischen dem WT und der mutierten Sequenz. Die PLLs für die mutierten und WT-Sequenzen werden dann in Bezug auf dieses Fenster berechnet.

Wir bezeichnen den oben beschriebenen PLLR-Score als „Vanilla“-PLLR, berücksichtigen aber auch die folgenden zwei kleineren Variationen: (1) gewichteter PLLR und (2) absolutwertiger PLLR (Abb. 6b). Das gewichtete PLLR zielt darauf ab, eine mögliche Verzerrung zu berücksichtigen, wenn die WT- und mutierten Sequenzen unterschiedliche Längen haben. Da LLR die Summe der Log-Likelihoods über WT-Positionen von der Summe der mutierten Sequenz subtrahiert, besteht die Gefahr, nicht vergleichbare Werte zu subtrahieren, wenn die WT-Sequenzlänge LWT zu stark von der mutierten Sequenzlänge Lmut abweicht. Das gewichtete PLLR versucht dies zu korrigieren, indem es die Vanilla-Subtraktion PLL(smut) − PLL(sWT) durch \(\frac{1}{{L}_{{\rm{mut}}}}{\rm{PLL ersetzt }}({s}^{{\rm{mut}}})-\frac{1}{{L}_{{\rm{WT}}}}{\rm{PLL}}({s}^ {{\rm{WT}}})\). Die Tatsache, dass die gewichtete PLLR die Vanilla-PLLR nicht übertrifft (Abb. 6b), legt nahe, dass die von ESM1b vorhergesagten PLL-Scores insgesamt gut kalibrierte Wahrscheinlichkeitsschätzungen für Sequenzen unterschiedlicher Länge sind. Der absolutwertige PLLR ersetzt die Vanilla-Subtraktion durch |PLL(smut) − PLL(sWT)|. Der Grund für diese Transformation besteht darin, auch Varianten zu berücksichtigen, die die Gesamtwahrscheinlichkeit eines Proteins als potenziell pathogen erhöhen. Beispielsweise mag eine Gain-of-Function-Mutation aus evolutionärer Sicht wahrscheinlicher erscheinen, dennoch sind solche Mutationen häufig pathogen.

Um Stop-Gain-Varianten zu bewerten, berechnen wir zunächst Missense-LLR-Scores für die gesamte Proteinsequenz (wobei wir bei Bedarf den Sliding-Window-Ansatz verwenden). Der Effektwert einer Stop-Gain-Variante wird dann als der niedrigste LLR-Wert (der voraussichtlich am schädlichsten ist) unter allen möglichen Missense-Mutationen in der verlorenen Region ausgewählt (Abb. 6c). Der Grundgedanke besteht darin, zu beurteilen, wie wichtig die verlorene Region am Ende des Proteins für seine Funktion ist, und umso niedrigere Bewertungen zuzuweisen, je funktionell wichtiger sie ist. Wie die Analyse von Proteindomänen zeigt (Abb. 1d und 3d), enthalten funktionell wichtige Proteinregionen Missense-Mutationen mit niedrigeren ESM1b-Werten.

Um die Leistung von ESM1b und anderen VEP-Methoden als Klassifikatoren für Variantenpathogenität zu vergleichen, verwendeten wir hauptsächlich ROC-AUC (Abb. 2b, e – h), die Standardbewertungsmetrik für binäre Klassifikatoren61. Zusätzlich zur ROC-AUC, die den Kompromiss zwischen den Richtig- und Falsch-Positiv-Raten berücksichtigt (Extended Data Abb. 1a), haben wir auch eine ausgewogene Version der PRC-AUC-Metrik verwendet, die den Kompromiss zwischen Präzision und Erinnerung berücksichtigt ( Abb. 2e,f). Im Gegensatz zu ROC-AUC reagiert PRC-AUC im Allgemeinen empfindlich auf ein Label-Ungleichgewicht (d. h. eine ungleichmäßige Aufteilung von pathogenen/gutartigen Varianten) im Bewertungsdatensatz. Um diese Metrik auszugleichen, haben wir jeden Datensatz nach dem Zufallsprinzip in eine gleiche Anzahl pathogener und gutartiger Varianten (80 % der Varianten in der Minderheitenklasse) heruntergerechnet und die PRC-AUC über den ausgeglichenen Datensatz berechnet. Um genaue Ergebnisse zu erhalten, haben wir das Downsampling 100 Mal wiederholt und den Durchschnitt der resultierenden PRC-AUC-Scores berechnet.

Wir haben den gesamten Satz pathogener und gutartiger Varianten (von ClinVar10 oder HGMD/gnomAD9,26) als eine einzige genomweite Klassifizierungsaufgabe behandelt, um eine globale ROC-AUC zu berechnen. Dies unterscheidet sich etwas von der durchschnittlichen ROC-AUC des Gens, die in der Veröffentlichung zur Einführung von EVE4 angegeben wurde. Beim Gen-Durchschnittsansatz wurde jedes Gen separat bewertet, was einen genspezifischen ROC-AUC für die 1.654 menschlichen Gene mit mindestens einer annotierten ClinVar-Variante pro Klasse (pathogen/gutartig) ergab. Die Mittelung dieser Gene ergab den durchschnittlichen ROC-AUC des Gens. ESM1b ist allen anderen Methoden gemäß der globalen ROC-AUC durchweg überlegen (Abb. 2b, e – h), während EVE gemäß der gendurchschnittlichen ROC-AUC dieser Untergruppe von Genen etwas überlegen ist (Extended Data Abb. 1b). ). Dies legt nahe, dass ESM1b über verschiedene Gene hinweg einheitlichere und vergleichbarere Ergebnisse liefert, was möglicherweise darauf zurückzuführen ist, dass EVE eine Ansammlung mehrerer genspezifischer Modelle ist, während ESM1b ein universelles Modell ist, das über alle bekannten Proteinsequenzen trainiert wird. Wir argumentieren, dass die globale ROC-AUC in der Regel aussagekräftiger ist als die gendurchschnittliche ROC-AUC für VEP, da die Diagnose genetischer Krankheiten häufig den Vergleich von Varianten über mehrere Gene hinweg erfordert und gut kalibrierte Scores erfordert.

In Abb. 6d haben wir die Unsicherheit für die ROC-AUC-Metriken durch Bootstrapping geschätzt. In jeder Bootstrapping-Iteration haben wir zufällig 140 pathogene und 140 gutartige Varianten aus jeder der drei Gruppen von Stop-Gain-Varianten beprobt (3.672 pathogene und 147 gutartige Varianten, von denen nicht erwartet wird, dass sie zu NMD führen, 32.441 pathogene und 198 gutartige Varianten, von denen erwartet wird, dass sie zu NMD führen). und insgesamt 36.113 pathogene und 345 gutartige Varianten). Nach 20 Iterationen haben wir für jede Bedingung den Mittelwert ROC-AUC und SD (dargestellt als Fehlerbalken in Abb. 6d) berechnet.

Außer ESM1b und EVE haben wir 44 weitere VEP-Methoden evaluiert (Abb. 2 und 3). Die vorhergesagten Effektwerte für die meisten VEP-Methoden wurden von dbNSFP33 übernommen. Wir haben die Datei dbnsfp4.3a.zip von der dbNSFP-Website (http://database.liulab.science/dbNSFP) verwendet. Wir haben LINSIGHT (das zu wenige Varianten für eine zuverlässige Bewertung hatte) und drei Versionen von fitCons basierend auf den Zelllinien H1-hESC, HUVEC und GM12878 (die bei ClinVar und HGMD/gnomAD eine nahezu zufällige Leistung zeigten) ausgeschlossen. Darüber hinaus haben wir zwei weitere aktuelle, hochmoderne Methoden integriert, die nicht in dbNSFP aufgeführt sind: VARITY (bestehend aus den folgenden beiden Versionen: VARITY_R und VARITY_ER)62 und MTBAN63.

Von den 46 VEP-Methoden erfüllen 19 die Kriterien für die Bewertung anhand klinischer Benchmarks für Missense-Varianten (ClinVar und HGMD/gnomAD), da sie das Training in klinischen Datenbanken vermieden, Merkmale anderer Methoden verwendet haben, die auf solchen Daten trainiert wurden, oder die Allelfrequenz verwenden (Ergänzungstabelle). 2). DMS-Assays vermeiden dieses Problem der Datenlecks im Allgemeinen, daher haben wir alle 46 Methoden im DMS-Benchmark verglichen. Um eine unvoreingenommene Bewertung von VARITY im DMS-Benchmark zu ermöglichen, haben wir die in seinem Training enthaltenen Varianten ausgeschlossen (bereitgestellt im GitHub-Repository der Methode unter https://github.com/joewuca/varity). Sowohl VARITY als auch MTBAN wurden vom Vergleich der für alle Methoden verfügbaren DMS-Varianten ausgeschlossen (Abb. 3a), um eine signifikante Verringerung der Anzahl der Varianten und Gene zu verhindern. Konkret wurde VARITY auf fünf Gene (BRCA1, CBS, MSH2, MTHR und PTEN) trainiert und MTBAN vermisst drei weitere Gene (A4, SYUA und YAP1) der 11 Gene in diesem Vergleich. Im direkten Vergleich gegen ESM1b wurden beide Methoden noch berücksichtigt (Abb. 3c).

Während zahlreiche VEP-Methoden die Auswirkungen von Missense-Varianten vorhersagen (46 werden hier ausgewertet; Abb. 2 und 3), verarbeiten nur wenige Indel- und Stop-Gain-Varianten. Die überwiegende Mehrheit davon wurde auf klinischen Datenbanken wie ClinVar trainiert, was bei der Bewertung derselben Benchmarks zu Zirkularitätsproblemen führte. Daher verglichen wir ESM1b mit nur einer anderen VEP-Methode (CADD) über den ClinVar-Benchmark von In-Frame-Indels (Abb. 6b) und keiner über Stop-Gain-Varianten (Abb. 6d). Um einen Kontext für die Leistung von ESM1b bei diesen Benchmarks bereitzustellen, haben wir mehrere grundlegende Bewertungsalgorithmen berücksichtigt, die wir als vernünftige Basislinien betrachten.

Für In-Frame-Indels haben wir Basiswerte basierend auf den folgenden Faktoren berücksichtigt: (1) Bearbeitungsabstand, (2) paarweise Ausrichtung und (3) BlastP. Der Levenshtein-Bearbeitungsabstand bestimmt die minimale Anzahl von Einzelaminosäureoperationen (Insertionen, Deletionen oder Substitutionen), die erforderlich sind, um den WT in die mutierte Sequenz umzuwandeln. Der paarweise Alignment-Score spiegelt die Gesamtähnlichkeit zwischen dem WT und der mutierten Sequenz wider, nachdem sie ausgerichtet wurden (Match-Score = 2, Mismatch-Score = −1)64. BlastP verwendet denselben Ausrichtungsalgorithmus mit einem Bewertungssystem, das auch die unterschiedlichen Aminosäureneigungen berücksichtigt (mit BLOSUM62 (Ref. 65)) und Lücken in Panels unterteilt. Alle drei Bewertungen basieren auf der gleichen Prämisse: Je unterschiedlicher der WT und die mutierten Sequenzen sind, desto wahrscheinlicher ist es, dass das Indel schädlich ist.

Für Stop-Gain-Varianten haben wir die folgenden Basiswerte berücksichtigt: (1) die Anzahl der verlorenen Reste, (2) den Prozentsatz der verlorenen Reste (relativ zur WT-Sequenzlänge) und (3) die 50-bp-Regel. Wenn man die Anzahl oder den Prozentsatz der verlorenen Rückstände berücksichtigt, lässt sich davon ausgehen, dass größere verlorene Regionen eher schädlich sind. Die 50-bp-Regel besagt, dass ein Transkript nur dann wahrscheinlich einer NMD unterliegt, wenn ein Stoppcodon mehr als 50 Basenpaare stromaufwärts der letzten Exon-Verbindung innerhalb seiner kodierenden Region eingeführt wird45. Wir haben die 50-bp-Regel basierend auf Exon-Annotationen im menschlichen Genom angewendet (ergänzende Methoden). Im Gegensatz zu den anderen Basislinien, die kontinuierliche Bewertungen liefern, stellt die 50-bp-Regel binäre Beschriftungen bereit.

Beim Vergleich der Leistung von ESM1b mit der anderer VEP-Methoden über Benchmarks hinweg (Abb. 2b, g, h, 3c und 6b) wurde die statistische Signifikanz durch Permutationstests bestimmt. In jeder Iteration haben wir die von jeder Methode zugewiesenen Effektwerte zwischen den Benchmark-Varianten gemischt und die Ausgabemetrik (AUC-Wert oder Spearman-Korrelation) für ESM1b und die verglichene Methode neu berechnet. Der empirische einseitige P-Wert war der Bruchteil von 2.000 Iterationen, bei denen der Unterschied in der Ausgabemetrik genauso extrem war wie bei den tatsächlichen, nicht permutierten Effektwerten. Wenn keine Permutationen einen Unterschied ergaben, der so groß war wie der für die tatsächlichen Effektwerte gemessene, haben wir P < 0,001 angegeben.

Wir haben 46 VEP-Methoden, darunter ESM1b und EVE, anhand eines DMS-Benchmarks bewertet, der 28 Assays über 15 Gene umfasst. Wir haben den gleichen Satz menschlicher Gene wie in Lit. verwendet. 4 (ausgenommen Rhodopsin66 aufgrund nicht verfügbarer öffentlicher Daten) und fügte drei weitere Gene von MaveDB11 hinzu. Wir haben alle zugänglichen experimentellen Daten für diese Tests heruntergeladen (Ergänzungstabelle 1).

Während unserer gesamten Auswertung haben wir die rohen experimentellen Ergebnisse ohne weitere Verarbeitung für alle DMS verwendet, mit Ausnahme von CALM1, TPK1, RASH, TADBP und dem Häufigkeitstest von SYUA. Für diese Tests haben wir die Ergebnisse durch x → |x – xWT| transformiert, wobei xWT den für den gesamten Test gemessenen WT-Wert bezeichnet. Die Motivation für diese Transformation besteht darin, dass Varianten mit höheren Werten als WT in diesen Tests typischerweise als schädlich angesehen werden (siehe Diskussionen in Lit. 67,68). Da für SYUA Varianten mit geringerer Häufigkeit weniger toxisch sind, wurden die Häufigkeitswerte auf die gleiche Weise transformiert, um die Fitness besser widerzuspiegeln (ergänzende Abbildung 2 in Lit. 69). Diese Vorverarbeitung verbesserte die Leistung aller VEP-Methoden bei diesen Tests deutlich.

Für jeden Assay haben wir die Spearman-Rangkorrelation zwischen den Assay-Ergebnissen und den Vorhersagen der einzelnen VEP-Methoden berechnet. Anschließend haben wir diese Korrelationskoeffizienten pro Gen gemittelt, was mehrere Tests umfassen kann (Abb. 3b und Extended Data Abb. 1c und 2). Schließlich haben wir die Durchschnittswerte pro Gen gemittelt (Abb. 3a, c).

Alle in dieser Arbeit verwendeten Daten sind gemeinfrei (mit Ausnahme von HGMD, für das eine Zugriffsanfrage erforderlich ist). Die vollständigen Benchmark-Datensätze und der Python-Code für unseren ESM1b-basierten Workflow sind in unserem GitHub-Repository verfügbar (Datenverfügbarkeit und Codeverfügbarkeitserklärungen). Einzelheiten zu unserer statistischen Analyse finden Sie im Unterabschnitt „Testen auf signifikante Leistungsunterschiede“. Zur Vorbestimmung der Stichprobengröße wurde keine statistische Methode verwendet.

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Portfolio Reporting Summary.

Alle in dieser Studie verwendeten Daten sind bereits gemeinfrei, mit Ausnahme des HGMD-Datensatzes (https://www.hgmd.cf.ac.uk/ac/index.php), bei dem es sich um eine private Ressource im Besitz von handelt Institut für Medizinische Genetik der Universität Cardiff (Anfragen zum Zugriff auf diese Datenbank sollten an die Kuratoren gerichtet werden). ClinVar-Labels für Missense-, Indel- und Stop-Gain-Varianten wurden direkt von der ClinVar-Website heruntergeladen (https://ftp.ncbi.nlm.nih.gov/pub/clinvar/tab_delimited/variant_summary.txt.gz). Ein spezifischer ClinVar-Benchmark mit EVE-Scores wurde vom EVE-Portal (https://evemodel.org/) heruntergeladen. Einzelheiten zur Verarbeitung der Datensätze und Benchmarks finden Sie in den ergänzenden Methoden. Die vorhergesagten Effektwerte für die meisten VEP-Methoden wurden von dbNSFP (http://database.liulab.science/dbNSFP) heruntergeladen. Einzelheiten zu den übrigen VEP-Methoden finden Sie im Abschnitt „Andere VEP-Methoden“ unter „Methoden“. Wir stellen außerdem alle verarbeiteten Benchmarks mit Effektbewertungen aller in dieser Arbeit verglichenen VEP-Methoden in unserem GitHub-Repository zur Verfügung (Link unten). Alle Benchmark-Ergebnisse finden Sie in der Ergänzungstabelle 2. Der vollständige Katalog der von ESM1b vorhergesagten Varianteneffektwerte für alle möglichen Missense-Varianten, die sich auf kuratierte Proteinisoformen im menschlichen Genom auswirken, kann über unser Webportal unter https://huggingface.co/ durchsucht und heruntergeladen werden. space/ntranoslab/esm_variants.

Code zur Berechnung der Varianteneffekt-Scores mit unserem Framework und verarbeiteten Datendateien sind in unserem GitHub-Repository verfügbar (https://github.com/ntranoslab/esm-variants). Der gesamte Code und die Daten zur Erstellung der in dieser Studie präsentierten Analysen, Zahlen und Ergebnisse sind auf Zenodo70 verfügbar.

Brandes, N., Weissbrod, O. & Linial, M. Offene Probleme in der Genetik menschlicher Merkmale. Genombiol. 23, 131 (2022).

Artikel PubMed PubMed Central Google Scholar

Richards, S. et al. Standards und Richtlinien für die Interpretation von Sequenzvarianten: eine gemeinsame Konsensempfehlung des American College of Medical Genetics and Genomics und der Association for Molecular Pathology. Genet. Med. 17, 405–424 (2015).

Artikel PubMed PubMed Central Google Scholar

Rehm, HL & Fowler, DM Mit den Genomen Schritt halten: Skalierung der Interpretation genomischer Varianten. Genommed. 12, 5 (2019).

Artikel PubMed PubMed Central Google Scholar

Frazer, J. et al. Vorhersage von Krankheitsvarianten mit tiefen generativen Modellen evolutionärer Daten. Natur 599, 91–95 (2021).

Artikel CAS PubMed Google Scholar

Buniello, A. et al. Der NHGRI-EBI GWAS-Katalog veröffentlichter genomweiter Assoziationsstudien, gezielter Arrays und zusammenfassender Statistiken 2019. Nucleic Acids Res. 47, D1005–D1012 (2018).

Artikel PubMed Central Google Scholar

Hamosh, A., Scott, AF, Amberger, JS, Bocchini, CA & McKusick, VA Online Mendelian Inheritance in Man (OMIM), eine Wissensdatenbank über menschliche Gene und genetische Störungen. Nukleinsäuren Res. 33, D514–D517 (2005).

Artikel CAS PubMed Google Scholar

Finucane, HK et al. Partitionierung der Erblichkeit durch funktionale Annotation unter Verwendung genomweiter zusammenfassender Assoziationsstatistiken. Nat. Genet. 47, 1228–1235 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Brandes, N., Linial, N. & Linial, M. Genetische Assoziationsstudien zu Veränderungen der Proteinfunktion zeigen rezessive Auswirkungen auf die Krebsprädisposition. Wissenschaft. Rep. 11, 14901 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Gudmundsson, S. et al. Varianteninterpretation mithilfe von Populationsdatenbanken: Lehren aus gnomAD. Summen. Mutat. 43, 1012–1030 (2021).

Artikel PubMed PubMed Central Google Scholar

Landrum, MJ et al. ClinVar: öffentliches Archiv mit Interpretationen klinisch relevanter Varianten. Nukleinsäuren Res. 44, D862–D868 (2015).

Artikel PubMed PubMed Central Google Scholar

Esposito, D. et al. MaveDB: eine Open-Source-Plattform zur Verteilung und Interpretation von Daten aus Multiplex-Assays zum Varianteneffekt. Genombiol. 20, 223 (2019).

Artikel PubMed PubMed Central Google Scholar

Ursu, O. et al. Massiv parallele Phänotypisierung kodierender Varianten bei Krebs mit Perturb-seq. Nat. Biotechnologie. https://doi.org/10.1038/s41587-021-01160-7 (2022).

Boucher, JI, Bolon, DN & Tawfik, DS Quantifizierung und Verständnis der Fitnesseffekte von Proteinmutationen: Labor versus Natur. Proteinwissenschaft. 25, 1219–1226 (2016).

Artikel CAS PubMed PubMed Central Google Scholar

Hopf, TA et al. Aus Sequenz-Kovariation vorhergesagte Mutationseffekte. Nat. Biotechnologie. 35, 128–135 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Ng, PC SIFT: Vorhersage von Aminosäureveränderungen, die sich auf die Proteinfunktion auswirken. Nukleinsäuren Res. 31, 3812–3814 (2003).

Artikel CAS PubMed PubMed Central Google Scholar

Adzhubei, I., Jordan, DM & Sunyaev, SR Vorhersage der funktionellen Wirkung menschlicher Missense-Mutationen mithilfe von PolyPhen-2. Curr. Protokoll. Summen. Genet. 76, 7–20 (2013).

Google Scholar

Rentzsch, P., Witten, D., Cooper, GM, Shendure, J. & Kircher, M. CADD: Vorhersage der Schädlichkeit von Varianten im gesamten menschlichen Genom. Nukleinsäuren Res. 47, D886–D894 (2019).

Artikel CAS PubMed Google Scholar

Boutet, E. et al. UniProtKB/Swiss-Prot, der manuell kommentierte Abschnitt der UniProt KnowledgeBase: Verwendung der Eintragsansicht. Methoden Mol. Biol. 1374, 23–54 (2016).

Artikel CAS PubMed Google Scholar

Ofer, D., Brandes, N. & Linial, M. Die Sprache der Proteine: NLP, maschinelles Lernen und Proteinsequenzen. Berechnen. Struktur. Biotechnologie. J. 19, 1750–1758 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Rives, A. et al. Biologische Strukturen und Funktionen entstehen durch die Skalierung des unbeaufsichtigten Lernens auf 250 Millionen Proteinsequenzen. Proz. Natl Acad. Wissenschaft. USA 118, e2016239118 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Elnaggar, A. et al. CodeTrans: Auf dem Weg zum Knacken der Sprache des Siliziumcodes durch selbstüberwachtes Deep Learning und Hochleistungsrechnen. Vorabdruck bei arXiv https://doi.org/10.48550 (2021).

Strodthoff, N., Wagner, P., Wenzel, M. & Samek, W. UDSMProt: Universelle Tiefensequenzmodelle für die Proteinklassifizierung. Bioinformatik 36, 2401–2409 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Alley, EC, Khimulya, G., Biswas, S., AlQuraishi, M. & Church, GM Einheitliches rationales Protein-Engineering mit sequenzbasiertem Deep-Representation-Learning. Nat. Methoden 16, 1315–1322 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Brandes, N., Ofer, D., Peleg, Y., Rappoport, N. & Linial, M. ProteinBERT: ein universelles Deep-Learning-Modell der Proteinsequenz und -funktion. Bioinformatik 38, 2102–2110 (2022).

Artikel CAS PubMed PubMed Central Google Scholar

Meier, J. et al. Sprachmodelle ermöglichen eine Zero-Shot-Vorhersage der Auswirkungen von Mutationen auf die Proteinfunktion. Vorabdruck bei bioRxiv https://doi.org/10.1101/2021.07.09.450648 (2021).

Stenson, PD et al. Human Gene Mutation Database (HGMD): Aktualisierung 2003. Summen. Mutat. 21, 577–581 (2003).

Artikel CAS PubMed Google Scholar

Allison, R., Edgar, JR & Reid, E. Spastin MIT-Domänen-Krankheits-assoziierte Mutationen stören die lysosomale Funktion. Vorderseite. Neurosci. 13, 1179 (2019).

Artikel PubMed PubMed Central Google Scholar

Nava, C. et al. Hypomorphe Varianten des kationischen Aminosäuretransporters 3 bei Männern mit Autismus-Spektrum-Störungen. Aminosäuren 47, 2647–2658 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Shoubridge, C., Tan, MH, Seiboth, G. & Gecz, J. ARX-Homöodomänenmutationen heben die DNA-Bindung auf und führen zu einem Verlust der Transkriptionsrepression. Summen. Mol. Genet. 21, 1639–1647 (2012).

Artikel CAS PubMed Google Scholar

Bienvenu, T. et al. ARX, ein neuartiges Homöobox-Gen der Prd-Klasse, das stark im Telencephalon exprimiert wird, ist bei X-chromosomaler geistiger Behinderung mutiert. Summen. Mol. Genet. 11, 981–991 (2002).

Artikel CAS PubMed Google Scholar

Marques, I. et al. Aufklärung der Pathogenese von ARX-Polyalanin-Trakt-Varianten mithilfe eines klinischen und molekularen Schnittstellenansatzes. Mol. Genet. Genom. Med. 3, 203–214 (2015).

Artikel CAS Google Scholar

Cho, G., Nasrallah, MP, Lim, Y. & Golden, JA Hypomorphe Varianten des kationischen Aminosäuretransporters 3 bei Männern mit Autismus-Spektrum-Störungen. Aminosäuren 13, 23–29 (2012).

CAS Google Scholar

Liu, Genommed. 12, 1–8 (2020).

Artikel Google Scholar

Eyre-Walker, A. & Keightley, PD Hohe genomisch schädliche Mutationsraten bei Hominiden. Nature 397, 344–347 (1999).

Artikel CAS PubMed Google Scholar

Kryukov, GV, Pennacchio, LA & Sunyaev, SR Die seltensten Missense-Allele sind beim Menschen schädlich: Auswirkungen auf komplexe Krankheits- und Assoziationsstudien. Bin. J. Hum. Genet. 80, 727–739 (2007).

Artikel CAS PubMed PubMed Central Google Scholar

Bourdon, J.-C. et al. p53-Isoformen können die Transkriptionsaktivität von p53 regulieren. Genes Dev. 19, 2122–2137 (2005).

Artikel CAS PubMed PubMed Central Google Scholar

Toledo, RA et al. Neuartige MEN1-Keimbahnmutationen in brasilianischen Familien mit multipler endokriner Neoplasie Typ 1. Clin. Endokrinol. 67, 377–384 (2007).

Artikel CAS Google Scholar

Huang, J. et al. Die gleiche Tasche im Menin bindet sowohl MLL als auch JUND, hat jedoch entgegengesetzte Auswirkungen auf die Transkription. Natur 482, 542–546 (2012).

Artikel CAS PubMed PubMed Central Google Scholar

Cebrian, A. et al. Mutations- und grobe Deletionsstudie des MEN1-Gens und Korrelation mit klinischen Merkmalen bei spanischen Patienten. J. Med. Genet. 40, e72 (2003).

Artikel CAS PubMed PubMed Central Google Scholar

Martín-Campos, JM et al. Molekulare Pathologie der multiplen endokrinen Neoplasie Typ I: zwei neue Keimbahnmutationen und aktualisierte Klassifizierung von Mutationen, die das MEN1-Gen betreffen. Diag. Mol. Pathol. 8, 195–204 (1999).

Artikel PubMed Google Scholar

Agarwal, SK et al. Menin interagiert mit dem AP1-Transkriptionsfaktor JunD und unterdrückt die JunD-aktivierte Transkription. Zelle 96, 143–152 (1999).

Artikel CAS PubMed Google Scholar

Klein, RD, Salih, S., Bessoni, J. & Bale, AE Klinische Tests auf multiple endokrine Neoplasie Typ 1 in einem DNA-Diagnoselabor. Genet. Med. 7, 131–138 (2005).

Artikel CAS PubMed Google Scholar

Ehrlich, L. et al. Die Hemmung von miR-24 erhöht die Meninexpression und verringert die Proliferation von Cholangiokarzinomen. Bin. J. Pathol. 187, 570–580 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Jumper, J. et al. Hochpräzise Vorhersage der Proteinstruktur mit AlphaFold. Natur 596, 583–589 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Nagy, E. & Maquat, LE Eine Regel für die Position des Terminationscodons in intronhaltigen Genen: Wenn Unsinn die RNA-Häufigkeit beeinflusst. Trends Biochem. Wissenschaft. 23, 198–199 (1998).

Artikel CAS PubMed Google Scholar

Notin, P. et al. Tranzeption: Vorhersage der Proteinfitness mit autoregressiven Transformatoren und Abruf der Inferenzzeit. In Proc. 39. Internationale Konferenz zum maschinellen Lernen (PMLR, 2022).

Notin, PM et al. TranceptEVE: Kombination familienspezifischer und familienagnostischer Modelle von Proteinsequenzen für eine verbesserte Fitnessvorhersage. Vorabdruck bei bioRxiv https://doi.org/10.1101/2022.12.07.519495 (2022).

Cummings, BB et al. Transkriptausdrucksbewusste Annotationen verbessern die Interpretation seltener Varianten. Natur 581, 452–458 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Lonsdale, J. et al. Das Genotype-Tissue Expression (GTEx)-Projekt. Nat. Genet. 45, 580–585 (2013).

Artikel CAS Google Scholar

Dunham, AS, Beltrao, P. & AlQuraishi, M. Hochdurchsatz-Deep-Learning-Varianteneffektvorhersage mit Sequence UNET. Genombiol. 24, 110 (2023).

Livesey, BJ & Marsh, JA Aktualisiertes Benchmarking von Prädiktoren für Varianteneffekte mithilfe von Deep Mutational Scanning. Mol. Syst. Biol. 19, e11474 (2023).

Starita, LM et al. Ein durch Multiplex-Homologie gesteuerter DNA-Reparaturtest zeigt den Einfluss von mehr als 1.000 BRCA1-Missense-Substitutionsvarianten auf die Proteinfunktion. Bin. J. Hum. Genet. 103, 498–508 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Nicora, G., Zucca, S., Limongelli, I., Bellazzi, R. & Magni, P. Ein maschineller Lernansatz basierend auf ACMG/AMP-Richtlinien für die Klassifizierung und Priorisierung genomischer Varianten. Wissenschaft. Rep. 12, 2517 (2022).

Artikel CAS PubMed PubMed Central Google Scholar

Tavtigian, SV et al. Modellierung der ACMG/AMP-Variantenklassifizierungsrichtlinien als Bayes'sches Klassifizierungsrahmenwerk. Genet. Med. 20, 1054–1060 (2018).

Artikel PubMed PubMed Central Google Scholar

Tavtigian, SV, Harrison, SM, Boucher, KM & Biesecker, LG Anpassung eines natürlich skalierten Punktesystems an die ACMG/AMP-Variantenklassifizierungsrichtlinien. Summen. Mutat. 41, 1734–1737 (2020).

Artikel PubMed PubMed Central Google Scholar

Hie, BL et al. Effiziente Evolution menschlicher Antikörper allein anhand allgemeiner Proteinsprachmodelle und Sequenzinformationen. Nat. Biotechnologie. https://doi.org/10.1038/s41587-023-01763-2 (2023).

Rao, R. et al. Bewertung des Proteintransferlernens mit TAPE. Adv. Neuronale Inf. Verfahren. Syst. 32, 9689 (2019).

PubMed PubMed Central Google Scholar

Thoppilan, R. et al. Lamda: Sprachmodelle für Dialoganwendungen. Vorabdruck bei arXiv https://doi.org/10.48550/arXiv.2201.08239 (2022).

Bubeck, S. et al. Funken künstlicher allgemeiner Intelligenz: frühe Experimente mit gpt-4. Vorabdruck bei arXiv https://doi.org/10.48550/arXiv.2303.12712 (2023).

Nijkamp, ​​E., Ruffolo, J., Weinstein, EN, Naik, N. & Madani, A. ProGen2: Erforschung der Grenzen von Proteinsprachmodellen. Vorabdruck bei arXiv https://doi.org/10.48550/arXiv.2206.13517 (2022).

Pedregosa, F. et al. Scikit-learn: Maschinelles Lernen in Python. J. Mach. Lernen. Res. 12, 2825–2830 (2011).

Google Scholar

Wu, Y. et al. Verbesserte Pathogenitätsvorhersage für seltene menschliche Missense-Varianten. Bin. J. Hum. Genet. 108, 1891–1906 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Kim, HY, Jeon, W. & Kim, D. Ein verbesserter Varianteneffekt-Prädiktor basierend auf einem tiefen generativen Modell und den wiedergeborenen Netzwerken. Wissenschaft. Rep. 11, 19127 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Cock, PJA et al. Biopython: frei verfügbare Python-Tools für computergestützte Molekularbiologie und Bioinformatik. Bioinformatik 25, 1422–1423 (2009).

Artikel CAS PubMed PubMed Central Google Scholar

Henikoff, S. & Henikoff, JG Aminosäuresubstitutionsmatrizen aus Proteinblöcken. Proz. Natl Acad. Wissenschaft. USA 89, 10915–10919 (1992).

Artikel CAS PubMed PubMed Central Google Scholar

Penn, WD et al. Untersuchung biophysikalischer Sequenzbeschränkungen innerhalb der Transmembrandomänen von Rhodopsin durch tiefes Mutationsscannen. Wissenschaft. Adv. 6, eaay7505 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Weile, J. et al. Ein Framework zur umfassenden Abbildung funktionaler Missense-Varianten. Mol. Syst. Biol. 13, 957 (2017).

Artikel PubMed PubMed Central Google Scholar

Bandaru, P. et al. Dekonstruktion des Ras-Schaltzyklus durch Sättigungsmutagenese. eLife 6, e27810 (2017).

Artikel PubMed PubMed Central Google Scholar

Newberry, RW, Leong, JT, Chow, ED, Kampmann, M. & DeGrado, WF Deep Mutational Scanning enthüllt die strukturelle Basis für die α-Synuclein-Aktivität. Nat. Chem. Biol. 16, 653–659 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Brandes, N. & Ntranos, V. ESM-Varianten – Daten und Code für Analysen und Zahlen. Zenodo https://doi.org/10.5281/zenodo.8088402 (2023).

Referenzen herunterladen

Wir möchten P. Stenson, M. Mort und D. Cooper von der Cardiff University für den Zugriff auf die HGMD-Datenbank danken. Wir möchten uns auch bei unseren Geldgebern bedanken. CJY wird durch die NIH-Zuschüsse R01AR071522, R01AI136972, U01HG012192 und R01HG011239 sowie die Chan Zuckerberg Initiative unterstützt und ist Forscher am Chan Zuckerberg Biohub und Mitglied des Parker Institute for Cancer Immunotherapy (PICI). NB ist ein Stipendiat des Cancer Research Institute Irvington, der vom Cancer Research Institute (CRI4499) unterstützt wird. Die Geldgeber hatten keinen Einfluss auf das Studiendesign, die Datenerfassung und -analyse, die Entscheidung zur Veröffentlichung oder die Erstellung des Manuskripts.

Abteilung für Rheumatologie, Abteilung für Medizin, University of California, San Francisco, San Francisco, CA, USA

Nadav Brandes & Chun Jimmie Ye

Graduiertenprogramm für biologische und medizinische Informatik, University of California, San Francisco, San Francisco, CA, USA

Grant Goldman

Graduiertenprogramm für Biomedizinische Wissenschaften, University of California, San Francisco, San Francisco, CA, USA

Charlotte H. Wang

Bakar Computational Health Sciences Institute, University of California, San Francisco, San Francisco, CA, USA

Chun Jimmie Ye & Vasilis Ntranos

Parker Institute for Cancer Immunotherapy, University of California, San Francisco, San Francisco, CA, USA

Chun Jimmie Ye

Gladstone-UCSF Institute of Genomic Immunology, San Francisco, CA, USA

Chun Jimmie Ye

Institut für Humangenetik, University of California, San Francisco, San Francisco, CA, USA

Chun Jimmie Ye

Abteilung für Epidemiologie und Biostatistik, University of California, San Francisco, San Francisco, CA, USA

Chun Jimmie Ye & Vasilis Ntranos

Abteilung für Bioingenieurwesen und Therapiewissenschaften, University of California, San Francisco, San Francisco, CA, USA

Chun Jimmie Ye & Vasilis Ntranos

Diabetes Center, University of California, San Francisco, San Francisco, CA, USA

Vasilis Ntranos

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

VN hat das Projekt konzipiert. NB und VN haben das ESM1b-basierte VEP-Framework entworfen. NB, GG und CHW haben die Benchmarks erstellt. NB und VN bewerteten die Leistung von ESM1b und anderen Methoden im Vergleich zu den Benchmarks. NB und VN haben die Zahlen erstellt. NB, CJY und VN interpretierten die Ergebnisse. GG war bei der Literaturrecherche behilflich. NB, CJY und VN haben den Originalentwurf des Manuskripts geschrieben. Alle Autoren haben das Manuskript überprüft und bearbeitet. CJY und VN betreuten das Projekt.

Korrespondenz mit Chun Jimmie Ye oder Vasilis Ntranos.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Nature Genetics dankt den anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

(a) ROC-Kurven von ESM1b und EVE als binäre Klassifikatoren der Variantenpathogenität über ClinVar (links) und HGMD/gnomAD (rechts). Die Richtig-Positiv-Rate bei der standardmäßigen Falsch-Positiv-Rate (0,05) wird über alle 4 Kurven hinweg mit Anmerkungen versehen. (b) Auswertung von EVE (linke Balkendiagramme) und ESM1b (rechte Balkendiagramme) über ClinVar (obere Felder) und HGMD/gnomAD (untere Felder) unter Verwendung entweder des globalen ROC-AUC (rot) oder des gendurchschnittlichen ROC-AUC (gelbe) Metrik (siehe den entsprechenden Abschnitt in den Methoden). Für jeden Datensatz zeigen wir die Ergebnisse entweder für den vollständigen Datensatz (linke Felder) oder für die Teilmengen der Varianten in langen (mittleren Feldern) oder kurzen (rechten Feldern) Proteinen (definiert durch einen Schwellenwert von 1.022aa, dem maximalen Fenster). von ESM1b unterstützte Länge; siehe Methoden). Gestrichelte Linien: die höchste Punktzahl (erreicht durch ESM1b oder EVE) gemäß jeder der beiden Metriken. (c) Auswertung von ESM1b und EVE anhand von Deep-Mutational-Scan-Datensätzen für jeden der 28 Tests (die in Abb. 3b pro Gen aggregiert wurden).

DMS-Ergebnisse pro Gen für die 9 VEP-Methoden, die gemäß dem direkten Vergleich in der Leistung ESM1b am nächsten kommen (Abb. 3c). Die Anzahl der von jeder VEP-Methode bewerteten eindeutigen Varianten der insgesamt 76.133 Varianten im vollständigen DMS-Datensatz wird in eckigen Klammern neben den Methodennamen angezeigt. Die Anzahl der Varianten pro Gen ist in Klammern neben den Gennamen angegeben.

In Grau: die Verteilung der ESM1b-PLLR-Effektwerte über Indels in ClinVar, annotiert als Varianten unsicherer Signifikanz (VUS). Wir haben den Anteil pathogener und gutartiger Varianten unter diesen VUS-Indels geschätzt, indem wir die VUS-Verteilung der Effektwerte als eine Mischung der Verteilungen über pathogene und gutartige Varianten (Abb. 6a) zerlegt haben, die durch Kerndichteschätzung angenähert wurden. Rote und blaue Kurven: die Mischungskomponenten der Bewertung der pathogenen bzw. gutartigen Wirkung. Schwarz gestrichelte Kurve: die Summe der pathogenen (rot) und gutartigen (blau) Komponenten als Schätzung der empirischen Verteilung von VUS (grau).

Getestete ESM-Modelle: ESM1b, ESM1, die fünf ESM1v-Modelle und eine Zusammenstellung der fünf ESM1v-Modelle in einem einzigen Modell, wobei die von den fünf Modellen erzielten LLR-Werte gemittelt werden (ESM1v-avg). (a) Leistung der verschiedenen ESM-Modelle bei den klinischen Benchmarks (ClinVar und HGMD/gnomAD). Jedes Modell wurde als binärer Klassifikator pathogener vs. gutartiger Missense-Varianten über die beiden Benchmarks unter Verwendung der globalen ROC-AUC-Metrik bewertet. Bei dieser Bewertung wurden nur Proteine ​​berücksichtigt, die kleiner als 1.022 aa sind (wodurch der Sliding-Window-Ansatz vermieden wurde). (b) Leistung der ESM-Modelle im DMS-Benchmark.

(a) Die Variantengewichte über die Koordinaten jedes Fensters (1 ≤ i ≤ 1022), definiert durch die Funktion: w(i) = 1 / (1 + exp(-(i-128)/16) für 1 ≤ i < 256 , w(i) = 1 für 256 ≤ i < 1022-256 und w(i) = 1/(1 + exp((i-1022 + 128)/16) für 1022-256 ≤ i ≤ 1022. (b ) Ein Beispiel für die Kachelung einer Proteinsequenz mit einer Länge von 1.479aa. Links: rohe Fenstergewichte (wie in (a)). Rechts: normalisierte Gewichte (Summierung zu 1 an jeder Proteinposition). (c) Beispiel dafür, wie ein bestimmtes Protein Isoform (UniProt ID Q7Z460-5) ist gekachelt. Oberes Feld: ESM1b-Effektwerte über das linke Fenster (1 ≤ i ≤ 1022; orange), das rechte Fenster (458 ≤ i ≤ 1479; grün) und den gesamten endgültigen gewichteten Durchschnitt die gesamte Länge des Proteins (blau). Mitte: ESM1b-Effekt-Scores über dem linken Fenster. Unten: ESM1b-Effekt-Scores über dem rechten Fenster. (d) Ein Beispiel für die Kachelung einer größeren Proteinsequenz der Länge 3.703aa, wie in (b). Oben: die Positionen der 7 Fenster, die zum Kacheln der Sequenz verwendet werden. Mitte: rohe Fenstergewichte. Unten: normalisierte Gewichte. (e) Beispiel dafür, wie ein bestimmtes Protein (UniProt ID Q15911) gekachelt wird, wie in (c). Wie in den beiden Beispielen gezeigt, sind die Effektbewertungen in der Regel über verschiedene Fenster hinweg konsistent (wobei Randeffekte manchmal ausgeprägter sind).

(a) Auswertung als binäre Klassifikatoren der Variantenpathogenität über den ClinVar-Datensatz (globale ROC-AUC-Metrik). (b) Auswertung über kurze Proteine ​​(640 bis 900aa), durch Vergleich der Ergebnisse, die durch die Verarbeitung der gesamten Sequenzen durch ein einzelnes Fenster im Vergleich zu mehreren Fenstern erhalten wurden. Für den Vergleich der Ergebnisse werden drei Metriken berücksichtigt: Spearman-Korrelation (links), mittlerer quadratischer Fehler (Mitte) oder 95. Perzentil der absoluten Differenz (rechts). Der Vergleich wurde über 500 zufällig ausgewählte Proteine ​​mit einer Länge von 640 bis 900 aa durchgeführt. Um unterschiedliche Fenstergrößen mit dem gewichteten Durchschnittsansatz zu berücksichtigen, haben wir den Bereich der Sigmoidfunktion (beschrieben in Extended Data Abb. 5) proportional zur Fenstergröße neu skaliert. Punkte entlang der Kurven entsprechen den mittleren metrischen Werten über die 500 Proteine; Fehlerbalken entsprechen 95 %-Konfidenzintervallen für die Mittelwerte.

Ergänzende Tabelle 1 und Methoden.

Vollständige Benchmark-Bewertungen von ESM1b und allen anderen Methoden.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Brandes, N., Goldman, G., Wang, CH et al. Genomweite Vorhersage von Krankheitsvarianteneffekten mit einem tiefen Proteinsprachenmodell. Nat Genet (2023). https://doi.org/10.1038/s41588-023-01465-0

Zitat herunterladen

Eingegangen: 08. August 2022

Angenommen: 05. Juli 2023

Veröffentlicht: 10. August 2023

DOI: https://doi.org/10.1038/s41588-023-01465-0

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Naturgenetik (2023)