Biologische Sprachmodelle galten lange als Domäne ressourcenstarker Forschungsinstitute. Ein Open-Source-Team zeigt nun, dass sich mRNA-Modelle für gerade einmal 165 US-Dollar trainieren lassen – und stellt damit etablierte Annahmen über die Einstiegshürden in der Biotech-Forschung grundlegend in Frage.
mRNA-Sprachmodelle für 165 Dollar: Open-Source-Ansatz senkt Einstiegshürden in der Biotech-Forschung
Ein Forscherteam des OpenMed-Projekts hat auf der Plattform Hugging Face dokumentiert, wie sich biologische Sprachmodelle für mRNA-Sequenzen über 25 Spezies hinweg zu Kosten von 165 US-Dollar trainieren lassen. Das Vorhaben zeigt, dass rechenintensive Aufgaben in der Molekularbiologie nicht länger ausschließlich großen Institutionen mit entsprechenden Rechenbudgets vorbehalten sind.
Von der Struktur zur optimierten Sequenz
Der Beitrag von Maziyar Panahi beschreibt den zweiten Teil einer Arbeitspipeline, die mehrere spezialisierte KI-Werkzeuge miteinander verknüpft. Ausgangspunkt ist die Vorhersage von Proteinstrukturen mithilfe von ESMFold – einem Large Language Model aus dem Haus Meta, das dreidimensionale Proteinstrukturen aus Aminosäuresequenzen ableitet. Im beschriebenen Experiment wurden 30 Proteinketten analysiert.
Auf dieser Basis übernimmt ProteinMPNN die sogenannte Sequenzgestaltung: Das Modell schlägt DNA- beziehungsweise Aminosäuresequenzen vor, die eine zuvor definierte Zielstruktur möglichst präzise reproduzieren. Im letzten Schritt folgt die Codon-Optimierung, bei der die kodierenden Sequenzen so angepasst werden, dass sie in einem bestimmten Wirtsorganismus effizient exprimiert werden können – ein zentraler Schritt bei der Entwicklung therapeutischer mRNA-Moleküle.
Die dreistufige Pipeline aus Strukturvorhersage, Sequenzgestaltung und Codon-Optimierung bildet den methodischen Kern des Ansatzes – und lässt sich nun erstmals vollständig auf Consumer-Niveau replizieren.
Architektur und Trainingsaufwand
Für das eigentliche Training der mRNA-Sprachmodelle testete das Team mehrere Modellarchitekturen und evaluierte deren Leistung auf dem gemeinsamen Datensatz aus 25 Spezies. Die Gesamtkosten von 165 Dollar beziehen sich auf die genutzten Cloud-Rechenressourcen.
Vergleichbare proprietäre Forschungsprojekte in der Pharmaindustrie bewegen sich bei der Nutzung kommerzieller GPU-Cluster typischerweise in einem vielfach höheren Kostenrahmen – selbst für Pilotexperimente.
Die eingesetzten Modelle und Trainingsdaten werden über Hugging Face öffentlich bereitgestellt, was eine direkte Nachnutzung und Weiterentwicklung durch Dritte ermöglicht. Der Ansatz folgt dem Prinzip offener Wissenschaft, das in der bioinformatischen Community unter dem Stichwort Open Science zunehmend an Bedeutung gewinnt.
Einordnung: Citizen Science trifft auf Drug Design
Was auf den ersten Blick wie ein akademisches Experiment wirkt, berührt einen strategisch relevanten Bereich der Pharmaindustrie. Die Entwicklung von mRNA-basierten Therapeutika – nach dem Erfolg der COVID-19-Impfstoffe ein stark wachsendes Feld – erfordert präzise Sequenzoptimierung und verlässliche Struktur-Funktions-Vorhersagen. Beide Schritte lassen sich mit dem beschriebenen Ansatz zumindest prototypisch automatisieren.
Gleichzeitig gilt es, die Grenzen des Vorhabens klar zu benennen:
Ein Training für 165 Dollar liefert noch keine klinisch validierten Ergebnisse. Die beschriebenen Modelle sind Ausgangspunkte für Forschungshypothesen – keine fertigen Entwicklungswerkzeuge.
Qualitätssicherung, regulatorische Anforderungen und experimentelle Validierung bleiben zwingend notwendige Folgeschritte.
Relevanz für deutschsprachige Unternehmen
Für Biotech-Startups und forschende Mittelständler im deutschsprachigen Raum, die mRNA-basierte Ansätze explorieren, liefert die Veröffentlichung einen praktischen Orientierungsrahmen. Die offengelegte Pipeline aus ESMFold, ProteinMPNN und biologischen Sprachmodellen kann als Blaupause dienen, um eigene Proof-of-Concept-Studien kostengünstig aufzusetzen, bevor größere Ressourcen in dedizierte Infrastruktur oder kommerzielle Plattformlösungen fließen.
Angesichts des steigenden Drucks auf F&E-Budgets dürfte dieser Aspekt in den kommenden Monaten auch die Beschaffungsdiskussionen in etablierten Pharmaunternehmen beeinflussen.
Quelle: HuggingFace Blog – Training mRNA Models Across 25 Species

Leave a Reply