Category: HealthTech & Daten

  • KI-Modell überbrückt Sprachbarriere bei klinischen Daten aus den USA und Frankreich

    KI-Modell überbrückt Sprachbarriere bei klinischen Daten aus den USA und Frankreich

    Zum ersten Mal gelingt es einem KI-Modell, elektronische Patientendaten aus US-amerikanischen und französischen Kliniken gemeinsam auszuwerten – ohne Rohdaten zu übertragen, ohne Datenschutzregeln zu verletzen. Die Studie, erschienen in Nature Communications, könnte die internationale medizinische Forschung grundlegend neu ausrichten.

    KI-Modell überbrückt Sprachbarriere bei klinischen Daten aus den USA und Frankreich

    Unterschiedliche Systeme, ein gemeinsames Modell

    Elektronische Patientenakten – im Fachjargon Electronic Health Records (EHR) – sind in verschiedenen Ländern strukturell sehr unterschiedlich aufgebaut. In den USA dominieren Systeme wie Epic oder Cerner, die auf ICD-10-Codes und CPT-Prozedurschlüsseln basieren. Französische Kliniken arbeiten hingegen mit eigenen nationalen Klassifikationen sowie Dokumentation in französischer Sprache. Diese Heterogenität hat internationale Forschungskooperationen bislang erheblich erschwert.

    Das Forscherteam – bestehend aus Wissenschaftlern der Harvard Medical School, des Veterans Affairs Boston Healthcare System sowie mehrerer französischer Universitätskliniken – entwickelte ein sogenanntes Representation-Learning-Verfahren. Dabei werden Patientendaten aus beiden Ländern in einen gemeinsamen mathematischen Vektorraum überführt, der länderspezifische Unterschiede in der Kodierung und Sprache auflöst, ohne die Rohdaten zu übertragen.

    Technischer Ansatz ohne Datentransfer

    Besonders relevant ist der datenschutzkonforme Ansatz des Modells: Die eigentlichen Patientendaten verlassen zu keinem Zeitpunkt die jeweiligen Kliniksysteme. Stattdessen werden sogenannte Embeddings – komprimierte Darstellungen klinischer Konzepte – trainiert und ausgetauscht.

    Dieses Prinzip des Federated Learning gilt als vielversprechender Weg, um die strengen Datenschutzanforderungen sowohl der US-amerikanischen HIPAA-Regulierung als auch der europäischen DSGVO gleichzeitig einzuhalten.

    Das Modell wurde anhand mehrerer klinischer Anwendungsfälle validiert, darunter die Identifikation von Patienten mit Multipler Sklerose sowie rheumatoider Arthritis. In beiden Szenarien zeigte das gemeinsam trainierte Modell eine bessere Vorhersageleistung als Ansätze, die nur auf nationalen Daten basierten – ein Hinweis darauf, dass die Zusammenführung heterogener Datensätze die Generalisierbarkeit klinischer KI-Modelle verbessert.

    Methodische Blaupause für multi-institutionelle Studien

    Die Autoren betonen, dass es sich weniger um ein fertiges Produkt als um eine methodische Blaupause handelt. Das Framework soll künftigen Forschungskonsortien als Grundlage dienen, um EHR-Daten aus verschiedenen Ländern zu kombinieren, ohne dabei institutionelle oder regulatorische Grenzen zu verletzen. Die Studie ist im Open-Access-Format erschienen und stellt den Code öffentlich bereit.

    Limitierungen bleiben: Die Studie umfasst bislang nur zwei Länder mit vergleichsweise gut strukturierten Gesundheitsdatensystemen. Eine Ausweitung auf Länder mit fragmentierter Dateninfrastruktur – etwa in Teilen Südostasiens oder Subsahara-Afrikas – wäre methodisch deutlich anspruchsvoller.

    Einordnung für deutsche Unternehmen und Einrichtungen

    Für deutsche Krankenhäuser, Forschungseinrichtungen und HealthTech-Unternehmen ist die Studie aus mehreren Gründen relevant:

    • Sie zeigt einen praktikablen Weg, wie internationale Kooperationen unter DSGVO-Bedingungen technisch umsetzbar sind.
    • Das Representation-Learning-Framework liefert eine Grundlage für eigenständige Anwendungen im deutschen Gesundheitswesen – etwa im Kontext der NFDI4Health oder des geplanten European Health Data Space (EHDS).

    Unternehmen, die KI-gestützte Diagnostik oder klinische Entscheidungsunterstützung entwickeln, sollten diesen methodischen Ansatz als Referenzpunkt für regulatorisch konforme, grenzüberschreitende Modellentwicklung in Betracht ziehen.


    Quelle: Nature Communications