Gastbeitrag

LLM-Test in Klinik

KI-Triage in der Notaufnahme: Studie mit echten Klinikdaten

KI trifft in der Notaufnahme auf die Realität: unvollständige Daten, Zeitdruck und komplexe Entscheidungen. Eine aktuelle Studie zeigt, wie stark die Leistung großer Sprachmodelle davon abhängt, wie sie eingesetzt werden – und warum sie trotz vielversprechender Ergebnisse noch kein Ersatz, sondern eher ein strukturierender Copilot im klinischen Alltag sind.

Ärztliches Fachpersonal mit Tablet und digitalem Gesundheits-Symbol als Sinnbild für KI in der Medizin.

12.06.2026

In der Notaufnahme entscheidet die Triage darüber, wer sofort behandelt werden muss, wer warten kann und wer möglicherweise besser in einer ambulanten Akutversorgung aufgehoben ist. Diese Entscheidung entsteht selten unter idealen Bedingungen: Beschwerden sind unspezifisch, Vorbefunde fehlen, Dokumentationen sind unterschiedlich ausführlich, und zugleich herrscht Zeitdruck. Gerade deshalb ist die Notaufnahme ein besonders realistischer Prüfstein für große Sprachmodelle. Denn dort zeigt sich, ob KI nicht nur kuratierte Lehrbuchfälle lösen kann, sondern auch mit unvollständigen und widersprüchlichen Routinedaten zurechtkommt. Kardiologische Leitsymptome wie Brustschmerz, Luftnot, Schwindel oder Synkope machen diese Herausforderung besonders deutlich: Nicht jeder Brustschmerz ist ein Herzinfarkt – aber der gefährliche Fall darf nicht übersehen werden.

ESI-Vergleich zwischen KI und Pflegekräften

In einer Studie haben wir 16 Modellkonfigurationen an einem realen Datensatz einer universitären Notaufnahme getestet. Eingeschlossen waren 16.107 erwachsene Patientinnen und Patienten, die sich selbstständig vorgestellt hatten. Die Modelle sollten anhand dokumentierter Beschwerden, Vitalzeichen und Zusatzinformationen eine Dringlichkeitsstufe nach dem Emergency Severity Index, kurz ESI, vergeben. ESI 1 steht dabei für höchste, ESI 5 für niedrige Dringlichkeit. Verglichen wurden die Ergebnisse mit der Einschätzung spezialisierter Triage-Pflegekräfte. Die Übereinstimmung schwankte erheblich: Das gewichtete Kappa – ein Maß für Übereinstimmung, bei dem 1 perfekte Übereinstimmung und 0 etwa Zufall bedeutet – lag je nach Modell zwischen 0,18 und 0,75. Ein Standardansatz erreichte nur eine moderate Übereinstimmung von etwa 0,50. Am besten schnitt ein Ansatz ab, der das Modell nicht frei entscheiden ließ, sondern es schrittweise durch den ESI-Algorithmus führte. Dieser erreichte ein Kappa von 0,75 und kam damit in die Nähe menschlicher Vergleichswerte.

Die Mitte ist besonders schwierig

Die zentrale Lehre daraus ist: In der klinischen Anwendung zählt nicht nur, welches Modell verwendet wird, sondern wie es eingesetzt wird. Große Sprachmodelle profitieren von Struktur. Werden sie entlang etablierter Entscheidungswege geführt (zunächst lebensbedrohliche Zeichen, dann Risikokonstellationen, Vitalparameter und erwartete Ressourcen), werden ihre Einschätzungen deutlich zuverlässiger. Besonders schwierig blieben jedoch die häufigen mittleren Dringlichkeitskategorien. ESI 3 und ESI 4 wurden oft verwechselt. Das ist klinisch nachvollziehbar: Viele Patientinnen und Patienten sind nicht eindeutig kritisch, aber auch nicht eindeutig harmlos. Genau diese Grauzonen prägen den Alltag, etwa bei unklarer Luftnot, atypischem Brustschmerz oder kurzzeitiger Bewusstlosigkeit.

Warum Selbstsicherheit kein Qualitätsbeweis ist

Ein weiteres Problem war die Kalibrierung. Damit ist gemeint, ob die angegebene Sicherheit eines Systems zur tatsächlichen Trefferquote passt. Die getesteten Modelle wirkten häufig überzeugender, als ihre Ergebnisse es rechtfertigten. Ihre Selbsteinschätzung half nur begrenzt dabei, richtige von falschen Antworten zu unterscheiden. Hinzu kam eine eingeschränkte Reproduzierbarkeit: Bei wiederholter Abfrage identischer Patientendaten änderte das Modell in einem relevanten Anteil der Fälle seine Einstufung. In 23 Prozent der getesteten Fälle lag die häufigste ESI-Kategorie in weniger als 70 von 100 Durchläufen vor. Für sicherheitskritische Entscheidungen ist das ein wichtiges Warnsignal.

Das Problem der „Dirty Data“

Warum schneiden Sprachmodelle in realen klinischen Daten schlechter ab als in kuratierten Fällen? Der wichtigste Grund ist die Datenqualität. Im klinischen Alltag sind Daten selten vollständig. In der Studie waren manche Vitalzeichenbereiche sehr häufig dokumentiert, andere deutlich seltener. Informationen zu Atmung, Kreislauf oder Temperatur waren oft vorhanden. Angaben zum neurologischen Status oder zur Bewusstseinslage waren dagegen nur in einem kleinen Teil der Fälle dokumentiert. Das bedeutet nicht zwangsläufig, dass Pflegekräfte diese Aspekte nicht wahrgenommen haben. Häufig werden klinische Eindrücke im Gespräch oder durch Erfahrung verarbeitet, ohne vollständig in strukturierte Felder eingetragen zu werden.

Für Menschen ist das normal. Eine erfahrene Pflegekraft sieht einen Patienten, hört die Stimme, bemerkt Schweiß, Blässe, Atemarbeit, Angst oder Verlangsamung. Sie erkennt, ob jemand „krank aussieht“. Diese Eindrücke fließen in die Entscheidung ein, auch wenn sie nicht vollständig im Datensatz stehen.

Ein Sprachmodell sieht dagegen nur das, was dokumentiert wurde. Wenn relevante Informationen fehlen, kann es sie nicht sicher berücksichtigen. Es versucht zwar, aus vorhandenen Angaben Muster abzuleiten, aber genau darin liegt das Risiko. Fehlende Daten werden nicht automatisch als Warnsignal verstanden. Manchmal wirken sie für das Modell wie „kein Problem dokumentiert“. Im klinischen Alltag kann „nicht dokumentiert“ aber vieles bedeuten: nicht erhoben, nicht auffällig, vergessen, unter Zeitdruck weggelassen oder an anderer Stelle bekannt.

Hinzu kommen freie Texte. Sie sind im Krankenhaus oft kurz, abgekürzt und voller lokaler Sprache. „AZ schlecht“, „Thoraxdruck seit gestern“, „Pat. wirkt reduziert“, „bek. KHK“, „RR entglitten“, „unkl. Synkope“, „V. a. Infekt“, „kommt wegen Labor“ — solche Formulierungen sind für medizinisches Personal verständlich, aber nicht immer eindeutig. Dazu kommen Tippfehler, unterschiedliche Schreibweisen, nicht standardisierte Abkürzungen oder Mischungen aus Deutsch, Englisch und Klinikjargon.
Solche Daten sind nicht schlecht, weil Menschen schlecht dokumentieren. Sie sind Ausdruck eines Systems, das unter Zeitdruck arbeitet. Genau deshalb müssen KI-Systeme mit dieser Realität umgehen können. Ein Modell, das nur bei perfekten Daten gut funktioniert, ist für den Alltag nur begrenzt geeignet.

Was können wir daraus lernen?

Große Sprachmodelle sollten in der Klinik derzeit nicht als Autopilot verstanden werden, sondern als Copilot. Sie können Informationen strukturieren, fehlende Angaben sichtbar machen und etablierte Algorithmen konsequenter anwenden. Dafür müssen sie jedoch prospektiv, lokal und mit echten Routinedaten validiert werden. Entscheidend ist nicht, ob KI den perfekten Lehrbuchfall löst. Entscheidend ist, ob sie auch nachts um zwei bei unklarem Brustschmerz, lückenhafter Anamnese und unvollständiger Dokumentation verlässlich unterstützt.

Dr. med. Julian Madrid

Dr. med. Julian Madrid

ist Arzt und KI-Forscher an der Charité – Universitätsmedizin Berlin. Er arbeitet am Deutschen Herzzentrum der Charité und am Institut für Künstliche Intelligenz in der Medizin. In seiner Forschung beschäftigt er sich mit der sicheren und praxisnahen Anwendung von Large Language Models, multimodaler KI und Multiagentensystemen in der klinischen Versorgung.