DUP UNTERNEHMER-Magazin: Viele Unternehmen experimentieren gerade mit KI-Agenten. Wo scheitern diese Systeme Ihrer Erfahrung nach am häufigsten, wenn es konkret um medizinische Anwendungen geht?
Florian Schwiecker: Das typische Versagen von KI im Gesundheitswesen hat selten mit mangelnder „Intelligenz“ zu tun, sondern mit mangelnder Kontrolle. Zwar verzeichnete 2025 Rekordinvestitionen in agentische Systeme. Dennoch zeigen Branchenberichte, dass nur rund 11 % der KI-Agenten tatsächlich den Weg in den Produktivbetrieb gefunden haben. Der Grund dafür ist, dass Demonstrationen von KI-Agenten häufig Mehrdeutigkeiten tolerieren, die Gesundheits-Workflows schlicht nicht zulassen.
Sobald ein Agent in einen Workflow eintritt, ändert sich die Bedeutung kleiner Fehler grundlegend. Das gilt für medizinische Kodierung ebenso wie für Dokumentation oder Genehmigungsvorprüfungen. Was zuvor als „unglücklicher Text“ durchging, wird dann zu einem operativen Defekt. Diese Defekte lösen sogenannte Sicherheitsspiralen aus, die Fehler über verbundene Systeme hinweg schneller verstärken, als ein Mensch eingreifen kann. So kann beispielsweise ein halluzinierter Code in einem Dokumentationsagenten einen betrügerischen Abrechnungsanspruch oder eine abgelehnte Überweisung erzeugen. Für nachgelagerte Systeme erscheinen diese Ergebnisse zunächst korrekt. Die Auswirkungen werden oft erst sichtbar, wenn Patienten oder die Finanzen des Krankenhauses bereits betroffen sind.
Wir erleben derzeit, was viele Analysten als eine Kluft von mehreren hundert Milliarden Dollar zwischen Infrastrukturinvestitionen und tatsächlich realisierten Erträgen beschreiben. Ursache ist, dass Organisationen die deterministischen Leitplanken fehlen. Ohne sie lässt sich KI nicht von einer „Demo“ in eine verlässliche operative Fähigkeit überführen. Dabei wäre genau das notwendig, um den prognostizierten Mangel von zehn Millionen Arbeitskräften bis 2030 abzufedern.
Sie sprechen von „fragmentiertem Kontext“ als zentrales Risiko. Können Sie erklären, warum Agenten ohne vollständige Informationslage zu falschen Entscheidungen kommen und wie sich das verhindern lässt?
Schwiecker: Im Gesundheitswesen bildet Kontext die „klinische Argumentationsschicht“, die sichere von gefährlichen Entscheidungen trennt. Arbeiten Agenten mit fragmentiertem Kontext, agieren sie faktisch in Silos. Ihre Entscheidungen basieren dann auf einem unvollständigen Bild des Patientenverlaufs oder auf spezifischen Organisationsprotokollen. Ein allgemeines KI-Modell erkennt beispielsweise nicht, dass ein „Entlassungs“-Vermerk in einer klinischen Notiz unterschiedliche materielle Folgen hat. Für einen Apotheken-Workflow ergeben sich andere Konsequenzen als für Abrechnung oder Überweisungskoordination.
Ohne ein einheitliches Verständnis dieser Nuancen erzeugen Agenten plausible, aber falsche Workflow-Schritte. Sie wirken auf den ersten Blick korrekt, halten jedoch einer klinischen Prüfung nicht stand. Das Corti Agentic Framework adressiert das Problem. Diese produktionsreife Ausführungsarchitektur stellt eine deterministische Laufzeitumgebung für Sicherheit bereit.
Anstatt Agenten unabhängig agieren zu lassen, setzt das Framework auf gesteuerte Orchestrierung. Jede vorgeschlagene Agentenaktion wird vor der Ausführung von einer deterministischen Schicht gegen zentrale klinische Protokolle und maßgebliche Datenquellen validiert. So arbeiten alle Agenten aus einem gemeinsamen, konsistenten klinischen Kontext heraus. Lokale Fehlinterpretationen können dadurch keine systemweiten Sicherheitsspiralen auslösen.
Halluzinationen von KI-Modellen sind bekannt. Was macht Halluzinationen in Multi-Agenten-Systemen besonders gefährlich, und wie kann man sie frühzeitig erkennen oder ausbremsen?
Schwiecker: In einem Einzelagenten-Setup bleiben Halluzinationen oft isoliert. In einem Multi-Agenten-System können sie dagegen wie eine Giftpille wirken, die eine Sicherheitsspirale in Gang setzt.
Multi-Agenten-Architekturen sind auf sequentielle Ausführung ausgelegt. Agenten bauen dabei auf den Ausgaben vorheriger Agenten auf, um einen Workflow voranzutreiben. Halluziniert ein Kodierungsagent eine Diagnose, entsteht ein falsches Signal. Ein Genehmigungsagent kann automatisch auf dieses Signal reagieren und eine Anfrage erzeugen, die korrekt wirkt. Der Fehler wird häufig erst erkannt, wenn ihn Patienten, Kostenträger oder Auditprozesse aufdecken.
Diese kaskadierenden Fehler sind besonders gefährlich, weil sie intern konsistent bleiben, obwohl sie extern falsch sind. Die Eindämmung muss daher vor der Ausführung ansetzen. Deterministische Leitplanken validieren jede vorgeschlagene Aktion gegen klinische Protokolle und delegierte Zuständigkeitsbereiche. Versucht ein Agent, außerhalb dieser Grenzen zu handeln, wird die Ausführung in Echtzeit blockiert. Auf diese Weise wird KI im Gesundheitswesen von unbeaufsichtigtem Experimentieren zu gesteuerter Ausführung überführt. Halluzinationen werden gestoppt, bevor daraus operative Defekte entstehen.
Gerade im Gesundheitswesen müssen Entscheidungen nachvollziehbar sein. Warum geht diese Transparenz in Multi-Agenten-Architekturen schnell verloren, und welche technischen Ansätze schaffen hier Abhilfe?
Schwiecker: Transparenz ist häufig das erste Opfer komplexer KI-Systeme. Wenn mehrere Agenten interagieren, verteilt sich die Entscheidungsfindung über Modelle, Werkzeuge und Zwischenrepräsentationen. Dadurch wird es schwierig nachzuvollziehen, warum ein bestimmtes Ergebnis entstanden ist.
Umfragedaten zeigen konsistent, dass mangelnde Transparenz zu den größten Hürden bei der Einführung von KI im Gesundheitswesen zählt. Ohne Nachvollziehbarkeit fällt es Organisationen schwer, regulatorische Anforderungen zu erfüllen, Entscheidungen zu verteidigen oder klinisches Vertrauen aufrechtzuerhalten.
Das Framework begegnet diesem Problem mit vollständiger Auditierbarkeit. Es fungiert als „Blackbox“-Recorder für die Automatisierung im Gesundheitswesen. In Echtzeit wird die Herkunft jeder Agenteninteraktion, jedes Tool-Aufrufs und jedes Entscheidungsschritts erfasst. Für jede automatisierte Notiz oder kodierte Abrechnung existiert damit eine klare, für Menschen lesbare Dokumentation. Sie erklärt, wie das Ergebnis zustande kam, und unterstützt so Compliance, Haftungsabsicherung und klinische Aufsicht.
Viele Lösungen setzen bei sensiblen Entscheidungen auf eine einfache menschliche Bestätigung. Warum reicht dieses „Häkchen setzen“ Ihrer Meinung nach nicht aus und wie sollte ein verantwortlicher Entscheidungsprozess stattdessen aussehen?
Schwiecker: Der Ansatz des Häkchensetzens erzeugt ein trügerisches Sicherheitsgefühl und trägt zugleich zur Überlastung von Klinikern bei. Heute entfällt rund ein Drittel der Arbeitszeit von Ärzten auf Dokumentation statt auf Patientenversorgung. Wenn Kliniker jede von KI erzeugte Mikroentscheidung manuell prüfen sollen, verlagert sich der Aufwand vom Schreiben zum Auditieren. Die Sicherheit steigt dadurch nicht. Mit der Zeit setzt Automatisierungsbias ein. Prüfer beginnen, Ergebnisse routinemäßig abzunicken, statt sie kritisch zu hinterfragen. Dadurch steigt das Risiko übersehener Fehler.
Ein verantwortungsvoller Ansatz basiert auf gesteuerter Autonomie. Aufsicht wird dort angewendet, wo sie tatsächlichen Mehrwert schafft, statt pauschal überall. Deterministische Leitplanken definieren, was KI-Systeme innerhalb delegierter Zuständigkeitsbereiche tun dürfen. Menschliches Eingreifen bleibt Hochrisiko- und Mehrdeutigkeitsfällen vorbehalten. Dabei stützt es sich auf vollständige Herkunftsnachweise statt auf intransparente Ausgaben. Vollständige Auditierbarkeit gewährleistet Verantwortlichkeit, ohne ständige manuelle Überwachung zu erfordern. So können sich Kliniker wieder auf die Patientenversorgung konzentrieren, statt auf Systemkontrolle.
Beim Thema Skalierung gilt oft: mehr Agenten, mehr Leistung. In der Praxis scheint das Gegenteil der Fall zu sein. Was übersehen Unternehmen hier?
Schwiecker: Viele Organisationen gehen davon aus, dass das Hinzufügen weiterer Agenten den Durchsatz erhöht. In der Praxis sammeln Multi-Agenten-Systeme ohne zentrale Ausführungsschicht jedoch erheblichen Koordinationsaufwand an. Die Latenz steigt, Ausgaben widersprechen sich, und die Zuverlässigkeit nimmt ab.
Diese Diskrepanz trägt zu derselben Kluft von mehreren hundert Milliarden Dollar zwischen KI-Investitionen und realisiertem Wert bei. Häufig übersehen wird der notwendige Übergang von isolierter Inferenz zu kontinuierlichen, gesteuerten Workflows. Skalierung erfordert eine Kontroll-Ebene, die Tausende spezialisierter Agenten als kohärentes operatives System koordinieren kann. Sie baut dabei auf Infrastruktur wie NVIDIA Blackwell und NIM-Microservices auf, statt Agenten als lose Sammlung unabhängiger Werkzeuge zu betreiben.
Zugriffssicherheit ist ein zentrales Thema. Welche Fehler sehen Sie besonders häufig, wenn Agenten mit Patientendaten arbeiten und was wären Mindeststandards, damit solche Systeme sicher betrieben werden können?
Schwiecker: Der häufigste Fehler besteht darin, Sicherheit als nachträglichen Gedanken zu behandeln. Viele Agentensysteme werden ohne Datenschutz- und Zugriffskontrollen auf Gesundheitsniveau ausgerollt. Dies geschieht trotz der erheblichen finanziellen und regulatorischen Konsequenzen von Compliance-Verstößen.
Agenten weitreichende oder schlecht abgegrenzte Zugriffe zu gewähren, ohne eine deterministische Laufzeitumgebung zur Steuerung ihres Verhaltens, erhöht die Angriffsfläche. Mindeststandards umfassen:
- gesteuerte Orchestrierung zur Validierung jeder Aktion gegen klinische und sicherheitsrelevante Richtlinien,
- umfassende Audit-Trails mit Echtzeit-Herkunftsnachweisen,
- die Nutzung offener Standards wie MCP, sodass benutzerdefinierte Agenten Governance standardmäßig übernehmen sowie
- souveräne Cloud-Bereitstellungsmodelle, bei denen die Kontrolle über die Rechtsordnung zwingend ist.
Viele Mittelständler im Gesundheitsbereich stehen vor der Frage: Womit fängt man an? Welche grundlegenden Infrastruktur-Bausteine sollten aufgebaut sein, bevor ein Unternehmen überhaupt an ein Multi-Agenten-System denkt?
Schwiecker: Für kleine und mittlere Organisationen liegt das Hauptrisiko in der sogenannten Dauer-Pilotphase. In dieser Phase bleiben viele KI-Initiativen stecken, bevor sie den Produktivbetrieb erreichen. Das geschieht häufig, wenn Allzweckmodelle in Workflows integriert werden sollen, die deterministisches Verhalten erfordern.
Bevor Multi-Agenten-Systeme eingeführt werden, benötigen Organisationen:
1. Eine produktionsreife Laufzeitumgebung, die Aktionen gegen klinische Protokolle validieren kann.
2. Spezialisierte medizinische Modelle, die auf domänenspezifischen Daten statt auf allgemeinem Internettext trainiert sind.
3. Modulare SDKs mit vorkonfigurierten Agenten für wirkungsstarke Workflows wie medizinische Kodierung oder Überweisungskoordination.
Der Aufbau auf einer industriellen Grundlage statt auf maßgeschneiderten Experimenten ermöglicht es Teams, effizient vom Pilotprojekt zur Produktion zu gelangen. Sicherheit, Compliance und Auditierbarkeit bleiben dabei gewahrt.


