OpenAI hat mit HealthBench ein Benchmarksystem geschaffen, um die medizinische Kompetenz von KI-Systemen objektiv und auch besser bewerten zu können. Für Gesundheitsplattformen wie unseren interaktiven HealthGuide und Longevity360 eröffnet sich dadurch eine zusätzliche Validierungsmöglichkeit: Wir können die medizinische Qualität unserer Empfehlungen systematischer überprüfen und die Vertrauenswürdigkeit unserer digitalen Coaching-Ansätze stärken.
In diesem Beitrag zeigen wir, wie HealthBench funktioniert, warum es für unsere Arbeit relevant ist und welche konkreten Chancen daraus entstehen.
Stefan Zipperer
Was ist HealthBench?
HealthBench ist ein neues Open-Source-Benchmarking-System von OpenAI. Es wurde entwickelt, um die klinische Leistungsfähigkeit von großen Sprachmodellen (LLMs) wie GPT-4 systematisch und nachvollziehbar – bezogen auf Gesundheitsthemen – zu bewerten.
HealthBench umfasst mehr als 600 medizinische Aufgaben aus Bereichen wie:
- Anamnese & Differentialdiagnose
- Therapieentscheidungen & Medikationsvorschläge
- Risikoeinschätzung & Follow-up-Planung
- Patientenkommunikation & Aufklärung
Diese Aufgaben spiegeln echte klinische Use Cases wieder und sind mit objektiven Bewertungsmetriken hinterlegt. Die Datenbasis und Bewertungslogik von HealthBench sind öffentlich zugänglich. Das macht es transparent und nachvollziehbar – auch für Unternehmen, die nicht im medizinischen Kerngeschäft tätig sind, aber gesundheitsbezogene KI einsetzen.
Warum ist das relevant für unser digitales Gesundheitscoaching?
Für unsere Programme in den Bereichen Longevity, Individualprävention und Betriebliches Gesundheitsmanagement entwickeln wir AI-gestützte Prozesse und auch ein eigenes Präventions-KI-Modell ‘Pepino’. Dieses unterstützt Nutzer*innen individuell bei Themen wie Bewegung, Ernährung, mentale Gesundheit, soziale Belange oder Schlaf & Regeneration – mit konkreten Empfehlungen, Aufgaben und Routinen.
Durch HealthBench ergeben sich für uns neue Potenziale, um diesen Ansatz medizinisch robuster und vertrauenswürdiger zu gestalten. Konkrete Einsatzmöglichkeiten zeigen sich in vier Bereichen:
1. Validierung von Empfehlungen im Coaching-Dialog
Unsere KI-gesteuerten Gesundheitsdialoge liefern regelmäßig personalisierte Handlungsempfehlungen. Diese basieren auf User-Inputs, Routinen, Präferenzen, Gesundheitsdaten und – immer – menschlicher Expertise.
Beispiel: Ein Nutzer bekommt eine personalisierte Schlafroutine empfohlen, basierend auf Stresslevel, Bewegung und Bildschirmzeiten. Mit HealthBench können wir solche personalisierten Cases künftig besser prüfen: Entspricht diese Empfehlung auch medizinischen Standards zur Schlafhygiene?
Vorteil: Empfehlungen, die sich an HealthBench orientieren, gewinnen an Nachvollziehbarkeit – intern wie extern.
2. Ergänzung unseres KIMI-Ansatzes
Wir sehen KI als Unterstützung, aktuell nicht als Ersatz für eine persönliche medizinische Empfehlung. Deshalb nutzt unser AI-modell ‘Pepino’ das KIMI-Tableau („Künstliche Intelligenz meets Menschliche Intelligenz“). Dieses regelt, wie frei sich die KI in Konversationen und Empfehlungen bewegen darf. So nutzen wir Werte von 0 bis 1, um etwa in sensiblen Bereichen (z. B. Supplements, Diagnosen) keine eigenständigen KI-Aussagen zu erlauben.
Vorteil: Zukünftig kann HealthBench als zusätzliche Bezugsgröße dienen, um die KI-Freiheitsgrade datenbasiert zu steuern. Inhalte mit geringer HealthBench-Validierung könnten automatisch restriktiver behandelt werden – ein Plus an Sicherheit.
KI-gestützte Gesundheitsvorsorge: Wird Künstliche Intelligenz die Prävention revolutionieren?
Künstliche Intelligenz bringt frischen Wind in die Prävention – mit dem HealthGuide, KIMI-Philosophie und echten Chancen für Unternehmen.
3. Biomarker-Integration im AI-Twin verbessern
Unser AI-Twin in Pepino unterstützt über die optionale Erfassung von Biomarkern die Personalisierung von Gesundheitsreisen.
Beispiel: Er kann Aktivitäten (Schritte, Bewegung, etc.), Quiz-Ergebnisse zur persönlichen Gesundheitskompetenz, biometrische Werte (z. B. Puls, Schlafdauer), Gesundheitspräferenzen und mehr speichern.
Vorteil: Das HealthBench-Modell könnte hier als medizinischer Referenzguide wirken, etwa bei erhöhtem Blutdruck oder Anzeichen von chronischer Erschöpfung. Dadurch lassen sich nicht nur präzisere Empfehlungen ableiten – sondern auch frühzeitige Hinweise auf gesundheitliche Risiken in Coaching-Formaten ansprechen.
4. Customer Journeys auf ein neues Level heben
Unsere Programme erlauben es Nutzer*innen, unterschiedlichen Experten zu folgen. Medizin und Gesundheit ist ja nie gleich, sondern von Arzt zu Arzt und bei verschiedenen Coaches unterschiedlich.
Beispiel: Eine Gesundheitsreise kann etwa von einem Präventionsmediziner oder Schlafcoach begleitet werden.
Vorteil: HealthBench bietet die Chance, diese Health Journeys mit medizinisch geprüften Inhalten zu kombinieren – oder eine „HealthBench-validierte“ Expertenreise als Qualitätssiegel einzuführen.
Fazit: Ein sinnvoller Schritt in Richtung Vertrauensaufbau
HealthBench bietet einen wichtigen nächsten Schritt: eine objektive, nachvollziehbare, transparente Bewertung medizinischer Aussagen durch KI. Für uns heißt das:
- Unsere Dialoge und Empfehlungen lassen sich systematischer prüfen
- Nutzer*innen erhalten mehr Sicherheit und Nachvollziehbarkeit
- Unternehmen und Krankenkassen können evidenzbasierte Argumente leichter erkennen
Und nicht zuletzt: Es ist ein Signal an den Markt, dass wir KI verantwortungsvoll, medizinisch fundiert und nutzerzentriert einsetzen wollen.
FAQs zu HealthBench
Was genau macht HealthBench?
HealthBench kann andere Systeme dabei unterstützen, medizinische Probleme zu analysieren, zu erklären und passende Empfehlungen zu geben – ähnlich wie ein Mediziner.
Ist HealthBench für medizinische Startups gedacht?
Nein, es richtet sich an alle, die KI in gesundheitsbezogenen Kontexten einsetzen – auch an Lifestyle- oder Präventionsanbieter.
Gibt es schon vergleichbare Benchmarks?
Einige – aber HealthBench ist der erste große, frei zugängliche Benchmark mit über 600 Aufgaben und hohem Praxisbezug.
Muss man ein KI-Modell direkt bei OpenAI trainieren, um HealthBench zu nutzen?
Nein. Der Benchmark ist Open Source und kann auch auf andere Modelle angewendet werden – intern oder öffentlich.
Wie bald setzen wir HealthBench ein?
Wir evaluieren gerade, welche Module sinnvoll darauf aufbauen können – insbesondere unser AI-Twin und die Personalisierung von Health Journeys.
- Bleiben Sie gesund