News
Die Wissenschaft der Daten verstehen
Dieser Artikel wurde in MedinLux veröffentlicht und ist Teil einer gemeinsamen Anstrengung, statistische und epidemiologische Konzepte den Angehörigen der Gesundheitsberufe in Luxemburg zugänglich zu machen.
In einem unserer vorherigen Artikel haben wir die grundlegenden Prinzipien des Designs klinischer Studien beschrieben. Hier beschäftigen wir uns mit drei Studientypen, die hauptsächlich in klinischen Studien der Phase III verwendet werden: Überlegenheits-, Nichtunterlegenheits- und Äquivalenzstudien.
Phase-III-Studien sind vergleichende Studien, in der Regel randomisiert, an denen mehrere hundert bis mehrere tausend Teilnehmende beteiligt sind. Ihr Ziel ist es, die Wirksamkeit und Sicherheit einer neuen Behandlung oder eines neuen Medizinprodukts im großen Maßstab im Vergleich zu einer Referenzbehandlung oder einem Placebo zu bewerten. Wenn die Ergebnisse als positiv angesehen werden, bilden sie die Grundlage des Zulassungsantrags bei den zuständigen Behörden.
Die Wahl des Studiendesigns bestimmt das gesamte Protokoll: statistische Hypothesen, Berechnung der Stichprobengröße, Analysemethoden und Interpretation der Ergebnisse.
Zunächst ist die präzise Definition der Bewertungskriterien essenziell. Diese Elemente werden im Protokoll beschrieben und im statistischen Analyseplan detailliert dargestellt. Obwohl die Begriffe „Outcome“ und „Endpoint“ häufig synonym verwendet werden, beziehen sie sich auf unterschiedliche Konzepte:
Ein relevanter „Endpoint“ muss einen klaren klinischen Nutzen aufweisen und ausreichend präzise definiert sein, um die Reproduzierbarkeit der Messung zu gewährleisten. Es muss mit der Berechnung der Stichprobengröße übereinstimmen und, wenn möglich, auf validierten Instrumenten beruhen. Die a-priori-Definition des primären Bewertungskriteriums ist essenziell, um jede nachträgliche Interpretation der Ergebnisse zu vermeiden, die deren Auslegung verfälschen würde. Die Art des „Endpoints“ (kontinuierlich, binär, Zeit bis zum Ereignis) beeinflusst ebenfalls die Wahl der statistischen Methoden und des Studiendesigns.
Die Überlegenheitsstudie stellt das klassischste Design in der klinischen Forschung dar. Ihr Ziel ist es zu zeigen, dass die neue Behandlung dem Vergleichspräparat statistisch überlegen ist, unabhängig davon, ob es sich um ein Placebo oder eine aktive Behandlung handelt.
In diesem Rahmen werden die in der Studie geprüften statistischen Hypothesen wie folgt definiert:
Die Analyse erfolgt zweiseitig mit 95%-Konfidenzintervallen (95%-KI). Die Überlegenheit gilt als nachgewiesen, wenn dieses Konfidenzintervall den Wert, der dem Fehlen eines Effekts entspricht, nicht einschließt (0 für eine absolute Differenz, 1 für ein Verhältnis wie relatives Risiko, Odds Ratio oder Hazard Ratio). Einige fiktive Beispiele:
Die Hauptanalyse wird im Allgemeinen nach dem „Intention-to-treat“-Prinzip durchgeführt, das heißt, die Teilnehmenden werden entsprechend der Gruppe analysiert, der sie ursprünglich randomisiert wurden, unabhängig von der tatsächlich erhaltenen Behandlung. Dadurch bleiben die Vorteile der Randomisierung erhalten und es wird eine pragmatische Schätzung des Behandlungseffekts ermöglicht. Wenn Zwischenanalysen vorgesehen sind, müssen diese im Voraus festgelegt werden und Methoden zur Anpassung des Alpha-Risikos enthalten, um eine Inflation des Risikos eines Fehlers erster Art zu begrenzen (siehe unseren Artikel zum p-Wert). Eine Zwischenanalyse kann notwendig sein, um eine deutliche Wirksamkeit, eine offensichtliche mangelnde Wirksamkeit („Futility“), ein Verträglichkeitsproblem oder eine Anpassung der Stichprobengröße zu bewerten. In diesem Fall kann die Fortführung der Studie ethische Fragen aufwerfen, was zu einem vorzeitigen Studienabbruch führen kann.
Das Design der Nicht-Unterlegenheitsstudie beantwortet eine andere Fragestellung. Es geht nicht mehr darum zu zeigen, dass die neue Behandlung besser ist, sondern dass sie dem Referenzstandard klinisch nicht unterlegen ist, abgesehen von einem als klinisch akzeptabel erachteten Wirkungsverlust. Dieses Studiendesign ist besonders relevant, wenn der Einsatz eines Placebos ethisch nicht vertretbar ist, insbesondere wenn eine wirksame Standardbehandlung bereits existiert. Es wird auch gewählt, wenn die neue Behandlung andere Vorteile bietet, wie eine bessere Verträglichkeit, eine einfachere Anwendung oder geringere Kosten. Die Wahl dieses Designs ergibt sich somit aus der Abwägung zwischen Wirksamkeit und zusätzlichen patientenrelevanten Vorteilen.
Die Definition der Nichtunterlegenheitsgrenze, bezeichnet als M, ist das zentrale Element dieses Designs. Diese Marge muss vor Studienbeginn festgelegt werden, auf soliden historischen Daten zur Wirksamkeit der Referenzbehandlung gegenüber Placebo beruhen und statistisch valide sein. Sie muss einen klinisch relevanten Anteil des zuvor nachgewiesenen Effekts darstellen, weder zu klein noch zu groß. Ihre Festlegung erfordert eine enge Zusammenarbeit zwischen Klinikern und Biostatistikern (FDA-Dokument: Non-Inferiority Clinical Trials to Establish Effectiveness – Guidance for Industry).
Aus statistischer Sicht werden folgende Hypothesen geprüft:
Alternativhypothese: Die Differenz ist strikt kleiner als M.

Mehrere Szenarien sind in Abbildung 1 dargestellt:
Die Empfehlungen der Europäischen Arzneimittel-Agentur (EMA) und der US Food and Drug Administration (FDA) betonen die Bedeutung der „Intention-to-treat“-Analyse (ITT). In Überlegenheitsstudien ist die ITT-Analyse konservativ, da sie Unterschiede zwischen Gruppen eher abschwächt. In Nichtunterlegenheitsstudien kann diese Abschwächung jedoch fälschlich zur Schlussfolgerung der Nichtunterlegenheit führen. Daher empfehlen methodische Leitlinien in der Regel sowohl eine „Per-Protocol“-Analyse (PP) als auch eine ITT-Analyse. Die Berechnung der Stichprobengröße hängt in diesem Design stark von der gewählten Grenze M ab. Je kleiner diese ist, desto größer muss die Anzahl der Teilnehmenden sein, um eine ausreichende statistische Power zu gewährleisten. Die Stichprobengröße hängt außerdem von weiteren Faktoren ab, wie der Effektstärke oder der Anzahl der beteiligten Zentren… Doch das ist eine andere Geschichte.
Anders gesagt entspricht M der maximal akzeptablen Wirksamkeitsminderung der neuen Behandlung im Vergleich zur Referenzbehandlung, die noch mit der Erhaltung eines klinisch relevanten Anteils des Effekts dieser Referenzbehandlung vereinbar ist. Sie stellt somit die statistische Grenze dar, unterhalb derer die neue Behandlung als klinisch inakzeptabel gelten würde. Solange der geschätzte Effekt diese Grenze nicht überschreitet, kann Nichtunterlegenheit (oder Äquivalenz) angenommen werden.
DESIGN IN DER PRAXIS:
die Marge wird entweder auf Basis des gepoolten Effekts oder auf Grundlage der Konfidenzintervallgrenze festgelegt, die dem Null-Effekt am nächsten liegt.
Weitere Methoden existieren, sind jedoch komplexer.
Die Äquivalenzstudie zielt darauf ab zu zeigen, dass die Wirkung der neuen Behandlung der Referenzbehandlung ausreichend nahekommt, um klinisch als äquivalent angesehen zu werden. Statistisch äußert sich dies darin, dass die Differenz zwischen beiden Behandlungen innerhalb eines vordefinierten Intervalls von –M bis +M liegt (siehe Definition der Grenze M in der Nicht-Unterlegenheitsstudie). Ziel ist es somit, zu zeigen, dass sich die beiden Behandlungen weder in die eine noch in die andere Richtung statistisch unterscheiden.
In diesem Rahmen besteht die Nullhypothese darin, eine Differenz außerhalb des Äquivalenzintervalls zu beobachten, während die Alternativhypothese einer Differenz innerhalb dieses Intervalls entspricht. Äquivalenz ist gezeigt, wenn das gesamte 95%-Konfidenzintervall innerhalb der a priori festgelegten Grenzen liegt. Der Test wird zweiseitig durchgeführt, was ihn von der Nicht-Unterlegenheitsanalyse unterscheidet. Dieses Design wird häufig bei der Bewertung neuer Formulierungen oder Änderungen der Applikationsform verwendet. Es ist wichtig zu betonen, dass eine Überlegenheitsstudie, die keinen statistisch signifikanten Unterschied zeigt, keinesfalls den Schluss auf Äquivalenz erlaubt. Das Fehlen von Nachweisen für einen Unterschied ist kein Beweis dafür, dass kein Unterschied besteht, insbesondere wenn die Studie nicht darauf ausgelegt war, diese spezifische Hypothese zu überprüfen.
Die korrekte Interpretation vergleichender Studien erfordert eine enge Zusammenarbeit zwischen Klinikern und Biostatistikern bereits in der Planungsphase der Studie.
ANDERE STUDIENDESIGNS EXISTIEREN
Die Designs klinischer Studien beschränken sich nicht auf die in diesem Artikel dargestellten klassischen Modelle. In bestimmten Situationen werden spezifische Ansätze verwendet, um die Forschungsfrage besser zu beantworten. So erhält in einer „Cross-over“-Studie jeder Patient nacheinander die Behandlung und das Placebo: Er dient somit als seine eigene Kontrollgruppe, wodurch die Variabilität zwischen den einzelnen Personen verringert wird. In einer faktoriellen Studie werden mehrere Interventionen gleichzeitig – einzeln oder in Kombination – untersucht, um sowohl ihre jeweiligen Wirkungen als auch mögliche Wechselwirkungen zu untersuchen.
Die Entwicklung eines neuen Medikaments oder Impfstoffs ist nach wie vor ein langwieriger Prozess, der unter normalen Umständen etwa 15 bis 20 Jahre dauert. Um diesen Prozess zu beschleunigen, wurden flexiblere Designs entwickelt. Einige bestehen darin, mehrere Studienphasen zusammenzuführen oder zu überlappen (zum Beispiel Phase I–II oder II–III), um Zeit zu gewinnen, ohne die Bewertung von Sicherheit und Wirksamkeit zu beeinträchtigen. Dieser Ansatz wurde während der Entwicklung der mRNA-Impfstoffe gegen COVID-19 breit eingesetzt, wobei frühe Phasen überlappt wurden und Phase III sehr schnell auf Grundlage intermediärer Daten gestartet wurde. Andere sogenannte „adaptive Designs“ ermöglichen es, bestimmte Studienelemente während der laufenden Studie auf Basis von Zwischenanalysen anzupassen (zum Beispiel Dosierungen zu ändern, Patienten neu zuzuweisen oder einen ineffektiven Arm vorzeitig zu beenden).
Die COVID-19-Pandemie hat auch zur Popularisierung sogenannter „Plattform“-Studien beigetragen. Diese basieren auf einer gemeinsamen Infrastruktur, in der mehrere Behandlungen parallel bewertet werden können, mit der Möglichkeit, neue Behandlungen hinzuzufügen oder bestehende im Verlauf zu entfernen. Dieses Design verbessert die Effizienz und Reaktionsfähigkeit der klinischen Forschung erheblich.
Schließlich hat auch die Entwicklung der personalisierten Medizin zur Entstehung innovativer Designs geführt. „Basket“-Studien bewerten eine zielgerichtete Therapie bei verschiedenen Erkrankungen, die eine gemeinsame molekulare Anomalie aufweisen. Im Gegensatz dazu werden bei „Umbrella“-Studien mehrere zielgerichtete Therapien bei einer einzigen Erkrankung getestet, je nach den molekularen Merkmalen bestimmter Patientengruppen. Diese Ansätze ermöglichen eine präzisere Anpassung der Behandlung an das biologische Profil der Patienten.

Abbildung 2 ermöglicht die Unterscheidung der verschiedenen Studiendesigns.
Die Grenze M darf nicht mit statistischer Signifikanz verwechselt werden: Es handelt sich um zwei völlig unterschiedliche Konzepte. Die Grenze wird auf Basis von Literaturdaten, klinischer Erfahrung und Diskussionen mit den Klinikern definiert; sie ist schwer festzulegen. Die Schlussfolgerungen von Nicht-Unterlegenheits- und Äquivalenzstudien basieren ausschließlich auf dieser Grenze. Ist sie zu großzügig gewählt, kann das dazu führen, dass ein klinisch inakzeptabler Wirksamkeitsverlust akzeptiert wird, während eine zu strenge Marge den statistischen Nachweis besonders anspruchsvoll macht.
Die Wahl des Alpha-Risikos bestimmt die Grenzen des Konfidenzintervalls (ein Alpha-Risiko von 5 % entspricht einem 95%-Konfidenzintervall). In einer Nicht-Unterlegenheitsstudie kann ein Alpha von 1 % (und eine Power von 90 % statt 80 %) gewählt werden, um einen konservativeren Ansatz zu verfolgen (99%-Konfidenzintervall). Dadurch wird die Nicht-Unterlegenheit schwieriger nachzuweisen, aber das Risiko eines falsch-positiven Ergebnisses sinkt, d. h. die Wahrscheinlichkeit, dass eine neue Behandlung fälschlicherweise als nicht unterlegen eingestuft wird, ist geringer.
Die Wahl des Designs muss zwingend vor Beginn der Studie festgelegt werden, da sie die Formulierung der Hypothesen, die Berechnung der Stichprobengröße, die Analysemethoden und die Interpretation der Ergebnisse bestimmt. Die zentrale Fragestellung bleibt vor allem klinisch:
Angesichts der methodischen und regulatorischen Komplexität dieser vergleichenden Studien ist die frühzeitige Einbindung eines Biostatistikers entscheidend, um die wissenschaftliche Validität und die Robustheit der Schlussfolgerungen sicherzustellen.
Take-home messages
Die in MEDINLUX veröffentlichten epidemiostatistischen Reihen.
