24. Januar 2025, 17:12 Uhr | Lesezeit: 11 Minuten
Studien belegen, Studien widerlegen, Studien sagen, dass – aber was genau steckt dahinter? Ob Reviews, Meta-Analysen oder randomisierte kontrollierte Studien: Nicht alle Forschungsmethoden sind gleich aussagekräftig. FITBOOK-Redakteurin Sophie Brünke gibt Ihnen einen verständlichen Überblick zu den wichtigsten Studiendesigns.
„Laufen steigert die Lebenserwartung“ und „Zwei Scheiben Schinken pro Tag erhöhen das Diabetes-Risiko“. Genau solche Headlines haben Sie vermutlich bereits bei FITBOOK gelesen. Mal ist es eine Meta-Analyse, mal eine randomisierte kontrollierte Studie. Doch was heißt das eigentlich genau? Erfahren Sie anhand praktischer Beispiele, wie Forschung funktioniert, warum manche Studientypen als Goldstandard gelten und wo ihre Schwächen liegen. Für alle, die die Welt der Wissenschaft besser verstehen wollen – ohne Fachlatein.
Jetzt dem FITBOOK-Kanal bei Whatsapp folgen!
Übersicht
Evidenz: Warum nicht jede Studie die gleiche Aussagekraft hat
Vielleicht haben Sie im Kontext von Ernährung, Sport oder Medizin schon einmal das Wort „evidenzbasiert“ gelesen. Das englische Wort „Evidence“ bedeutet im Deutschen „Beweis“. Der Begriff beschreibt alles, was wissenschaftliche Hypothesen bestätigt oder widerlegt. Die sogenannte Evidenzpyramide bildet aufsteigend die höhere Qualität der Evidenz – sozusagen der Glaubwürdigkeit – ab. So hat die Meinung eines einzelnen Experten eine geringe, eine Meta-Analyse eine hohe Evidenz.
Und wo gerade das Wort Glaubwürdigkeit gefallen ist: Seriöse Studien geben etwaige Interessenkonflikte an, sprich, wer Förderer oder Geldgeber der Studie bzw. der durchführenden Organisation ist. Dadurch können mögliche Bias erkannt werden. Ein Begriff, den Wissenschaftler für systematische Fehler verwenden, die zur Verzerrung von Studienergebnissen führen.1
Es gibt Beobachtungs- und Interventionsstudien
Grundlegend gibt es zwei wichtige Studientypen: Beobachtungs- und Interventionsstudien. Diese unterscheiden sich in ihrer Durchführung – zu den unterschiedlichen Designs kommen wir gleich – und in ihrer Aussagekraft.
Korrelation oder Kausalität? Warum Schmalzkuchen nichts mit Erkältungen zu tun hat
Noch zwei kompliziert klingende Wörter. Sie sind aber wichtig für das Verständnis von Studienergebnissen. Beobachtungsstudien vermögen nur Korrelationen festzustellen, also einen Zusammenhang. Dieser könnte lauten: Das Essen von Äpfeln steht mit einem verminderten Risiko für Brustkrebs in Verbindung. Klingt ja auch erst mal logisch. Vielleicht ernähren sich aber Menschen, die regelmäßig Äpfel essen und seltener an Brustkrebs erkranken, generell gesünder? Vielleicht rauchen und trinken sie auch seltener? Um dies zu verdeutlichen, möchte ich Ihnen ein zweites Beispiel geben. Im Winter wird es kalt und die Menschen essen vermehrt Schmalzkuchen auf den Weihnachtsmärkten. Genauso erkälten sie sich häufiger. Heißt das, Schmalzkuchen erhöht das Risiko sich einen Schnupfen einzufangen? Wohl kaum.
Um Kausalität nachzuweisen, also eine echte Ursache-Wirkungs-Beziehung (z. B. Rauchen und Lungenkrebs), benötigt es Interventionsstudien. Genauer: Randomisierte kontrollierte Studien (RCT). Diese gelten als Goldstandard. Und wie die verschiedenen Studiendesigns nun im Detail aussehen, erfahren Sie jetzt.
Exkurs in die Ergebnisinterpretation
Glaube nur Ergebnissen, die du selbst gefälscht hast
„So oder so ähnlich werden gerne mal Studienergebnisse belächelt, die nicht ins eigene Weltbild passen. Als ich zu Studienzeiten selbst das erste Mal mit statistischer Epidemiologie in Berührung gekommen bin und einen riesigen Datensatz einer Studie darauf hin analysieren durfte, wie die Gesamtcholesterinwerte der Probanden mit dem Auftreten eines Herzinfarktes in Zusammenhang stehen, habe ich aber verstanden, wie schnell ein Ergebnis spektakulär oder auch unspektakulär wirken kann – und das ganz ohne erfundene Messwerte oder Zahlendreher.
Wichtig ist nämlich, darauf zu achten, wie ein Studienergebnis dargestellt ist. Betrachtete ich das Cholesterin als kontinuierliche Variable kam ich zu dem Ergebnis, dass mit jeder Erhöhung des Gesamtcholesterins um eine Einheit das Risiko für Männer für einen Herzinfarkt sich um 0,6 Prozent erhöht. Klingt nicht besonders furchteinflößend, oder? Teilte ich die Gesamtcholesterinwerte aber in drei Kategorien (niedrig, etwas erhöht, stark erhöht) sah das schon anders aus: Männer, die in Kategorie drei fielen, verdoppelten (!) ihr Risiko im Vergleich zur ersten Gruppe (niedrige Werte; Kontrollgruppe).
Und noch ein anschauliches Beispiel möchte ich Ihnen geben, dieses Mal eines des Leibniz-Instituts für Wirtschaftsforschung. Es trägt den schönen Titel „Wursthysterie“.
Die WHO verkündete 2015, dass der tägliche Konsum von 50 Gramm verarbeitetem Fleisch (z. B. Wurst) das Risiko für Darmkrebs um 18 Prozent erhöhe. Diese Zahl wurde jedoch missverstanden. Denn sie beschrieb das relative Risiko, nicht das absolute. Das kam jedoch in der breiten Masse nicht an. Was ist damit gemeint? Das absolute Risiko, überhaupt an Darmkrebs zu erkranken, liegt bei etwa fünf Prozent. Eine Erhöhung um 18 Prozent bedeutet, dass dieses Risiko von fünf auf etwa sechs Prozent steigt – deutlich weniger dramatisch, als die 18 Prozent zu Beginn klangen. Deshalb möchte ich Sie ermutigen, Zahlen immer im Kontext zu betrachten – in unseren Beiträgen versuchen wir stets, Studienerkenntnisse entsprechend einzuordnen.“
Beobachtungsstudien
Querschnitt- und Längschnittsstudien
Querschnittstudien bilden eine Momentaufnahme ab. Sie beobachten ihre Probanden also lediglich zu einem Zeitpunkt und können keine Änderungen über die Zeit feststellen.2 Sie eignen sich z. B., um die Prävalenz einer Krankheit zu erheben oder einen Risikofaktor zu bestimmen. Ich selbst berichtete etwa von einer Querschnittstudie, die untersuchte, ob eine Verbindung zwischen Reizdarmsyndrom und erektiler Dysfunktion, also einer Erektionsstörung, bei männlichen Medizinstudierenden besteht. Zu einem Zeitpunkt füllten die Probanden Fragebögen zu ihrer Gesundheit aus, die anschließend ausgewertet wurden. Das Ergebnis war, dass Studenten mit Reizdarm auch häufiger mit Erektionsproblemen kämpften. Ob dieses Problem auch nach dem Medizinstudium bestehen wird, vermag dieses Studiendesign nicht zu verraten.
Eine Längsschnittstudie hingegen bildet Wandlungsprozesse ab, da zu mehreren Zeitpunkten Daten erhoben und verglichen werden. Ich berichtete etwa von einer Längsschnittstudie, die sich die Gehirne von Teenagern vor und nach den Corona-Lockdowns anschaute. Das Ergebnis: Ihre Gehirne alterten schneller, als sie sollten.
Fall-Kontroll-Studien
Fall-Kontroll-Studien blicken in der Zeit zurück. Dabei werden Patienten mit einer bestimmten Erkrankung („Fälle“) mit Menschen ohne diese Erkrankung („Kontrollen“) hinsichtlich möglicher Einflussparameter verglichen.3 2024 berichtete ich von einer niederländischen Fall-Kontroll-Studie, die untersuchte, welcher Mechanismus dafür verantwortlich ist, dass Long-Covid-Symptome durch körperliche Belastung zunehmen. Hierfür analysierten die Forscher Muskelbiopsien und Blutproben von 25 Personen mit Long Covid (Fälle) und 21 Personen, die bereits von einer Corona-Infektion genesen und nicht an Long Covid erkrankt waren (Kontrolle). Dabei kamen die Wissenschaftler zu dem Schluss, dass das Muskelgewebe der Long-Covid-Fälle bei Belastung Schäden erlitt.
Doch nicht immer werden Proben analysiert. Fall-Kontroll-Studien arbeiten häufig auch mit Fragebögen, insbesondere, wenn Ernährungsgewohnheiten abgefragt werden. An dieser Stelle schlummert Potenzial für Verzerrung. Erinnern Sie sich genau, wie oft Sie Fisch in den vergangen zwölf Monaten gegessen haben? Vermutlich nicht.
Sehr nützlich ist dieses Studiendesign, um den Ursprung eines Erregers bei Ausbruch einer Krankheit zu identifizieren. Stellen Sie sich vor, in einem Hotel leiden plötzlich ca. die Hälfte der Gäste an Magen-Darm-Beschwerden (Fälle). Es zeigt sich jedoch: Wer am Vorabend kein Sushi im Hotelrestaurant aß, blieb beschwerdefrei (Kontrolle).
Fallbericht
Ein Fallbericht ist nicht mit einer Fall-Kontroll-Studie zu verwechseln, da es sich um ein einziges Ereignis handelt. In der Evidenzpyramide würde es noch unter den Quer- und Längsschnittstudien eingeordnet werden. Trotzdem gibt es sehr spannende Fallbeispiele. Ein älteres von 2015 aus den USA, über das damals auch hierzulande berichtet wurde, ist mir sehr im Gedächtnis hängen geblieben. Eine Frau, die erfolgreich mittels Stuhltransplantation eines übergewichtigen Spenders gegen eine wiederkehrende bakterielle Infektion behandelt wurde (Stichwort gesunde Darmflora), nahm danach selbst rasch an Gewicht zu und wurde übergewichtig.4 Inzwischen ist die Erforschung der Darmbakterien ein beliebtes Gebiet – es steckt jedoch noch in den Kinderschuhen.
Kohortenstudien
Eine Kohortenstudie ist eine groß angelegte, in der Regel vorausblickende (prospektive) Beobachtungsstudie, die dazu dient, die Neuerkrankungsrate (Inzidenz) und mögliche Risikofaktoren (z. B. Rauchen) für eine Erkrankung (z. B. Lungenkrebs) zu erfassen. Die Kohorte – eine große Probandengruppe – wird entsprechend einer bestimmten Eigenschaft in Untergruppen eingeteilt (z. B. Raucher und Nichtraucher) und über einen langen Zeitraum beobachtet. Eine aktuell laufende Gesundheitsstudie in Deutschland ist die NAKO, welche 2014 mit rund 205.000 Teilnehmenden startete. Im vergangenen Jahr fand die dritte Untersuchung bzw. Datenerhebung der Kohorte statt. Ihr Ziel ist, Einflussfaktoren für die Entstehung von Volkskrankheiten zu identifizieren und so die Früherkennung und Prävention zu verbessern.5
Durch die langen Untersuchungszeiträume kommt es bei Kohorten leider dazu, dass Teilnehmende im Laufe der Zeit aus der Studie scheiden, was ihre Aussagekraft limitiert. Die Probanden haben keine Lust mehr, sind nicht mehr erreichbar oder inzwischen verstorben.
Interventionsstudien
Der Begriff „Intervention“ verrät schon, das bei diesem Studientyp nicht beobachtet, sondern gezielt beeinflusst wird. Gemeint ist hier z. B. die Wirkung eines Medikaments oder einer Diät.
Randomisierte kontrollierte Studien
Klassische Interventionsstudien sind randomisierte klinische Studien (RCTs). Ihre Durchführung ist für die Zulassung eines neues Medikament unerlässlich. Denn dieser Studientyp weist die höchste Aussagekraft auf und ist somit geeignet, die Wirksamkeit und Sicherheit eines neuen Wirkstoffs zu beweisen. RCT ist der einzige Studientyp, der es erlaubt, verlässliche Erkenntnisse über Ursache und Wirkung zu gewinnen.6
Aber Moment mal, schön und gut, dass RCTs so wirkungsvoll sind, aber was heißt denn „randomisiert kontrolliert“? Damit ist gemeint, dass die Probanden nach dem Zufallsprinzip in eine Interventionsgruppe (z. B. Medikament) und eine Kontrollgruppe (z. B. Placebo) eingeteilt werden. Das i-Tüpfelchen ist, wenn das Ganze auch noch doppelblind durchgeführt wird. Soll heißen: Weder die Wissenschaftler noch die Probanden kennen die jeweilige Gruppenzugehörigkeit.
Von einem RCT, welches die Cambridge-Diät untersuchte, berichtete FITBOOK-Autorin Beke Enderstein. Sie zeigte, dass Probanden, welche sich an die Diät hielten (Intervention), innerhalb eines Jahres einen höheren Gewichtsverlust als die Kontrollgruppe verzeichnen konnte.
Reviews und Meta-Analysen
Reviews und Meta-Analysen stehen weit oben auf der Evidenzpyramide. Denn sie betrachten die Ergebnisse aus mehreren Studien gebündelt.
Ein systematischer Review – auch systematische Übersichtsarbeit genannt – fasst den Forschungsstand ausgewählter Studien zusammen, welche die gleiche Fragestellung behandeln. Studien, die hier einbezogen werden, erfüllen bestimmte vorab festgelegte Kriterien und werden durch eine Literaturrecherche beschafft. Eine Auswertung der Studienergebnisse in Form einer Meta-Analyse kann Teil des Reviews sein. Und damit sind wir beim Stichwort. Dieses Analyseverfahren wertet die vorhandenen Daten der recherchierten Studien statistisch aus. Es ergibt sich ein neuer Mittelwert für das Gesamtergebnis. Das Kombinieren der Daten mehrerer Studien kann Zusammenhänge sichtbar machen, die in Einzelstudien unentdeckt bleiben. Bei Ernährungsstudien besteht etwa die Herausforderung, dass gemessene Effekte sehr klein und einzeln betrachtet nur von geringer Bedeutung sind.
Übrigens: Als wäre das nicht genug, gibt es auch noch sogenannte Umbrella-Reviews. Quasi eine Übersichtsarbeit von Übersichtsarbeiten. Sie überprüft, ob es Unterschiede zwischen den Ergebnissen der Arbeiten gibt. Dadurch können neue Erkenntnisse erlangt werden, die in dieser Form bisher nicht in den Übersichtsarbeiten behandelt wurden. Oder andersherum: Sie decken Forschungslücken auf.
Vom Review zur Leitlinie
An der Spitze der Evidenzpyramide stehen Leitlinien. Die Deutsche Gesellschaft für Ernährung veröffentlichte bspw. evidenzbasierte Leitlinien für Kohlenhydrate, Proteine und Fette. Diese geben den aktuellen Wissensstand wieder, ob und in welcher Weise ein Ernährungsfaktor das Risiko von Krankheiten beeinflussen kann.7 Fachkräfte aus dem Gesundheitsbereich können diese heranziehen, um z. B. Patienten optimal zu behandeln oder ein Präventionsprogramm zu entwickeln.
Vor- und Nachteile der Studientypen
Studiendesign | Vorteile | Nachteile |
---|---|---|
Fallberichte | • hilfreich bei der Identifizierung neuer Erkrankungen • hilfreich bei der Ermittlung von Nebenwirkungen und Anwendungsbereichen von Medikamenten • hilfreich bei seltenen Erkrankungen | • keine Verallgemeinerung von Fällen • keine systematische Studie • Ursachen oder Zusammenhänge können auch anders erklärt werden • Fokus auf das „Ungewöhnliche“ oder auf irreführende Effekte |
Fall-Kontroll-Studien | • hilfreich bei seltenen Erkrankungen • geringer Zeitbedarf • gleichzeitige Untersuchung mehrerer Risikofaktoren • hilfreich als Pilotstudie zur Ermittlung von möglichen Assoziationen | • retrospektive Studien sind fehlerbehaftet aufgrund des eingeschränkten Erinnerungsvermögens • erkrankte Personen erinnern sich eher an Risikofaktoren (Recall Bias) • ungeeignet für die Evaluierung von diagnostischen Verfahren • Schwierigkeiten bei der Zusammenstellung von Kontrollgruppen |
Kohortenstudien | • Personen in den Kohorten können aufeinander abgestimmt werden (Matched Controls); das reduziert den Einfluss durch Confounder • Standardisierung der Untersuchungskriterien • einfacher und kostengünstiger als Interventionsstudien | • Schwierigkeiten bei der Kohortenzusammenstellung durch Confounder • keine Randomisierung; dadurch Ungleichgewicht bei Patienten und ihren Eigenschaften • Verblindung ist schwierig • lange Dauer bis zur Entstehung des jeweiligen Endpunktparameters |
RCTs | • gute Randomisierung kann Selektionsbias eliminieren • Standardisierung der Untersuchungskriterien • leichter zu verblinden als Beobachtungsstudien • Standardverfahren der Statistik anwendbar • Untersuchungsgruppen sind klar definiert | • teuer, da zeitaufwendig • Bias durch freiwillige Teilnahme • Follow-up problematisch |
Evidenzbasierte Leitlinien | • zusammengestellt durch Experten • basieren auf Peer-Reviewed-Studien • Grundlage für die Praxis | • langsamer Update-Prozess • nicht in allen Fällen verfügbar, insbesondere bei kontroversiell diskutierten Themen • teuer und zeitaufwendig • Empfehlungen können von der erstellenden Organisation beeinflusst sein |
Systematische Reviews | • umfassende Zusammenstellung und Bewertung der vorhandenen Literatur (idealerweise einschließlich unpublizierter Ergebnisse) • günstiger/schneller als Durchführung neuer Studien • Ergebnisse sind eher auf größere Personengruppen übertragbar als bei Einzelstudien • verlässlicher und genauer als Einzelstudien • wird als evidenzbasierte Quelle angesehen | • sehr zeitaufwendig • einzelne Studien sind teilweise schwer zusammenzufassen (Heterogenität) |
Meta-Analysen | • größere statistische Power • bestätigende Datenanalysen • eher auf größere Personengruppen übertragbar • wird als evidenzbasierte Quelle angesehen | • Einzelstudien schwer/zeitaufwendig auffindbar • nicht alle Studien liefern ausreichend Daten zur Analyse • aufwendige statistische Verfahren nötig • Heterogenität von Studienpopulationen |
Meta-Analyse von 100 Studien Wie Cannabis Schmerzen, Schlaf und Ängste wirklich beeinflusst
Forschung Ist Milch im Kaffee gut oder schlecht für die Gesundheit?
Überraschende Studienergebnisse Fitness oder Körpergewicht – was ist wichtiger für die Gesundheit?
Wie erkenne ich denn als Laie eine gute Studie?
Niemand hat die Kapazität, jede Originalstudie über die berichtet wird, noch einmal selbst zu prüfen. Und das brauchen Sie auch nicht, denn dafür gibt es FITBOOK und Co. In unseren Studienartikeln finden Sie immer eine Einordnung inklusive Stärken und Schwächen. Doch Sie können sich für eine eigene schnelle Einschätzung an zehn einfachen Fragen orientieren:
- Welcher Studientyp liegt vor? (Mit Blick auf die Evidenzpyramide)
- Wurde die Studie lediglich mit Zellen, mit Tieren oder aber mit Menschen durchgeführt?
- Wie hoch war die Teilnehmerzahl?
- Gab es eine Kontrollgruppe?
- Wurde die Studie randomisiert und doppelverblindet?
- Wie lange dauerte die Studie?
- Wer hat die Studie finanziert und führte dies zu einem Interessenkonflikt?
- Wurde die Studie in einer Fachzeitschrift veröffentlicht? Denn dann wurde sie vorab einer Peer-Review unterzogen (von unabhängigen Wissenschaftlern überprüft).
- Wann wurde die Studie durchgeführt? Sind die Ergebnisse womöglich überholt?
- Passt das Ergebnis zum bisherigen Forschungsstand? Bei starken Abweichungen könnte es ein Ausreißer sein.