Home > Allgemein, Wissenschaft > 47 von 53 Krebsstudien sind nicht replizierbar

47 von 53 Krebsstudien sind nicht replizierbar

Die Krebsforscher C. Glenn Begley und Lee M. Ellis haben analysiert, warum so wenige „Durchbrüche“ im Krebsbereich schlussendlich in erfolgreiche Medikamente/Behandlungen münden. Vor kurzem haben sie dazu in Nature einen Kommentar publiziert (leider nicht frei zugänglich). Im letzten Jahrzehnt haben sie versucht, 53 Studien zu verifizieren, die aus Top-Journalen oder von renommierten Laboren stammen. Das schockierende Ergebnis: Bei 47 haben sie dies nicht geschafft.

Warum das einerseits sehr schlimm ist, man darüber aber nicht das Vertrauen in die Wissenschaft verlieren muss und ein paar Gedanken zur Verbesserung der Problematik sind Thema dieses Blogs.

Bittere Erkenntnisse
Begley in einem Interview:

„These are the studies the pharmaceutical industry relies on to identify new targets for drug development. But if you’re going to place a $1 million or $2 million or $5 million bet on an observation, you need to be sure it’s true. As we tried to reproduce these papers we became convinced you can’t take anything at face value.“

Es ist irgendwie erschreckend, dass man keiner Studie glauben kann. Natürlich basiert Wissenschaft auf Zweifel und Überprüfung, aber es wäre doch fein, wenn auch erste Ergebnisse meist stimmen.

Die Gründe für diese Erkenntnis sind wohl vielfältig, so wird z.B. als Problem angegeben, dass Grundlagenforschung selten verblindet ist. Die Forscher wissen von Anfang an, welche Zellkultur sie mit welchen Stoffen behandelt haben (und ähnliches). Sie sind (unbewusst!) voreingenommen und wenn Ergebnisse zu interpretieren sind, interpretieren sie diese in die unbewusst bevorzugte Richtung.

So ist es z.B. auch Jacques Benveniste ergangen, der „bewies“, dass Wasser ein Gedächtnis hat. Die lange Geschichte kurz: Die Mitarbeiterin, die die Untersuchungen auswertete, interpretierte „Grenzfälle“ zugunsten der Hypothese und verfälschte damit unbewusst das Ergebnis. Verblindet liess sich der Effekt nicht mehr nachvollziehen. Hätte Benveniste danach nicht an seiner traurigen These festgehalten, wäre nicht viel passiert. Da er nicht einsah, dass seine Ergebnisse falsch waren, gelangte er zu trauriger Berühmtheit und gewann den Ig(noble) Nobelpreis gleich zweimal. Und wurde zum Beispiel dafür, warum soviel Aufwand mit Doppelblindstudien betrieben werden muss.

Das Problem an sich ist auch kein Neues, auf Krebsforschung beschränktes. Bereits 2005 hat John Ioannidis eine viel beachtete Arbeit veröffentlicht, mit dem Titel: Why Most Published Research Findings Are False. Darin kam er zu ähnlichen Ergebnissen wie Begley und Ellis. Pseudowissenschaftler sind damals natürlich sofort erfreut auf das Thema aufgesprungen, weil ja so viel in echter Wissenschaft auch „falsch“ ist. Die Logik ist etwas verschroben, aber offensichtlich ist in dieser Gedankenwelt Unsinn nicht mehr so schlimm, wenn echte Wissenschaft auch Fehler macht.

Der Artikel von Ioannidis ist sehr gut, frei zugänglich, noch immer aktuell und er bespricht die Probleme und mögliche Lösungsansätze. Alex Tabbarok hat vor Jahren eine sehr interessante Analyse des Artikels veröffentlicht. Der wichtigste Punkt verkürzt wiedergegeben: (Verständlichkeit für Nichtmathematiker war uns wichtiger als absolut korrekte Formulierungen)

Annahme: Man teste 1.000 Hypothesen, von denen tatsächlich 800 falsch sind und 200 wahr. Wenn man Thesen testet, will man am Schluss zu mindestens 95% sicher sein, dass das Ergebnis stimmt. Man akzeptiert also üblicherweise, dass 5% falsch sind. 5% der 800 Studien werden also irrtümlich als „korrekt“ getestet. Man macht also alles richtig, trotzdem sind 800*5% = 40 Studienergebnisse falsch. Auch von den tatsächlich wahren Thesen werden einige falsch getestet und so errechnet Tabbarok beispielhaft, dass mit diesen Annahmen nur 75% der Thesen korrekt als richtig identifiziert werden.

Verschlechtert man die anfängliche Quote und testet 1.000 Hypothesen, von denen 950 falsch und 50 wahr sind, so sind plötzlich mehr als 50% der gemessenen Ergebnisse falsch, ohne dass es andere Fehlerquellen gibt. Einfach aus statistischen Gründen.

Wie man sieht, hängt viel von dem Teich ab, in dem man fischt. Wenn man Grundlagenforschung betreibt, sind die meisten Thesen falsch. Hier sei als Literatur auf die Bücher von Hans-Peter Beck-Bornholdt und Hans-Hermann Dubben verwiesen (Mit an Wahrscheinlichkeit grenzender Sicherheit. Logisches Denken und Zufall; Der Hund, der Eier legt; Der Schein der Weisen: Irrtümer und Fehlurteile im täglichen Denken), die das statistische Problem an vielen Beispielen und Bereichen erschöpfend diskutieren.

Wir haben unter anderem deswegen in einem Artikel im Herbst Gute Medizin für die Piraten als Detail „Science Based Medicine“ statt „Evidence Based Medicine“ vorgeschlagen. SBM versucht als Detailverbesserung der EBM diese Probleme zu berücksichtigen. Stichwort: Prior Probability.

Besonders bitter ist aber ein Fall, in dem Begley über ein Gespräch mit einem Autor einer der Arbeiten spricht:

„I explained that we re-did their experiment 50 times and never got their result. He said they’d done it six times and got this result once, but put it in the paper because it made the best story. It’s very disillusioning.“

Hier ist ein Fehler wie im obigen Beispiel eingetreten, aber statt den Fehler als solchen zu akzeptieren, wurde trotzdem veröffentlicht.

Hier wird ein weiteres Problem illustriert, das in der Art liegt, wie Publikationen den „Wert des Wissenschaftlers“ bemessen, also seine Reputation und die Fördermittel, die er erhält. Man steht als Wissenschaftler unter großem Publikationsdruck, man muss Schlagzeilen produzieren und nicht Fußnoten. Dass sich die nachher als falsch erweisen, wird in Kauf genommen. Denn nur gute, interessante Ergebnisse werden publiziert, negative sind nicht erwünscht.

Warum Wissenschaft doch funktioniert
Warum sollte man bei solchen Funden nicht das Vertrauen in die Wissenschaft verlieren? Eben genau deswegen, weil es solche Untersuchungen gibt, weil Studien wiederholt und die Ergebnisse ständig geprüft und hinterfragt werden. Ein falsches Ergebnis „überlebt“ nicht lange. Der wissenschaftliche Prozess ist intakt. Eine Studie zu einem Thema kann immer falsch sein, man muss aufgrund der statistischen Problematik sogar immer damit rechnen. Manchmal genügt ein defektes Kabel, damit selbst Einstein kurzzeitig widerlegt wird!

Dieser ständige Prozess des Überprüfens macht Wissenschaft aus. Nicht die einzelne Studie. Eine einzelne Studie kann immer falsch sein; jedesmal, wenn andere Labors das Ergebnis geprüft haben, gewinnt man an Vertrauen. Das ist aber mit ein Grund, warum Forschung so teuer ist. Man muss alles mehrfach überprüfen.

Und hier liegt auch ein Unterschied zwischen Wissenschaft und Pseudowissenschaft. Wissenschaft versucht, Ergebnisse zu widerlegen. Pseudowissenschaft versucht, Ergebnisse immer nur zu bestätigen.

Auch wenn es den Prozess Wissenschaft (als Konzept) nicht beschädigt, richten diese falschen Publikationen doch einiges an Schaden an. Es kostet Zeit, Geld und Aufwand. Je mehr Ergebnisse im Vorhinein stimmen, desto besser.

Was kann man tun
Begley und Ellis schlagen z.B. vor, dass man Doppelblindstudien in der Grundlagenforschung einführt; auch Ioannidis hat einige Vorschläge, wie man das Problem verbessern kann.

Wir sehen als eines der Kernprobleme die aktuellen Strukturen an sich. Der Wert eines Wissenschaftlers steigt, wenn er in Top-Level-Journalen publiziert. Top-Level-Journale wiederum interessieren negative Ergebnisse nicht. Nur positive, coole Ergebnisse.

Dieses Klima schafft schlechte Wissenschaft. Wir müssen darauf hin arbeiten, dass auch negative Ergebnisse wertvoll sind. Es darf nicht sein, dass ein unsinniges Resultat publiziert wird, aber eine negative Wiederholung kein Magazin interessiert. Open Access/Open Science sollte gefördert werden, Universitäten/öffentlich geförderte Forscher sollten nicht nur ihre Arbeit, sondern auch ihre Daten veröffentlichen (müssen).

Vielleicht liegt auch ein Problem darin, dass nur Studien „etwas wert“ sind. Wissenschaftsblogging ist für die Gesellschaft wertvoll. Viele Wissenschaftler bloggen aus privater Initiative heraus, aber es sollte auch von Universitäten und Arbeitgebern honoriert werden. z.B. könnten Mitarbeiter an Universitäten freigestellt sein, eine gewisse Anzahl an Stunden über ihre Arbeit zu bloggen. Natürlich ohne Zwang, nicht jeder bloggt gerne. Öffentlichkeitsarbeit sollte ebenso honoriert werden wie Studien. Wenn ein negatives Ergebnis vielleicht kein Paper „wert“ ist, warum nicht trotzdem über die Mühe und die Fehlschläge bloggen?

In dem von uns auch besprochenen Buch Reinventing Discovery denkt der Quantenphysiker Michael Nielsen in ähnlichem Sinne auch über die Forschung der Zukunft nach.

Noch eine Randbemerkung: In einem bekannten Forum wurde vor einer Weile einen Kommentar geposted in Richtung „Ist ja nur bei PLoS ONE publiziert …“. PLoS = Public Library of Science. Eine Bibliothek für frei zugängliche Studien. Eigentlich sollte es heißen: „Super, dass das auf PLoS“ veröffentlicht wurde. Studien, die bei Nature o.ä. veröffentlicht werden, sind kostenpflichtig. Studien, die bei Angeboten wie PLoS veröffentlicht werden, sind frei verfügbar und jeder kann sich selbst ein Bild machen. So etwas sollte belohnt werden, nicht die Veröffentlichung in Nature (oder einem ähnlichen Top-Level Magazin).

  1. Ratiomania
    13. April 2012, 23:13 | #1

    Epic! Awesomeness! Blog!

  2. Don Stupido
    14. April 2012, 14:08 | #2

    Eine weitere mögliche Fehlerquelle sollte man aber auch nicht völlig außer Acht lassen:
    Die der „versehentlichen“ Rechtschreibfehler oder Zahlendreher der Autoren.

  3. Groucho
    14. April 2012, 17:10 | #3

    Don Stupido :

    Eine weitere mögliche Fehlerquelle sollte man aber auch nicht völlig außer Acht lassen:
    Die der “versehentlichen” Rechtschreibfehler oder Zahlendreher der Autoren.

    Sorry, wenn ich jetzt etwas direkt bin: Aber wer sowas bewusst tut, ist außerordentlich bescheuert, es ist peinlich genug, wenn es unabsichtlich geschah. Wer bewusst bescheißen will, macht das auf ganz andere Art. Der simpelste Trick ist, unpassende Daten einfach wegzulassen. Wer da bewusst mit Zahlendrehern arbeitet, ist wie gesagt, ziemlich doof.

    Aber das Schöne an der wisenschaftlichen Methode ist: Je relevanter eine Studie und außergewöhnlicher ihre Ergebnisse, umso kritischer wird sie unter die Lupe genommen, umso mehr Andere versuchen, die Ergebnisse zu wiederholen. Und da kommt fast jedes Lügengespinnst zum Vorschein, sei es auch noch so fein gesponnen. Dauert halt manchemal etwas, aber es geschieht.

    In dem Artikel geht es ja weniger um Betrügen (Vielleicht nochmal genauer lesen?) sondern um die Problematik, sich vor einem Bias abzusichern, den jeder Mensch hat, auch mit den allerbesten und ehrlichsten Vorsätzen.

  4. Don Stupido
    14. April 2012, 18:25 | #4

    Ich glaube, Du hast mich etwas mißverstanden.
    Wenn man böses will, kann man im Methodenteil einer Studie durchaus „versehentlich“ schreiben, im Puffersystem waren 10mM MgCl etc.. In Wirklichkeit benutzt man aber nur 1mM. Das führt dann dazu, daß derjenige, der den Versuch Nachkochen will die Ergebnisse nicht so leicht reproduzieren kann und man gewinnt damit noch ein Zeitpuffer gegenüber anderen, wenn man noch Folgeuntersuchungen publizieren mag.
    Ich weiß zwar nicht, ob es untersuchungen gibt, ob und in welchem Umfang sowas passiert, aber zweimal hab ich persönlich schon Fälle gehabt, bei denen der Eindruck entstehen könnte.

  5. Groucho
    14. April 2012, 18:39 | #5

    Don Stupido :

    Ich glaube, Du hast mich etwas mißverstanden.

    Da habe ich Dich missverstanden, stimmt. Ich habe da weniger an den Methodenteil gedacht, als an das „offizielle“ Ergebnis.

  6. Renate Druschinski
    15. April 2012, 18:55 | #6

    1a Blog!
    Der als besonders bitter beschriebene Fall ist jedoch m.E. reiner Betrug, das hat mit publication bias schon nichts mehr zu tun.
    Das Wissen über statistische Methoden ist beklagenswert gering, und in den Medien werden ausschließlich Leute hofiert, die keine Ahnung haben und damit sogar noch prahlen: „Ich glaube keiner Statistik, die ich nicht selbst gefälscht habe“ als Maximum an Sachkenntnis. Schön, dass Esowatch hier eine Ausnahme ist!

    Ganz besonders die Überlegung zu den 1000 getesteten Hypothesen zum 95%-Niveau (wir können meinetwegen gerne dauerhaft die Kontrolle des Fehlers zweiter Art vernachlässigen; wir gehen mal frech von „besten“ Tests aus) wird hoffentlich Standard, denn gerade die Pseudowissenschaftler veröffentlichen immer nur ihre 5%.

  1. Bisher keine Trackbacks

Spamschutz: Setzen Sie einen Haken im ersten, zweiten, dritten und vierten Kästchen

Spam protection: Check the first, second, third and forth box



      

css.php