Versuchsdesign

Ein gutes experimentelles Design erhöht die Wahrscheinlichkeit, belastbare Ergebnisse zu bekommen und erleichtert die statistische Auswertung der Daten ungemein. In diesem Abschnitt lernen Sie die wichtigsten Grundlagen zur Entwicklung eines guten Versuchsdesigns. Am Ende dieses Kapitels

  • kennen Sie die Grundprinzipien des experimentellen Designs
  • kennen Sie einige wichtige Designs für manipulative Experimente
  • wissen Sie, wie man die ungefähr nötige Stichprobengröße bestimmt
  • haben Sie einen Überblick, worauf man bei Experimenten im Freiland und Gewächshaus sonst noch achten muss

Dieses Kapitel ist stark inspiriert von Carsten Dormann’s Buch (2013). Parametrische Statistik: Verteilungen, maximum likelihood und GLM in R, Statistik und ihre Anwendungen. Springer Spektrum. https://doi.org/10.1007/978-3-642-34786-3


Prinzipien für ein gutes Design

Bevor Sie einen Versuch im Freiland oder Gewächshaus starten, um die wissenschaftliche Frage, die Sie nun formuliert haben, zu beantworten, ist es sehr wichtig, genau zu überlegen, wie der Versuch aufgebaut sein soll. Dabei bekommen Sie natürlich Unterstützung von Ihrer Betreuerin/Ihrem Betreuer. Je nachdem wie kompliziert das Design aussehen wird und wie gut sich der Betreuer/die Betreuerin selbst mit statistischen Auswertungen auskennt, kann es auch sinnvoll sein, sich schon zu diesem Zeitpunkt Rat von Statistik-Experten einzuholen. Das ist viel besser als später mit einem löchrigen Datensatz und phantasievollem Design zu kommen und zu hoffen, dass die Analyse durch irgendwelche Tricks noch gerettet werden kann. Die Devise ist: “Erst denken, dann handeln'. Wenn Sie ganz sicher gehen wollen, ist es ein weiterer guter - wenn auch etwas seltsam klingender - Rat: erfinden Sie erstmal Ihre Daten so wie Sie sie in dem angedachten Versuchsdesign erheben könnten. Bei der Auswertung dieser Pseudo-Daten wird häufig schnell klar, wo Schwierigkeiten auftreten könnten und wie Sie gegensteuern können. Natürlich müssen Sie die erfundenen Daten nachher sehr gewissenhaft durch die echten ersetzen!

Das Wichtigste ist, dass Sie mit Ihrem Versuch die Fragen, die Sie formuliert haben, klar beantworten können. Beim Versuchsdesign und auch später bei der Auswertung der Daten ist es oft sinnvoll, sich nochmal auf diese Fragen zurück zu besinnen. Anhand der Fragen entscheiden Sie, welche Pflanzen Sie verwenden, welche Behandlungsmethoden Sie anwenden und welche Daten Sie erheben. Sind Sie nur an der Zahl marktfähiger Früchte pro Pflanze interessiert, ist es normalerweise unnötig, über die gesamt Saison Wachstumsparameter der Pflanzen zu erheben. Einige zusätzliche Messungen können allerdings sinnvoll sein, um die gefundenen Ergebnisse interpretieren und diskutieren zu können.

Außer den oben genannten Aspekten gibt es eine ganze Reihe statistischer Grundprinzipien für ein gelungenes Design, die eine unkomplizierte und belastbare Analyse ermöglichen:

1. Repräsentativität der Stichprobe Mit unserem Experiment wollen wir eine allgemeine Aussage über eine bestimmte Grundgesamtheit, z.B. Apfelbäume der Sorte Pinova und deren Raktion auf eine bestimmte Behandlung machen. Da wir nicht alle existierenden Apfelbäume der Sorte Pinova beproben können, müssen wir mit einer Stichprobe, also einer Teilmenge aller vorhandenen Apfelbäume, zurecht kommen. Diese Stichprobe sollte repräsentativ sein, das heißt zum einen die gesamte Bandbreite an möglichen Werten (z.B. Ertrag) abdecken und zum anderen nicht verzerrt sein. Das können wir erreichen, indem wir eine ausreichend große Stichprobe erheben (d.h. genügend Wiederholungen, Replikationen, im statistischen Jargon meistens mit N bezeichnet) und dass diese Wiederholungen zufällig gewählt werden. Beprobt man nur Apfelbäume der Sorte Pinova mit der Unterlage M18, dann ist die Stichprobe nur für diese Unterlage repräsentativ, nicht aber für alle Apfelbäume der Sorte Pinova.
Wichtig ist, dass Sie für jede Wiederholung auch einen Wert erheben:

Wenn Sie zum Beispiel 30 Erdbeeren zusammenwerfen und den Fruchtzuckergehalt bestimmen, ist das zwar besser, als wenn Sie dazu nur eine Erdbeere verwenden, statistisch gesehen gibt es aber nur eine Wiederholung. Wir benötigen nämlich nicht nur den Mittelwert (den wir ja so bekommen) sondern auch die Variabilität zwischen den gemessenen Werten für die statistische Verrechnung. Ideal wäre, den Fruchtzuckergehalt aller Früchte einzeln zu bestimmen. Wenn das zu aufwändig/kostenintensiv ist, ist es immernoch besser, nur je 10 Erdbeeren zusammenzuwerfen, dann also 3 Wiederholungen zu haben.

2: Unabhängigkeit Die einzelnen Wiederholungen müssen unabhängig voneinander sein, was bedeutet, dass die Werte einer Wiederholung keine Informationen über die Werte anderer Wiederholungen enthalten, es also keine Verbindung zwischen den Stichproben gibt.

Wenn Sie zum Beispiel 3 Apfelbäume je einer Behandlung unterziehen und danach pro Baum die Fruchtsäure von 10 Früchten messen, sind die Werte der 10 Äpfel keine unabhängigen Wiederholungen, weil die gemessenen Werte von Früchten desselben Baumes auch ohne die Behandlung ähnlicher wären, als die Werte von Früchten verschiedener Bäume. Der Fruchtsäuregehalt des ersten gemessenen Apfels gibt also Informationen darüber, wie hoch der Fruchtsäuregehalt des 2. Apfels desselben Baumes in etwa ist. Man spricht in diesem Fall von auch Pseudo-Replikationen.

3: Kontrolle Um den Effekt einer Behandlung quantifizieren zu können, müssen wir wissen, wie das Ergebnis ohne die Behandlung ausgesehen hätte. Dazu brauchen wir eine Kontrollgruppe, also Versuchseinheiten, die nicht mit der zu untersuchenden Methode behandelt wurden. Damit wir den eigentlichen Effekt der Behandlung messen können, müssen wir mögliche Nebeneffekte der Behandlung bedenken und die Kontrolle entsprechend anpassen.

Wenn wir zum Beispiel Tomaten wöchentlich mit einem in Wasser gelösten Pestizid besprühen, kann nicht nur das Pestizid an sich, sondern auch das Besprühen einen Effekt auf die Fruchtqualität haben. Deshalb sollte die Kontrollgruppe ebenfalls besprüht werden, in diesem Fall mit reinem Wasser.

4: Orthogonalität Häufig untersuchen wir nicht nur den Effekt einer Behandlung sondern interessieren uns für die Effekte mehrerer Behandlungen und deren Kombination. Zum Beispiel möchten wir die Reaktion von Getreide auf Phosphatdüngung und Stickstoffdüngung untersuchen. Wenn wir nur 3 Typen von Untersuchungsflächen haben (Kontrolle, Phosphor, Phospor + Stickstoff), können wir den Effekt von Phosphor + Stickstoff nicht eindeutig interpretieren, weil wir nicht wissen, wie die Reaktion auf reine reine Stickstoffdüngung gewesen wäre. Nur ein faktorielles Design in dem alle Level der einen Behandlungen mit allen Leveln der anderen Behandlung kombiniert werden, erlaubt eine vollständige Interpretation. Wir brauchen bei diesem Experiment also die Behandlungen Kontrolle, nur Phosphor, nur Stickstoff, Phosphor und Stickstoff. So sind die Behandlungen Phosphor und Stickstoff in der Analyse unabhängig voneinander (= orthogonal) und wir können auf die einzelnen Effekte von Phosphor und Stickstoff und auf mögliche Interaktionen (Hat die Verfügbarkeit von Phosphat einen Einfluss auf die Reaktion der Pflanze auf Stickstoff?) testen.

5: Konstante Bedingungen Außer den Effekten, auf die wir testen wollen, sollten die Umweltbedingungen für alle Versuchseinheiten möglichst konstant sein. Wir müssen zum Beispiel davon ausgehen, dass Sonneneinstrahlung in nur einem Teil des Gewächshauses einen Effekt auf verschiedene Pflanzenparameter (Chlorophyll, Wachstum, Zuckergehalt) hat. Ebenso kann die Bodenqualität über die Versuchsfläche variieren und ebenfalls einen Effekt auf Wachstum der Pflanzen etc. haben. Wenn möglich sollten solche Effekte vermieden werden. In der Praxis ist das allerdings häufig nicht möglich. Das wichtigste ist zu verhindern, dass nur bestimmte Level einer Behandlung (z.B. nur die mit Stickstoff gedüngten Pflanzen im Beispiel oben) im helleren Teil des Gewächshauses stehen. So kann man später nicht mehr herausrechnen, ob der beobachtete Effekt eine Reaktion auf die Düngung oder die stärkere Sonneneinstrahlung ist. Deshalb sollten die Proben immer zufällig durchmischt stehen, sodass es in allen Ecken des Gewächshauses Pflanzen mit allen Behandlungsleveln gibt. Denken Sie auch daran, dass es einen Einfluss auf die Werte haben kann, wer die Beprobung vorgenommen hat. Wenn Sie mit mehreren Personen Daten erheben, sollte nicht eine Person alle Kontrollen aufnehmen und die andere Person alle anderen Behandlungen. Schreiben Sie im Zweifel auf, wer welche Daten erhoben hat. Auch dieser Faktor kann bei der statistischen Analyse einbezogen werden.

Eine weitere Möglichkeit, Umweltheterogenität herauszurechen besteht in der Bildung von Blöcken. Wenn wir zum Beispiel in 8 Parzellen unsere Behandlungslevels wiederholen, stellt die Parzelle einen Block dar und wir nutzen Parzellennummer, um mögliche (unbekannte) Unterschiede zwischen den Parzellen aus den Ergebnissen herauszurechnen. Die für das Versuchsziel wichtigen Vergleiche müssen dafür innerhalb der Blöcke vorgenommen werden. Zweck der Blockbildung ist es, die Genauigkeit blockinterner Vergleiche zu erhöhen.

Regel 6: Balanciertes Design Ein balanciertes Desging bedeutet, dass in allen Behandlungsgruppen die gleiche Anzahl von Wiederholungen sind. Viele statistische Tests setzen balancierte Designs voraus. Einzelne fehlende Werte (z.B. wenn Pflanzen gestorben sind) sind aber kein Problem.

Das ideale Versuchsdesign wird häufig aufgrund von mangelndem Platz, mangelnder Zeit, mangeldem Geld… nicht möglich sein. Das ist auch allen Betreuern und auch Reviewern und Editoren von wissenschaftlichen Journalen auch klar. Wichtig ist, diese Beschränkungen in der Arbeit zu nennen und die möglichen Effekte zu diskutieren.

Wichtige Designs für manipulative Experimente

Es gibt einige typische Designs für manipulative Experimente, welche die obigen Regeln beachten und vernünftig ausgewertet werden können. Hier die drei wichtigsten:

Vollständig randomisiertes Blockdesign

Die unterschiedlichen Behandlungen werden alle miteinander kombiniert (Orthogonalität) und in einem Block zusammengefasst. Innerhalb eines Blocks werden die Behandlungen zufällig zugewiesen. Die einzelnen Blöcke stellen die Wiederholungen des Versuchs dar.

Blockdesign

Ein 20-fach repliziertes, randomisiertes Blockdesign. Die unterschiedlichen Grauabstufungen indizieren verschiedene Behandlungen. (Aus ‘Angewandte Statistik für die biologischen Wissenschaften, Dormann und Kühn, 2007)

Dies ist ein sehr sauberes und leicht auszuwertendes Design: es gibt keine Abhängigkeiten zwischen den Behandlungen und Blöcken. Typischerweise wird so ein Design mit einer ANOVA mit einem gemischten Modell ausgewertet in das außer den Behandlungen als feste Faktoren, die Blöcke als zufällige Faktoren eingehen (das besprechen wir später).

Split-plot Design

Anders als beim Block-Design werden hier die verschiedenen Level einer Behandlung innerhalb einer anderen Behandlung angewendet. Im Beispiel unten werden innerhalb der Behandlungen A bis F (‘whole plots’) jeweils die Behandlungen S1 und S2 (sub-plots) appliziert. Dies wird mehrfach wiederholt (Rep 1 bis Rep 4). Ein solches Design wird meistens aus praktischen Gründen gewählt, zum Beispiel weil es einfacher ist, eine große Fläche zu mähen als mehrere kleine. Dieser Vorteil wird allerdings durch eine etwas kompliziertere statistische Analyse erkauft. Das split-plot Design muss in die Analyse einbezogen werden und die Behandlungen auf den ‘whole plots’ (Mahd) werden vor den Behandlungen auf den ‘sub-plot’ (z.B. Mahd und Düngung) analysiert.

Split-plot desing

Nested design

Innerhalb einer Behandlungseinheit (zum Beispiel einem Baum) werden mehrere Messungen durchgeführt, entweder parallel (mehrere Blätter, mehrere Früchte) oder zu mehreren Zeitpunkten. Ein anderes Beispiel ist in der Abbildung unten dargestellt: Innerhalb der gemähten/ungemähten Flächen werden zufällig 10 Quadrate festgelegt in denen zum Beispiel Bodenparameter aufgenommen werden. Die 10 Messwerte aus einer Fläche sind nicht unabhängig sondern genestet (vielleicht gibt es ja einen natürlichen Gradienten der Bodenparameter und Proben aus einer Fläche sind sich deshalb unabhängig von der Mahd ähnlicher als solche aus unterschiedlichen Flächen). Deshalb sind die 10 Quadrate keine echten Wiederholungen, sondern Unterproben (Pseudo-Wiederholungen) und müssen in der Analyse als solche behandelt werden. Die Anzahl der Wiederholungen wäre hier nur N = 2, durch die Unterproben hat die Analyse trotzdem mehr Power, Unterschiede zwischen den Behandlungen nachzuweisen als wenn es je nur ein Quadrat pro Fläche gäbe oder als wenn man die Werte der 10 Quadrate mitteln würde.

Nested Design
Genestetes Desing mit “Mahd” als Behandlung, 2 Replikationen (links und rechts) und je 10 Unterproben.

Stichprobengröße abschätzen

Grundsätzlich gilt, dass man mit mehr Wiederholungen die Effekte einer Behandlung sicherer nachweisen kann. Natürlich ist die Anzahl an Wiederholungen meistens durch den zeitlichen, räumlichen und finanziellen Rahmen begrenzt. Wenn man etwas Vorwissen zu der Variabilität der Parameter, die gemessen werden sollen (Ertrag, Größe, ect) hat, kann man abschätzen, wie viele Wiederholungen benötigt werden, um einen Effekt einer bestimmten Größe nachzuweisen.

Dabei gilt: je größer die Reaktion auf die Behandlung ist, je weniger variable die gemessenen Parameter sind und je größer die Stichprobe, desto wahrscheinlicher lässt sich der Effekt nachweisen. Dies ist in folgender Abbildung veranschaulicht: die blauen und grünen Kurven stellen gemessene Werte (entlang der x-Achse) mit zwei verschiedenen Behandlungen dar. Die grüne Behandlung führt zu höheren Werten (z.B. Ertrag), sie liegen auf der x-Achste weiter rechts. Liegen die Kurven nah beieinander, wie im Beispiel auf der linken Seite, ist der Effekt weniger leicht nachzuweisen als wenn sie weiter voneinander entfernt liegen, wie im Beispiel rechts oben. Der Effekt ist auch schwerer nachzuweisen, wenn die Kurven breit sind, es also viel Variabilität in den Daten gibt. Wenn sich die aufgenommenen Werte innerhabl der Behandlungen stark ähneln, also nicht so variabel sind, sind die Kurven schmaler und der Effekt der Behandlung kann leichter nachgewiesen werden. Der Effekt kann auch leichter nachgewiesen werden, wenn es viele Wiederholungen gibt, die Lage und Form der Kurven also sicherer bestimmt werden kann, wie im Beispiel unten rechts im Gegensatz zum Beispiel unten links (die grüne Behandlung ist rot geworden, diese Abb. werde ich bei Gelegenheit noch verbessern).

Faktoren die beeinflussen, ob ein Effekt nachweisbar ist

Im Statistikprogramm R, das wir demnächst kennenlernen werden, gibt es die Möglichkeit, die minimal nötige Anzahl an Wiederholungen zu schätzen, um einen Effekt einer bestimmten Größe nachweisen zu können. Dafür benötigt man

  • d = Unterschied/Effekt, den man mindestens erkennen können möchte (detection level)
  • α = Signifikanzniveau, das festlegt, ab wann man ein Ergebnis als signifikant einstuft (üblicherweise 0.05)
  • β = gewünschte Trennschärfe (power) des Testes, üblicherweise 0.9
  • Varianz innerhalb der Behandlungen

Frage: Unterscheidet sich der Ertrag bei Himbeeren unter 4 verschiedenen Behandlungen?
Signifikanzniveau: α = 0.05
Testmacht: 1 − β = 0.9
Vorwissen: Varianz innerhalb der Gruppen ist in etwa 280.
Wir wollen einen Effekt nachweisen können wenn er mindestens 400 beträgt.

In wie vielen Parzellen mit Himbeeren muss der Ertrag gemessen werden, um den Effekt der Behandlung statistisch nachweisen zu können?

power.anova.test(groups=4, n=NULL, between.var=400,
within.var=280, sig.level=0.05, power=0.9)
## 
##      Balanced one-way analysis of variance power calculation 
## 
##          groups = 4
##               n = 4.429616
##     between.var = 400
##      within.var = 280
##       sig.level = 0.05
##           power = 0.9
## 
## NOTE: n is number in each group

R hat berechnet, dass es mindestens n = 4.42… Wiederholungen braucht, um einen Effekt von mindestens 400g nachweisen zu können. Da wir nur mit ganzen Parzellen arbeiten, sollten Sie mindestens 5 Wiederholungen pro Behandlung einplanen.

Weitere Überlegungen zum Versuchsdesign

Außer den genannten statistischen Erwägungen sollte natürlich ein gartenbauliches Verständnis die Planung des Versuches leiten. Wichtig hierbei sind zum Beispiel Effekte die durch die Lage einer Wiederholung im Versuchsaufbau zustande kommt (Randeffekte) sowie die Praktikabilität der Datenerhebung. Einige dieser Punkte werden im “Handbuch für Versuchsanstellung” diskutiert. Ich habe Ihnen hier den Teil “Versuchsmethodik” verlinkt:

https://uni-bonn.sciebo.de/s/IIwvesgZgBDEmgq

Aus: Ulrike Lindner, Bettina Billmann (Hrsg.) (2006) Planung, Anlage und Auswertung von Versuchen im Ökologischen Gemüsebau. Handbuch für die Versuchsanstellung. Forschungsinstitut für biologischen Landbau (FiBL), Frick, Schweiz und Frankfurt, Deutschland, ISBN 978-3-906081-97-7

Sie werden einige der oben genannten Punkte in etwas gartenbaulicherer Sprache wiederfinden, zusätzlich aber auch Anregungen zum Umgang mit Randparzellen und der Anordung in Gewächshäusern. Eine Anmerkung zu dem Punkt ‘Wiederholungen’: 2 Wiederholungen, die hier als üblich bezeichnet werden, mögen tatsächlich üblich sein, sind aber m.E. für die allermeisten Experimente nicht ausreichend. Versuchen Sie lieber, kleinere und dafür mehr Versuchseinheiten zu wählen, um eine gute statistische Auswertung zu ermöglichen. Meine Empfehlung: mindestens 5 Wiederholungen, wenn irgendwie möglich - je mehr, desto besser!

Previous
Next