Skitourenguru

Auswertung 1 (Referenzdatensatz)

1. Ziele

Ziel der Skitourenguru-Umfrage ist die Definition einer Referenz-Bewertung. Unter einer Referenz-Bewertung wird eine Lawinen-Risiko-Bewertung von Gipfelzielen verstanden, die als "stimmig" wahrgenommen wird. Mit Hilfe der Referenz-Bewertung kann im folgenden die Qualität der Bewertung von Skitourenguru bestimmt werden. Durch Analyse von Unstimmigkeiten lässt sich schlussendlich der Algorithmus verbessern. Eine Bewertung wird dann als "stimmig" angesehen, wenn sie in den Augen von Schneesportlern als sinnvoll und hilfreich eingestuft wird. So lange keine bessere Alternative in Sicht ist, kann sich die Referenz-Bewertung nur an der Einschätzung von "möglichst erfahrenen" Schneesportlern orientieren.

Konkret sollen drei Fragen beantwortet werden:

  1. Inwieweit ist sich eine Gruppe von erfahrenen Schneesportlern darüber einig welche Route bei welchem Lawinenbulletin wie zu bewerten wäre?
  2. Inwieweit stimmen die manuellen Bewertungen überein mit jenen, die von Skitourenguru automatisch berechnet werden?
  3. Was lässt sich zur Verbesserung des Algorithmus aus Unterschieden zwischen automatischen und den manuellen Bewertungen lernen?

Es geht hier also um die Frage, ob der Mensch und die Maschine eine Reduktionsmethode in ähnlicher Weise anwenden können. Diese Fragestellung schliesst nicht aus, mittels Unfalls- und Verkehrsstatistik eine Validierung (oder Optimierung) der Reduktionsmethode vorzunehmen. Eine derartige Arbeit hätte jedoch ein anderes Ziel, als die vorliegende Umfrage.

2. Relativierung

Im Zusammenhang mit dieser Umfrage stellen sich eine Reihe von schwierigen Fragen:

1. Teilnehmer

  • Wer genau nimmt an einer derartigen Umfrage teil?
  • Welches Erfahrungsniveau müssen die Teilnehmer aufweisen?
  • Welches Erfahrungsniveau weisen die Teilnehmer de-facto auf?
  • Welche Rolle spielen unterschiedliche Gebietskenntnisse?

2. Verständnis der Umfrage

  • Nach welchen Kriterien sollen die Routen bewertet werden (z.B. enge, versus offene Auslegung der GRM)?
  • Inwieweit wird der Risiko-Indikator (0.0-3.0) von den Teilnehmern gedanklich gleich skaliert?

3. Konstruktion der Umfrage

  • Welche Routen und Bulletins werden gewählt?
  • Nach welchen Kriterien werden die Routen gelegt?
  • Wie viel Auslegungsspielraum bezüglich GRM wird in der Aufgabenstellung freigegeben?

4. Auswertung

  • Welches Stimmengewicht bekommt welches Erfahrungsniveau?
  • Nach welchem Verfahren soll die "Distanz" von jeder Teilnehmer-Bewertung zur Referenz-Bewertung gezogen werden?
  • Wie soll mit Ausreissern umgegangen werden?

Diese Fragen können nicht eindeutig beantwortet werden, da die verwendeten Begriffe unscharf sind. Skitourenguru möchte deshalb an dieser Stelle betonen, dass diese Umfrage keinen Anspruch auf "Objektivität" erhebt. Eine solche wäre zwar wünschenswert, sie ist auf Grund der weichen Kriterien nur bedingt möglich. Es geht Skitourenguru also nicht darum ein für allemal zu bestimmen, was die "stimmigen" Bewertungen auf den 30 vorgestellten Routen sind, sondern um einen vorläufigen Vorschlag für die ungefähren Richtwerte.

Es ist wichtig zu verstehen, dass es sich hier nicht um eine klassische Stichprobennahme handelt, sondern um die Bildung einer Expertenmeinung. Der Wert dieser Umfrage liegt darin, dass in einem Umfeld von Unbestimmtheit erste Konturen erscheinen. Der Schritt von Unwissen zu unscharfem Wissen ist eben genau so ein Fortschritt, wie das Ausmerzen von weiterer Unschärfe.

3. Referenz-Bewertung

Um zu einer Referenz-Bewertung zu gelangen, wird der Durchschnitt zwischen der Meinung aller Teilnehmer gezogen. Es liegt jedoch auf der Hand, dass die Einschätzung eines Experten ein höheres Gewicht haben muss, als die Einschätzung eines Anfängers. Je nach Erfahrungsniveau bekommen Teilnehmende eine unterschiedliche Anzahl von Stimmen:

  • Anfänger: 1 Stimme
  • Fortgeschrittene: 2 Stimmen
  • Experten: 4 Stimmen
  • Skitourenguru: Kein Stimmrecht.

Die genaue Zuteilung von Stimmrechten widerspiegelt das Vertrauen, das dem entsprechenden Expertenwissen zugesprochen wird. Es wird hier also von einer Verdoppelung des Expertenwissens zwischen den einzelnen Erfahrungsniveaus ausgegangen. Ungefähr ein Drittel der Teilnehmer sind dem Autor von Skitourenguru persönlich bekannt. Zum Teil handelt es sich um ausgewiesene, hochkarätige Experten in Sachen Lawinenkunde.

Da die Teilnehmerzahl die Marke von 30 überschritten hat, macht es Sinn Ausreisser zu identifizieren. Zur Zeit wird auf Ebene der Einzelbewertung eine Sigma2-Methode verwendet, um solche Ausreisser zu bezeichnen. Im Schnitt werden 8.33 % der Bewertungen als Ausreisser klassifiziert und aus der Statistik eliminiert. Die Schwelle für die Ausreisser-Identifikation ist also relativ hoch.

Die unten stehende Tabelle zeigt die Punktschätzung für den Risiko-Indikator. Aus der Zahl in Klammern kann das 99%-Konfidenzintervall abgeleitet werden.

Einigkeit bzw. Uneinigkeit unter den Teilnehmern

Zunächst interessiert uns, inwieweit sich die Teilnehmer einig sind über die Bewertung. Die Standardabweichung stellt ein geeignetes Mass dar, um die Einigkeit bzw. Uneinigkeit zu quantifizieren. Je kleiner die Standardabweichung, desto grösser ist die Übereinstimmung unter den Teilnehmern. Wenn bspw. eine Route bei einem spezifischen Lawinenbulletin im Durchschnitt mit 1.40 und einer Standardabweichung von 0.30 bewertet wurde, dann bedeutet dies bei einer Normalverteilung, dass 68.2 % der Teilnehmer innerhalb eines Bereiches von ±0.30 um den Wert 1.40 liegen.

Die durchschnittliche Standardabweichung über alle 90 Bewertungen liegt bei 0.29. In Anbetracht der offenen Fragestellung ist das als eine relativ hohe Übereinstimmung zu werten. Die Übereinstimmung ist bei "erheblich" (0.35) kleiner, als bei "mässig" (0.31) bzw. bei "gering" (0.20).

Konfidenzintervall

Nun stellt sich die Frage, wie vertrauenswürdig die Schätzwerte für den Risiko-Indikator eigentlich werden. Diese Frage kann mit Hilfe einer Intervallschätzung beantwortet werden. Die Zahlen in Klammern bezeichnen jeweils das 99%-Konfidenzintervall. Wenn bspw. der Selun bei "mässig" im Durchschnitt mit mit 0.63 (±0.16) bewertet wurde, dann bedeutet dies, dass der "wahre Wert" mit einer Wahrscheinlichkeit von 99 % im Intervall [0.63-0.16...0.63+0.16] liegt. Als "wahrer Wert" wird hier derjenige Wert bezeichnet, der resultieren würde, wenn man die Grundgesamtheit (alle 250'000 Skitourengänger der Schweiz) befragen könnte. Der Wert in Klammern drückt also so etwas, wie die Schätz-Genauigkeit aus. Das Konfidenzlevel wurde bei hohen 99 % angesetzt, um keinen Zweifel darüber aufkommen zu lassen, dass aus statistischer Sicht die Punktschätzungen sehr vertrauenswürdig sind. Sollten die Risiko-Indikatoren dennoch als "unstimmig" wahrgenommen werden, so muss dies also auf das Setting der Umfrage (siehe oben) und nicht auf die statistische Auswertung zurückgeführt werden.

Ein Blick auf die obige Tabelle zeigt, dass das grösste Konfidenzintervall bei ±0.16 liegt. Aus statistischer Sicht ist diese Schätz-Genauigkeit gross genug, um davon auszugehen, dass die Referenz-Bewertung eine hohe Güte aufweist. Ob nun der "wahre Wert" im Extremfall nochmals um 0.16 höher oder tiefer ausfällt ist schlicht weg egal, schliesslich geht es immer v.a. um die Grössenordnung des Risiko-Indikators. Die hohe Schätz-Genauigkeit hängt übrigens damit zusammen, dass sich die Teilnehmer im grossen und ganzen doch recht einig waren. Ins Gewicht fällt natürlich auch die recht ansehnliche Teilnehmerzahl. Interessant ist zudem die Aufschlüsselung nach Lawinenbulletin. Die Schätz-Genauigkeit ist bei "erheblich" (±0.16) kleiner, als bei "mässig" (±0.15) bzw. bei "gering" (±0.12).

4. Skitourenguru

Die folgende Tabelle zeigt die automatisch generierte Bewertung von Skitourenguru. Diese kann anschliessend systematisch mit obiger Referenz-Bewertung verglichen werden.

5. Distanz-Analyse

Sobald nun die Referenz-Bewertung festgelegt ist, kann von jedem Teilnehmer die durchschnittliche Distanz zu dieser Referenz-Bewertung bestimmt werden. Je geringer diese durchschnittliche Distanz, desto "besser" hat der Teilnehmer die allgemeine Einschätzung getroffen. Dem entsprechend lassen sich die Teilnehmer (inkl. dem Skitourenguru) in eine Rangliste bringen.

Achtung: Diese Einordnung erhebt keinen Anspruch auf "Objektivität". Skitourenguru geht es nicht darum die Teilnehmer zu qualifizieren. Im Vordergrund steht die ungefähre Position von Skitourenguru.

Nun kann die durchschnittliche Distanz zur Referenz-Bewertung auf verschiedene Weisen berechnet werden. In der nachfolgenden Tabelle sind die Teilnehmer nach einem sogenannten Malus-System eingeordnet.

Zum Verständnis der Tabelle:

1. Malus:

Je nach dem, ob ein Teilnehmer die "richtige " Risiko-Kategorie (grün, orange, rot) getroffen hat oder nicht, erhält er Malus-Punkte. Ein Teilnehmer, der alle 90 Risiko-Kategorien getroffen hat, erhält im besten Fall 0 Malus-Punkte. Falls der Teilnehmer um eine Risiko-Kategorie daneben liegt, erhält er 1 bzw. 2 Malus-Punkte. Falls der Teilnehmer um zwei Risiko-Kategorien daneben liegt, erhält er 4 bzw. 8 Malus-Punkte. Der tiefere Wert kommt zum Zug, wenn der Teilnehmer defensiver geschätzt hat. Der höhere Wert kommt zum Zug, wenn der Teilnehmer aggressiver geschätzt hat. Ein Beispiel: Die richtige Bewertung liege bei "orange". Der Teilnehmer hat auf "rot" getippt, liegt also um eine Risiko-Kategorie daneben. Da seine Einschätzung "defensiver" war (rot statt orange), bekommt er "nur" einen Malus-Punkt. Das Malus-System "bestraft" also Einzelbewertungen, die zwei Risiko-Kategorien daneben liegen vier mal so stark, wie solche die nur um eine Risiko-Kategorie daneben liegen. Wer zu "aggressiv" bewertet wird zudem doppelt so hoch "bestraft", wie jemand, der zu "defensiv" bewertet. Die Gewichtung ergibt sich aus der Bedeutung der drei Risiko-Kategorien (Beachte die Logik einer Verkehrsampel), dennoch ist die Ausgestaltung des Malus-Systems nicht mehr als plausibel.

2. Mean:

Diese Kolonne berechnet den Durchschnitt (Mean) über alle 90 Fehlerwerte. Der Fehlerwert entsteht durch die Differenz zwischen der Teilnehmer-Bewertung und der Referenz-Bewertung. Da mit dem Vorzeichen gerechnet wird, entsteht hier ein Mass dafür, ob der Teilnehmer eher aggressiv oder defensiv bewertet: Ein negativer Mean bedeutet, der Teilnehmer hat eher aggressiv bewertet, ein positiver Mean bedeutet, der Teilnehmer hat eher defensiv bewertet.

3. Sigma:

Diese Kolonne berechnet die Standardabweichung (Sigma) über alle 90 Fehlerwerte. Der Fehlerwert entsteht durch die Differenz zwischen der Teilnehmer-Bewertung und der Referenz-Bewertung. Sigma gibt ein Mass dafür, wie nahe oder fern ein Teilnehmer  bei der Referenz-Bewertung liegt. Je kleiner Sigma, desto näher liegt der Teilnehmer an der Referenz-Bewertung. Je grösser Sigma, desto weiter entfernt liegt der Teilnehmer von der Referenz-Bewertung. Da während der Berechnung von Sigma der Mean abgezogen wird, spielt es hier jedoch keine Rolle, ob der Teilnehmer eher aggressiv oder defensiv bewertet. Es wird also einzig berücksichtigt, ob der Teilnehmer das relative Muster der Referenz-Bewertung getroffen hat. Er kann dieses Ziel unabhängig davon, ob er eher aggressiv oder defensiv bewertet, erreichen.

6. Mean/Sigma-Streudiagramm

Die folgende Grafik verteilt alle Teilnehmer auf einem Mean/Sigma-Streudiagramm.

Die Achsen haben die folgende Bedeutung:

  • X-Achse (Mean): Je weiter links ein Teilnehmer, desto "aggressiver" ist der Teilnehmer. Je weiter rechts ein Teilnehmer, desto "defensiver" ist der Teilnehmer.
  • Y-Achse (Sigma): Je weiter unten ein Teilnehmer, desto besser hat er das relative Pattern der Referenz-Bewertung getroffen. Je weiter oben ein Teilnehmer, desto schlechter hat er das relative Pattern der Referenz-Bewertung getroffen.

Auf beiden Achsen kommt die Metrik des Risiko-Indikators (0.0..3.0) zum Zuge. Als "blauer Punkt" ist der Skitourenguru markiert. Ganz offensichtlich ist der Skitourenguru ein guter Bewerter (weit unten) und zudem ein defensiver Bewerter (weit rechts). Der "graue Punkt" bezeichnet eine Idealposition: Leicht defensiv, jedoch das relative Muster der Referenz-Bewertung perfekt getroffen (Sigma = 0). Je näher ein Teilnehmer dem grauen Punkt kommt, desto idealer dessen Bewertung. Skitourenguru liegt unter den 6 Teilnehmern, die die geringste Distanz zur Idealposition aufweisen.

7. Interpretation

Zunächst fällt auf, dass die Teilnehmer unterschiedlich aggressiv bzw. defensiv sind. Skitourenguru gehört zur Gruppe der "defensiven" Bewerter. Es gibt nur wenige Teilnehmer, die noch "defensiver" bewerten! Der Mean von ca. 0.25 kann auch als Reserve  interpretiert werden. Man könnte also argumentieren, dass Routen bis zu einem Risiko von ca. 1.25 ein "tiefes Risiko" (grün) aufweisen. Diese Reserve ist Absicht. In dem Masse wie die Resultate von Skitourenguru besser werden (weniger Ausreisser), wird es auch möglich sein die Reserve kleiner anzusetzen. Zur Zeit ist es jedoch sinnvoll mit einer relativ hohen Reserve in den Betrieb zu gehen.

Im Malus-System liegt der Skitourenguru auf Platz 7 von 33 Teilnehmern. Das ist schon mal keine schlechte Position, wenn man bedenkt, dass alle Teilnehmer viel Erfahrungen in Sachen Lawinenkunde aufweisen. Interessant ist, dass es dem Skitourenguru gelingt auf diese Position zu kommen, obwohl er sehr defensiv bewertet. Auch wenn die Rangfolge über Sigma bestimmt wird, liegt der Skitourenguru auf Platz 7. Unabhängig davon, wie die Distanz-Analyse vorgenommen wird, der Skitourenguru ist nicht nur "bei den Leuten", sondern mindestens unter dem ersten Viertel der Teilnehmer.

Interessant wäre auch die Aufschlüsselung nach Erfahrungsniveau. Bewerten Experten anders als Fortgeschrittene oder Anfänger? Bei der aktuellen Anzahl an Teilnehmern macht eine solche Auswertung noch keinen Sinn.

Skitourenguru fühlt sich dem OpenData-Gedanken und der Transparenz verpflichtet. Falls du die Resultate selber nachvollziehen willst, kannst du dir die anonymisierten Bewertungen herunterladen: Manuelle Bewertungen als CSV file. In der ersten Zeile findest du das Gewicht der einzelnen Teilnehmer. Das Gewicht gibt Aufschluss über das Erfahrungsniveau des entsprechenden Teilnehmers. Die Kolonnen enthalten alle 90 Bewertungen (30 Routen bei 3 Lawinenbulletins) der einzelnen Teilnehmer. Die letzte Kolonne, jene mit dem Gewicht 0, enthält die automatische Bewertung von Skitourenguru. Falls du die Daten direkt oder indirekt veröffentlichen willst, benenne die Herkunft der Daten in folgender Weise (© 2016 Skitourenguru, Umfrage).

8. Diskussion

Was ist das Ziel der "Umfrage"?

Drei Fragestellungen stehen im Vordergrund:

  1. Inwieweit ist sich eine Gruppe von erfahrenen Schneesportlern darüber einig welche Route bei welchem Lawinenbulletin wie zu bewerten wäre?
  2. Inwieweit stimmen die manuellen Bewertungen überein mit jenen, die von Skitourenguru automatisch berechnet werden?
  3. Was lässt sich zur Verbesserung des Algorithmus aus Unterschieden zwischen automatischen und den manuellen Bewertungen lernen?

An wen richtet sich die "Umfrage"?

An alle Skitourengänger, die sich mit der Planung von Skitouren beschäftigen, d.h. an Anfänger, Fortgeschrittene und an Experten. In der Excel-Tabelle kann das entsprechende Niveau angekreuzt werden.

Ist es sinnvoll das Lawinenbulletin derart zu reduzieren?

Die Aufgabenstellung ist derart gestaltet, dass im Lawinenbulletin alle Informationen ausser Gefahrenstufe, kritische Höhe (und eventuell kritische Expositionen) unterdrückt werden. Macht eine Bewertung von Routen losgelöst von weiteren Informationen (z.B. Text des Lawinenbulletins oder Kontext der geplanten Skitour) überhaupt Sinn? Bei der vorliegenden Aufgabenstellung geht es in erster Linie um die GRM. Die GRM kann ausschliesslich die erwähnten Daten aufnehmen. D.h. alle anderen Informationen müssen in dieser Versuchsanordnung unterdrückt werden. Man erinnere sich, dass das primäre Ziel von Skitourenguru in der Erstellung einer initialen Kandidatenliste (Routen-Triage) liegt. Für diese Aufgabe ist der eingeengte Blickwinkel der GRM durchaus sinnvoll. Bei der nachfolgenden Detail-Planung der Skitour muss natürlich unbedingt der gesamte Kontext miteinbezogen werden.

Geht es um die Bewertung nach der GRM oder um eine Bewertung in einem umfassenden Sinn?

Es geht in erster Linie um die Bewertung nach der GRM. Die GRM müsste für "gering" und für "mässig" ein eindeutiges Resultat liefern. bei "erheblich" besteht auf Grund der unklaren Hangdefinition mehr Spielraum. Wenn bei der Umfrage bewusst/unbewusst weitere Faktoren (z.B. Kammnähe, Rücken, Rippen, Mulden, Rinnen) berücksichtigt werden, so ist dies nicht zu verhindern. Es geht hier nicht um eine wortwörtliche Auslegung der GRM (die es sowieso nicht gibt), sondern um die "plausible" Bewertung der Routen. Wie dann dieses bewusst/unbewusst applizierte Know-How in den Algorithmus zurückfliesst ist eine andere Frage.

Warum genau diese Bulletins?

Homogene Lawinenbulletins erleichtern die manuelle Bewertung. Aus diesem Grund wurden Lawinenbulletins gewählt, die über die ganze Schweiz homogen sind. Auch das Differenzieren nach Exposition würde die Aufgabe unnötig verkomplizieren. Weshalb aber die Unterscheidung nach Höhenstufe. Die Höhenstufe 1900 m (genau genommen ein Übergangsbereich von 1700 m auf 1900 m) wurde so gewählt, um den "unbewussten Wald-Effekt" aufzufangen. Es besteht der Verdacht, dass bei der Bewertung unbewusst die Höhenstufe unterhalb 1800 m als "unkritischer" bewertet wird.

Warum nicht gleich auch die Strecken bewerten lassen?

Klar könnte man die Teilnehmenden auffordern auch die Route auf der Karte grün, orange und rot einzufärben. Es stellen sich aber eine Reihe von Problemen:

  1. Wären die User zu diesem Mehraufwand bereit? Schon die Gesamt-Routen-Bewertung ist genug aufwändig.
  2. Wie werden die Einfärbungen digitalisiert? Müssten die User ein GIS installieren? Oder scannen?
  3. Auch die statistische Auswertung stellt ein paar zwar lösbare aber aufwändige Herausforderungen.
  4. Es besteht der Verdacht, dass die Varianz bei der Strecken-Bewertung noch höher ausfallen würde als bei der Ziel-Bewertung. Also warum nicht zuerst mal mit den Ziel-Bewertungen beginnen?

Warum nicht gleich eine richtige Online-Umfrage?

Eine Online-Umfrage würde v.a. Sinn machen in Hinsicht auf die automatische Generierung eines Feedbacks. Stichworte: Prüfe wie gut du im Einschätzen von Routen bist! Was nicht ist, kann noch werden. Bei einer richtigen Online-Umfrage müssen aufwändige Vorkehrungen getroffen werden, um "Vandalismus" zu verhindern. Diese Vorkehrungen (Login, Captcha) schaffen wieder neue Teilnahme-Hürden.