Participation-Bias

1. Einleitung

Die Quantitative Reduktionsmethode steht im Zentrum des Algorithmus von Skitourenguru. Sie wurde aus Unfalldaten und Begehungsdaten (GPS-Tracks) abgeleitet. Damit stellt sich die Frage, ob die verwendeten Daten einen Bias (Verzerrung) aufweisen und die QRM dem entsprechend nicht optimal eingestellt sein könnte. Wir müssen unterscheiden zwischen den zwei Datenquellen:

  1. Unfallpunkte (12'163): Die Daten zu den Unfällen (1700 Unfälle der Jahre 2001-2019) stammen aus den Winterberichten des SLF. Die Sammlung enthält vorwiegend Unfälle mit gravierenden Konsequenzen. Diese werden dafür meistens vollständig erfasst. Ein Bias hin zu gravierenden Unfällen ist erwünscht, denn die QRM soll vor allem gravierenden Unfällen vorbeugen.
  2. Begehungspunkte (5'155'972): Die Unfalldaten stammen von unbekannten Benutzern der Plattformen Skitourenguru, Gipfelbuch und Camp2Camp. Ob die GPS-Tracks repräsentativ für die Begehungen im alpinen Wintergelände sind, können wir nicht ohne weiteres feststellen.

Der Fachbegriff für dieses Phänomen nennt sich Participation-Bias (Teilnahme-Verzerrung). Grundsätzlich ist bekannt, dass vor allem mit der Materie vertraute Teilnehmer Content auf Crowd-Sourcing-Plattformen hochladen. Es könnte also sein, dass die GPS-Tracks vorwiegend von "erfahrenen Skitourengängern" stammen. Diese Gruppe kann ein nicht-repräsentatives Verhalten aufweisen. Im Paper Quantitative Risk Reduction Method (QRM), a data-driven avalanche risk estimator wurde die Neigungsverteilung der GPS-Tracks mit den Neigungsverteilung anderer Datensätze verglichen (siehe Abbildung 1). Hätte der GPS-Datensatz einen starken Bias, müssten sich die Neigungsverteilungen stark voneinander unterscheiden. Dies ist nicht der Fall.

Abbildung 1: Vergleich der Neigunsverteilung der GPS-Tracks (blau) mit den Neigungsverteilungen von drei weiteren Datensätzen.

Der Peak der Begehungen liegt bei allen vier Datensätzen bei ca. 17-21°. Das heisst typischerweise bewegt sich die Skitouren-Coummunity durch Gelände der Neigungen 10°-30°. Eine Masterarbeit von Christoph Schönenberger: Analysis of Planned Route Trajectories to Gain Insights into Route Planning Behaviour for Backcountry Ski Tours, bei der die auf WhiteRisk digitalisierten Routen untersucht werden, kommt zu einem ähnlichen Schluss. Während der Winter 2016/17 und 2017/18 wurden im Durchschnitt 30 Routen pro Tag geplant (siehe Figur 5.1). Die Gruppe Heavay Users plante im Durchschnitt Routen der Neigung 19.08°, die Gruppe Rare Users plante im Durchschnitt Routen der Neigung 19.71° (siehe Tabelle 5.7). Interessanterweise gibt es zwischen diesen zwei Gruppen kaum einen Unterschied. Dass wir auch bei diesem Datensatz wieder auf den Wert 19° stossen, lässt aufhorchen. Könnte es sein, dass die Begehungsverteilung vom Angebot abhängt? Eine Studie aus der USA zeigt auf, dass Skitourengänger der Colorado-Mountains im Durchschnitt bei Neigungen zwischen 12-16° unterwegs waren (Miller A.D. et al: Terrain selection and forecasted avalanche danger: Do recreationists select safer terrain when the forecasted danger increases?). Die Zustiege zu den Gipfeln der Colorado-Mountains führen oft durch lange und flache Täler.

Um mehr zum GPS-Datensatz von Skitourenguru in Erfahrung zu bringen hat Skitourenguru verschiedene Subsampling-Test durchgeführt. Dazu wird die Heterogenität des GPS-Datensatzes genutzt. Konkret entnimmt man dem Datensatz selektiv Daten mit spezifischen Eigenschaften. Man führt also gewissermassen einen bekannten Bias ein. Anschliessend prüft man, ob die QRM, die sich von diesem Teildatensatz ableiteten lässt, der ursprünglichen QRM ähnlich bleibt. Solche Subsampling-Tests sind einer Sensitivitätsanalyse ähnlich. Sie unterscheiden sich jedoch im vorliegenden Fall darin, dass Unterschiede nicht quantifiziert werden. Dies ist nicht ohne weiteres möglich, denn der Output (QRM) ist kein Skalarwert, sondern eine Funktion.

2. Softies versus Hardies

Bei diesem Subsampling-Test teilen wir die GPS-Tracks in zwei gleich grosse Gruppen ein. Als Unterscheidungskriterium dienen uns die zurückgelegten Höhenmeter. Unfälle werden jeweils alle verwendet. Es ergeben sich zwei Gruppen mit sehr unterschiedlichem Profil:

a) Softies

Diese Gruppe legt im Durchschnitt 779 Höhenmeter zurück.

Abbildung 2: Die QRM abgeleitet von der Gruppe Softies: 12'163 Unfallpunkte, 2'571'434 Begehungspunkte.

b) Hardies

Diese Gruppe legt im Durchschnitt 1542 Höhenmeter zurück.

Abbildung 3: Die QRM abgeleitet von der Gruppe Hardies: 12'163 Unfallpunkte, 2'584'538 Begehungspunkte.

3. Modetouren versus Exotische Touren

Bei diesem Subsampling-Test bilden wir zwei Gruppen, indem wir uns fragen inwieweit ein Punkt nahe an einer typischen Modetour liegt. Als Kriterium dient uns der Abstand des Punktes (Unfallpunkte und Begehungspunkte) zur nächstelegenen SAC-Skitour gemäss SAC-Skitourenkarte. Es ist zu beachten, dass die SAC-Skitouren nicht gleichmässig begangen werden. So kann ein Begehungspunkt zwar nahe an einer SAC-Skitour liegen, dennoch kann es sich um einen sehr selten begangenen Punkt handeln.

a) Modetouren

Unallpunkte und Begehungspunkte liegen bei dieser Gruppe näher als 100 m bei einer SAC-Skitour. Die Begehnungspunkte liegen im Durchschnitt in 31 m Entfernung zur nächstgelegenen SAC-Skitour.

Abbildung 4: Die QRM abgeleitet von der Gruppe Modetouren: 3'708 Unfallpunkte, 3'499'150 Begehungspunkte.

b) Exotische Touren

Unallpunkte und Begehungspunkte liegen bei dieser Gruppe weiter als 100 m von einer SAC-Skitour entfernt. Die Begehnungspunkte liegen im Durchschnitt in 393 m Entfernung zur nächstgelegenen SAC-Skitour. In Wirklichkeit ist dieser Wert grösser, denn Distanzen grösser als 1000 m werden gekappt.

Abbildung 5: Die QRM abgeleitet von der Gruppe Exotische Touren: 8'455 Unfallpunkte, 1'656'822 Begehungspunkte.

4. Skitourengelände versus Variantengelände

Bei diesem Subsampling-Test unterscheiden wir zwischen Skitourengelände und Variantengelände. Als Kriterium dient uns der Abstand des Punktes (Unfallpunkte und Begehungspunkte) zur nächstelegenen Skipiste.

a) Skitourengelände

Unallpunkte und Begehungspunkte liegen bei dieser Gruppe weiter als 600 m von einer Skipiste entfernt. Die Begehnungspunkte liegen im Durchschnitt in 2615 m Entfernung zur nächstgelegenen Skipiste. In Wirklichkeit ist dieser Wert grösser, denn Distanzen grösser als 3000 m werden gekappt.

Abbildung 6: Die QRM abgeleitet von der Gruppe Skitourengelände: 7'813 Unfallpunkte, 4'601'526 Begehungspunkte.

b) Variantengelände

Unallpunkte und Begehungspunkte liegen bei dieser Gruppe näher als 600 m bei einer Skipiste. Die Begehnungspunkte liegen im Durchschnitt in 171 m Entfernung zur nächstgelegenen Skipiste. Einschränkend muss hier angefügt werden, dass Skitourenguru GPS-Tracks zu Skitouren sammelt und nicht zum Variantenskifahren.

Abbildung 7: Die QRM abgeleitet von der Gruppe Variantengelände: 4'350 Unfallpunkte, 554'446 Begehungspunkte.

5. Innerapline Gebiete (Altschnee)

Die inneralpinen Gebiete zeichnen sich dadurch aus, dass sie oft ein Altschneeproblem aufweisen (siehe den Artikel Fürchtet den Altschnee von F. Techel und K. Winkler). Das hat zur Folge, dass hier relativ viele Unfälle stattfinden. In diesem Test wird die Frage gestellt, wie die QRM ausähe, wenn man nur Punkte (Unfallpunkte und Begehungspunkte) der inneralpinen Gebiete verwendet.

a) Alle Daten

Hier werden alle Punkte (Unfallpunkte und Begehungspunkte) verwendet. Dies ist das Orginal der QRM (V2.3).

Abbildung 8: Die QRM abgeleitet von allen Daten (Orginal): 12'163 Unfallpunkte, 5'155'972 Begehungspunkte.

b) Inneralpine Regionen

Hier werden nur Punkte (Unfallpunkte und Begehungspunkte) der inneralpinen Gebiete verwendet.

Abbildung 9: Die QRM abgeleitet von Daten der inneralpinen Gebiete: 4'007 Unfallpunkte, 678'651 Begehungspunkte.

6. Fazit

Die vorgestellen Subsampling-Tests zeigen, dass sich die QRM kaum unterscheidet, wenn wir sie von Daten mit einem bekannten Bias ableiten. In allen Fällen zeigt sich der exponentielle Anstieg des Lawinenrisikos mit dem Terrain-Indicator und mit dem Danger-Indicator. Die geringen Unterschiede hängen u.a. damit zusammen, dass die QRM zwei mal normalisiert wird. Das erste mal bei der Berechnung der Unfalldichte bzw. der Begehungsdichte. Das zweite mal indem das relative Risiko von 1 auf das durchschnittliche Risiko gelegt wird. Die Methodologie mit der die QRM abgeleitet wird ist also relativ robust gegenüber einem eventuellen Datenbias.

Interessant ist der Punkt 4 (Inneralpine Gebiete): Wenn wir eine Sekunde lang davon ausgehen, dass der GPS-Datensatz keinen regionalen Bias aufweist, dann können wir aus den Zahlen schliessen, dass das Lawinenrisiko in den inneralpinen Gebieten ca. 2.5 mal höher liegt, als im Durchschnitt der Schweiz. Fürchte also nicht nur den Altschnee, sondern meide die inneralpinen Gebiete!?

PS: Alle Zeichnungen von Theres Eigenmann.