Normalisierung von Trefferzahlen in der Recherche
Sollen Suchergebnisse nach verschiedenen Attributwerten wie Jahr, Regionen oder Medium ausgewertet werden, so ist es unabdingbar, die absoluten Zählungsergebnisse aus der Suchmaschine zu normalisieren, um valide Ergebnisse zu erhalten.
Man betrachte z.B. die mengenmäßige Verteilung der Artikel über die Jahre:
Es ist offensichtlich, dass ein Vergleich von absoluten Trefferzahlen für 1986 mit absoluten Trefferzahlen für 2018 nicht nur nicht „sinnvoll“, sondern grob irreführend ist, weil sich die Grundgesamtheit der Artikel in diesen Jahren stark voneinander unterscheidet.
Es muss daher vor einem Vergleich von Trefferzahlen für unterschiedliche Attributwerte immer eine Normalisierung stattfinden! Es dürfen also nicht „x Treffer (absolut) im Jahr 1986“ mit „y Treffer (absolut) im Jahr 2018“ verglichen werden, sondern der Vergleich muss auf einer relativen Trefferzahl für diese Jahre basieren.
Oder um ein reales Beispiel aus einem anderen Zusammenhang zu nehmen: es ist hoffentlich einleuchtend, dass der Vergleich der absoluten Fallzahlen für COVID-19 Infektionen zwischen sagen wir Liechtenstein (Einwohnerzahl ca. 39.000) und Indien (Einwohnerzahl ca. 1.4 Mrd) weitgehend sinnlos ist. Für einen aussagekräftigen Vergleich müssen immer normalisierte Zahlen (also z.B. „Anzahl der Infektionen pro 10 Mio Einwohner) verwendet werden.
Ein in der Korpuslinguistik gängiges Maß für die Formulierung einer relative Trefferzahl ist z.B. Treffer pro Millionen Token. Das Korpustool NoSketch Engine liefert bei Frequenzauswertungen für ein Attribut sowohl absolute als auch relative Frequenzwerte. Sollen aber Frequenzen für mehr als ein Attribut miteinander verglichen werden, muss die Berechnung der relativen Trefferzahl selbst vorgenommen werden! Ein ganz typischer Anwendungsfall ist die Auswertung der Nutzungsfrequenz eines bestimmten Begriffs über die Zeit und in verschiedenen Regionen.
Um die unabdingbare Normalisierung selbst durchführen zu können, ist das Wissen über die Größe der Grundgesamtheit in jeder der Unterkategorien nötig.
Für die tatsächliche Berechnung normalisierter Frequenzwerte steht unten für jede Korpus-Version eine Datei im Microsoft Excel-Format (xslx) zum Download zur Verfügung.
Diese enthält die Gesamtanzahl der vorhanden Token für jede Kombination aus docsrc
(Medienname) region
und year
, also die Grundgesamtheiten für alle üblicherweise verwendeten Facettierungen des Korpus. Mit diesen Informationen kann die jeweilige Umrechnung der absoluten Trefferzahlen in relative, normalisierte Trefferzahlen z.B. in einem Tabellenkalkulationsprogramm vorgenommen werden.
Korpus | xlsx zur Normalsierung (Downloadlink) |
amc_4.2 | freqs_amc_4.2_region_docsrc_year_for_normalization.xlsx |
amc_4.1 | freqs_amc_4.1_region_docsrc_year_for_normalization.xlsx |
amc_3.2 | freqs_amc_3.2_region_docsrc_year_for_normalization.xslx |
amc_3.1 | freqs_amc_3.1_region_docsrc_year_for_normalization.xlsx |