Normalisierung

Normalisierung von Trefferzahlen in der Recherche

Sollen Suchergebnisse nach verschiedenen Attributwerten wie Jahr, Regionen oder Medium ausgewertet werden, so ist es unabdingbar, die absoluten Zählungsergebnisse aus der Suchmaschine zu normalisieren, um valide Ergebnisse zu erhalten.

Man betrachte beispielsweise die mengenmäßige Verteilung der Artikel über die Jahre:

Verteilung der Artikel im amc über die Jahre.

Es ist offensichtlich, dass ein Vergleich von absoluten Trefferzahlen für 1986 mit absoluten Trefferzahlen für 2018 nicht nur nicht „sinnvoll“, sondern grob irreführend ist, weil sich die Grundgesamtheit der Artikel in diesen Jahren stark voneinander unterscheidet.

Es muss daher vor einem Vergleich von Trefferzahlen für unterschiedliche Attributwerte immer eine Normalisierung stattfinden! Es dürfen also nicht „x Treffer (absolut) im Jahr 1986“ mit „y Treffer (absolut) im Jahr 2018“ verglichen werden, sondern der Vergleich muss auf einer relativen Trefferzahl für diese Jahre basieren.

Ein gängiges Maß für eine relative Trefferzahl ist z.B.  Treffer pro Millionen Token. Das Korpustool NoSketch Engine liefert bei Frequenzauswertungen für ein Attribut sowohl absolute als auch relative Frequenzwerte. Sollen aber Frequenzen für mehr als ein Attribut miteinander verglichen werden, muss die Berechnung der relativen Trefferzahl selbst vorgenommen werden! Ein ganz typischer Anwendungsfall ist die Auswertung der Nutzungsfrequenz eines bestimmten Begriffs über die Zeit und in verschiedenen Regionen.

Um die unabdingbare Normalisierung selbst durchführen zu können, ist das Wissen über die Größe der Grundgesamtheit in jeder der Unterkategorien nötig.

Für die tatsächliche Berechnung normalisierter Frequenzwerte steht unten für jede Korpus-Version eine Datei im .csv – Format (Tabulator separiert, UTF-8)  zum Download zur Verfügung.

Diese enthält die Gesamtanzahl der vorhanden Token für jede Kombination aus docsrc (Medienname) region und year, also die Grundgesamtheiten für alle üblicherweise verwendeten Facettierungen des Korpus. Mit diesen Informationen kann die jeweilige Umrechnung der absoluten Trefferzahlen in relative, normalisierte Trefferzahlen z.B. in einem Tabellenkalkulationsprogramm vorgenommen werden.

Korpusname     csv zur Normalsierung (Downloadlink)
amc_3.1 freqs_amc_3.1_region_docsrc_year_for_normalization.csv