Image Data and Numbers

amc in Zahlen

Auf dieser Seite finden Sie eine quantitative Beschreibung der aktuellen Version amc_3.1.

Für eine Beschreibung aller hier genannten Attribute und Strukturen vgl. die Annotationsdetails
Für den Umgang mit Trefferzahlen aus Ihren Recherchen beachten Sie unbedingt die Hinweise zum Thema Normalisierung.

Anzahl der Token, Words, etc.

Counts
Tokens 10500118851
Words 7859278624
Sentences 1154897537
Paragraphs 317301865
Documents 42240787

„Lexicon Sizes“ ( d.h. Anzahl der Typen) aller Token-Attribute

Lexicon sizes
word 40228241
posUDS 16
posTI 54
ner 4
iob 3
ixNP 697
dep 101
ixDEP 82140
neg 2
lemmaSP 89338
pos 829
posTT 54
lempos 35747610
lemmasource 379
posx 9
lc 37490559
lemma_lc 31456634
posbase 22
lemma 33705532

Verteilung der Artikel über die Zeit

Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.

Verteilung der Artikel im amc über die Jahre.

Verteilung der Artikel auf Medientypen

Verteilung der Artikel auf „Regionen“

Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails 

Verteilung der <doc> (Artikel) je Region (in amc_3.1) in Tabellenform

doc.region freq
agesamt 2.2615.668
aost 7.407.513
asuedost 4.205.373
amitte 2.902.499
awest 3.827.237
spezifisch 1.282.497