Versionsarchiv

Archivierte quantitative Informationen zu älteren Versionen

Version Periode Details
amc_4.1 bis incl. 2021 siehe unten
amc_3.2 bis incl. 2020 siehe unten
amc_3.1 bis incl. 2018 siehe unten

amc_4.1

Anzahl der Token, Words, etc.

Counts
Tokens 11.636.520.111
Words 8.806.223.211
Sentences 966.699.616
Documents 47.209.529

Verteilung der Artikel über die Zeit

Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.

Verteilung der Artikel auf Medientypen

doc.mediatype Artikelanzahl
agentur 8,271,731
print 38,092,894
tv 844,904

Verteilung der Artikel auf „Regionen“

Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails 

Verteilung der <doc> (Artikel) je Region in Tabellenform

doc.region freq
agesamt 25,113,786
aost 8,314,145
asuedost 4,700,107
awest 4,278,950
amitte 3,276,335
spezifisch 1,526,206

amc_3.2 (enthält Veröffentlichungen bis 2020-12-31)

Anzahl der Token, Words, etc.

Counts
Tokens 11.336.903.860
Words 8.499.041.636
Sentences 1.244.814.212
Documents 45.607.516

„Lexicon Sizes“ ( d.h. Anzahl der Typen) aller Token-Attribute

Lexicon sizes
dep 101
iob 3
ix 100.700
ixDEP 82.140
ixNP 697
lc 39.566.426
lemma 35.621.298
lemmaSP 89.712
lemmasource 386
lemmasp_ignore 39.566.580
lempos 37.814.755
neg 2
ner 4
pos 829
posTI 54
posTT 54
posUDS 16
posbase 22
posx 9
word 42.471.363

Verteilung der Artikel über die Zeit

Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.

Verteilung der Artikel im amc über die Jahre.

Verteilung der Artikel auf Medientypen

doc.mediatype freq
agentur 8.021.738
print 36.787.218
tv 798.560

Verteilung der Artikel auf „Regionen“

Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails 

Verteilung der <doc> (Artikel) je Region in Tabellenform

doc.region freq
agesamt 24.284.411
aost 8.053.050
asuedost 4.538.539
amitte 3.149.063
awest 4.135.048
spezifisch 1.447.405

amc_3.1 (enthält Veröffentlichungen bis 2018-12-31)

Anzahl der Token, Words, etc.

Counts
Tokens 10.500.118.851
Words 7.859.278.624
Sentences 1.154.897.537
Paragraphs 317.301.865
Documents 42.240.787

„Lexicon Sizes“ ( d.h. Anzahl der Typen) aller Token-Attribute

Lexicon sizes
word 40228241
posUDS 16
posTI 54
ner 4
iob 3
ixNP 697
dep 101
ixDEP 82140
neg 2
lemmaSP 89338
pos 829
posTT 54
lempos 35747610
lemmasource 379
posx 9
lc 37490559
lemma_lc 31456634
posbase 22
lemma 33705532

Verteilung der Artikel über die Zeit

Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.

Verteilung der Artikel im amc über die Jahre.

Verteilung der Artikel auf Medientypen

Verteilung der Artikel auf „Regionen“

Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails 

Verteilung der <doc> (Artikel) je Region (in amc_3.1) in Tabellenform

doc.region freq
agesamt 2.2615.668
aost 7.407.513
asuedost 4.205.373
amitte 2.902.499
awest 3.827.237
spezifisch 1.282.497