Versionsarchiv

Logik der Versionsnummern

Versionsnummern „altes System“ (bis 2023)
Die Versionsnummern wie amc_4.3 sind wie folgt zu interpretieren:
Die Erste Zahl bezeichnet die Version der Annotionen. Im Laufe der Zeit wurden bei den Annotationsverfahren Ergänzungen und Verbesserungen vorgenommen. Versionen mit identischer erster Nummer – also d.h. dass z.B. alle amc_4.xxx – mit den identischen Annotationstools erstellt wurden. Sie sind also, was die Annotationen angeht untereinander zu 100% kompatibel.
Die zweite Nummer markiert die zeitliche und somit quantitative Entwicklung des Korpus. Das amc wurde jeweils im Jänner um die frischen Texte des abgelaufenen Jahres erweitert, und es wurde die Versionsnummer nach der „Kommastelle“ erhöht. D.h. aus amc_4.2 wird amc_4.3. Letzteres ist ident mit amc_4.2 aber enthält lediglich noch die Daten eines zusätzliches Kalenderjahres.

Versionsnummern „neues System“ ( 2024ff)
Beginnend 2024 wurden die „Update-Zyklen“ des amc drastisch verkürzt. Die Textbasis wird nicht mehr nur 1 x jährlich aktualisiert sondern 1 x pro Quartal.
Um die Übersicht zu erleichtern wurde das Benennungsschema verändert: Weiterhin signalisiert die erste Nummer den Annotationsstand und die zweite Nummer den „Zeitschnitt“. Nur wird jetzt die zeitliche Komponente explizit benannt: es werden Jahr und Quartalsnummer angegeben. Das erste Update nach amc_4.3 heißt daher nicht mehr amc_4.4. Da es nun Texte bis inklusive Quartal 1 / 2024 enthält lautet die Bezeichnung nunmehr amc_4.24q1.

Vorhaltung alter Versionen
Mit den kürzeren Updatezyklen wird es also ab nun 4 neue Versionsschritte pro Jahr geben. Wir können derzeit nicht garantieren, dass wir all diese Versionen mit vergleichsweise geringfügigen Änderungsschritten „ewig“ in der NoSke vorhalten. Es ist aber geplant, zumindest einmal jählich eine long term supported (LTS) Version bereitzustellen. Für diese wird die Langzeitverfügbarkeit auf Dauer gewährleistet sein. Als LTS sind diejenigen Versionen vorgesehen, die das Quartal 4 – also ein abgeschlossenes Jahr – enthalten, und diese Versionen werden auch mit dem Namenszusatz LTS versehen sein.
Die erste LTS Version nach diesem Namensschema wird also den Namen amc_4.24q4LTS erhalten.
Oder umgekehrt: die bisherigen Versionen amc_4.2 und 4.3 würden nach dem neuen Namensschema die Nummer 4.22q4LTS bzw. 4.23q4LTS tragen.

Archiv

Archivierte quantitative Informationen zu älteren Versionen

 

Version Periode Details
amc_4.3 bis incl. 12/2023 siehe unten
amc_4.2 bis incl. 12/2022 siehe unten
amc_4.1 bis incl. 12/2021 siehe unten
amc_3.2 bis incl. 12/2020 siehe unten
amc_3.1 bis incl. 12/2018 siehe unten


 

amc_4.3 (bis incl 2023-12)

Für eine Beschreibung aller hier genannten Attribute und Strukturen vgl. die Annotationsdetails
Für den Umgang mit Trefferzahlen aus Ihren Recherchen beachten Sie unbedingt die Hinweise zum Thema Normalisierung.

Anzahl der Token, Words, etc.

 

Counts
Tokens 12,402,137,100
Words 9,399,509,602
Sentences 1,031,383,187
Documents 50,177,372

Verteilung der Artikel über die Zeit

Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.

Verteilung der Artikel auf Medientypen

doc.mediatype Artikelanzahl
print 40.577.867
agentur 8.664.575
tv 914.899
radio 20.031

Verteilung der Artikel auf „Regionen“

Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails 

Verteilung der <doc> (Artikel) je Region in Tabellenform

doc.region Artikelanzahl
agesamt 26.612.219
amitte 3.527.856
awest 4.548.043
aost 8.823.473
asuedost 5.035.394
spezifisch 1.630.387

amc_4.2 (bis incl. 12/2022)

Anzahl der Token, Words, etc.

 

Counts
Tokens 12.032.705.217
Words 9.112.182.470
Sentences 1.000.638.839
Documents 48.752.417

Verteilung der Artikel über die Zeit

Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.

Verteilung der Artikel auf Medientypen

doc.mediatype Artikelanzahl
agentur 8.479.112
print 39.386.468
tv 886.837

Verteilung der Artikel auf „Regionen“

Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails 

Verteilung der <doc> (Artikel) je Region in Tabellenform

doc.region Artikelanzahl
agesamt 25.877.137
aost 8.590.547
asuedost 4.864.031
awest 4.417.523
amitte 3.404.579
spezifisch 1.598.600


amc_4.1 (bis incl. 12/2021)

Anzahl der Token, Words, etc.

 

Counts
Tokens 11.636.520.111
Words 8.806.223.211
Sentences 966.699.616
Documents 47.209.529

Verteilung der Artikel über die Zeit

Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.

Verteilung der Artikel auf Medientypen

doc.mediatype Artikelanzahl
agentur 8,271,731
print 38,092,894
tv 844,904

Verteilung der Artikel auf „Regionen“

Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails 

Verteilung der <doc> (Artikel) je Region in Tabellenform

doc.region freq
agesamt 25,113,786
aost 8,314,145
asuedost 4,700,107
awest 4,278,950
amitte 3,276,335
spezifisch 1,526,206

amc_3.2 (enthält Veröffentlichungen bis 2020-12-31)

Anzahl der Token, Words, etc.

 

Counts
Tokens 11.336.903.860
Words 8.499.041.636
Sentences 1.244.814.212
Documents 45.607.516

„Lexicon Sizes“ ( d.h. Anzahl der Typen) aller Token-Attribute

 

Lexicon sizes
dep 101
iob 3
ix 100.700
ixDEP 82.140
ixNP 697
lc 39.566.426
lemma 35.621.298
lemmaSP 89.712
lemmasource 386
lemmasp_ignore 39.566.580
lempos 37.814.755
neg 2
ner 4
pos 829
posTI 54
posTT 54
posUDS 16
posbase 22
posx 9
word 42.471.363

Verteilung der Artikel über die Zeit

Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.

Verteilung der Artikel im amc über die Jahre.

Verteilung der Artikel auf Medientypen

doc.mediatype freq
agentur 8.021.738
print 36.787.218
tv 798.560

Verteilung der Artikel auf „Regionen“

Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails 

Verteilung der <doc> (Artikel) je Region in Tabellenform

doc.region freq
agesamt 24.284.411
aost 8.053.050
asuedost 4.538.539
amitte 3.149.063
awest 4.135.048
spezifisch 1.447.405


amc_3.1 (enthält Veröffentlichungen bis 2018-12-31)

Anzahl der Token, Words, etc.

 

Counts
Tokens 10.500.118.851
Words 7.859.278.624
Sentences 1.154.897.537
Paragraphs 317.301.865
Documents 42.240.787

„Lexicon Sizes“ ( d.h. Anzahl der Typen) aller Token-Attribute

 

Lexicon sizes
word 40228241
posUDS 16
posTI 54
ner 4
iob 3
ixNP 697
dep 101
ixDEP 82140
neg 2
lemmaSP 89338
pos 829
posTT 54
lempos 35747610
lemmasource 379
posx 9
lc 37490559
lemma_lc 31456634
posbase 22
lemma 33705532

Verteilung der Artikel über die Zeit

Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.

Verteilung der Artikel im amc über die Jahre.

Verteilung der Artikel auf Medientypen

Verteilung der Artikel auf „Regionen“

Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails 

Verteilung der <doc> (Artikel) je Region (in amc_3.1) in Tabellenform

doc.region freq
agesamt 2.2615.668
aost 7.407.513
asuedost 4.205.373
amitte 2.902.499
awest 3.827.237
spezifisch 1.282.497