Versionsarchiv
Logik der Versionsnummern
Versionsnummern nach dem „alten System“ (bis 2023)
Die bis 2023 verwendeten Versionsnummern wie amc_4.3 sind wie folgt zu interpretieren:
Die Ziffer vor dem Dezimalpunkt bezeichnet die Version der Annotionen. Im Laufe der Zeit wurden bei den Annotationsverfahren Ergänzungen und Verbesserungen vorgenommen. Versionen mit identischer erster Ziffer – also z.B. alle amc_4.xxx – wurden mit den identischen Annotationstools erstellt. Sie sind also, was die Annotationen angeht untereinander zu 100% kompatibel.
Die zweite Ziffernfolge markiert die zeitliche und somit quantitative Entwicklung des Korpus. Das amc wurde jeweils im Jänner um die frischen Texte des abgelaufenen Jahres erweitert, und es wurde die Versionsnummer nach dem Dezimalpunkt erhöht. D.h. auf amc_4.2 folgte amc_4.3. Letzteres ist ident mit amc_4.2 aber enthält zusätzlich noch die Daten eines weiteren Kalenderjahres.
Versionsnummern nach dem „neuen System“ (seit 2024)
Seit dem Jahr 2024 wurden die „Update-Zyklen“ des amc drastisch verkürzt. Die Textbasis wird nicht mehr bloß 1 x pro Jahr aktualisiert sondern nunmehr 1 x pro Quartal. Um die Übersichtlichkeit und die Aussagekraft der Versionsnummern zu erhöhen wurde das Benennungsschema verändert: Weiterhin signalisiert die erste Ziffer den Annotationsstand und die zweite Ziffer den „Zeitschnitt“. Nur wird jetzt die zeitliche Komponente explizit benannt: es werden Jahr und Quartalsnummer im Versionsnamen angegeben. Damit ist nun der „Aktualitätsstand“ eines Korpus direkt in seinem Namen ablesbar. Das erste Update nach amc_4.3 heißt daher nicht mehr amc_4.4. Da es nun Texte bis inklusive 2024 - Quartal 1 enthält lautet die Bezeichnung nunmehr amc_4.24q1.
Versionsnummern auf „x“ (z.B. amc_4.3 vs. amc_4.3x)
Im Jahr 2025 wurde von der Zeitung „Österreich“ die Berechtigung zur Speicherung ihrer Daten zurückgezogen. Daher ist dieses Medium in allen neuen Versionen ab amc_4.25q5LTSx nicht mehr enthalten. Die Texte dieser Zeitung müssen aber auch aus allen bereits bestehenden Korpora entfernt werden. Es wurden also von den bestehenden Korpora neue Varianten gebaut, aus denen „Österreich“ entfernt wurde. Diese neuen Versionen tragen nun den Namenszusatz „x“ (memotechnisch für „exludiert“). D.h. „amc_4.3“ wurde durch eine (um „Österreich“ bereinigte) Variante „amc_4.3x“ ersetzt. Die Originalversionen werden nach einer kurzen „grace period“ mit Ende 03/2026 vollständig entfernt.
ACHTUNG: die Versionen amc_4.1, amc_4.2, amc_4.3 und amc_4.24q4LTS werden im März 2026 entfernt. Ersetzt werden sie durch ihre bereits jetzt verfügbaren „x“-Versionen!
Vorhaltung älterer Versionen
Bei den aktuellen Updatezyklen gibt es derzeit 4 neue Versionsschritte pro Jahr. Wir können nicht garantieren, dass all diese Versionen, die sich durch vergleichsweise geringfügigen Änderungsschritten unterscheiden, „ewig“ in der NoSke vorgehalten werden. Es ist aber geplant, zumindest einmal jährlich eine long term supported (LTS) Version bereitzustellen. Für diese soll die Langzeitverfügbarkeit auf Dauer gewährleistet sein. (NB.: modulo externe Faktoren, wie die Skartierung wegen geänderter Rechte-Lage). „long term supported“ sollen jene Versionen werden, die das Quartal 4 – also ein abgeschlossenes Jahr – enthalten, und diese Versionen werden auch mit dem Namenszusatz LTS versehen sein.
Die erste LTS Version nach diesem Namensschema trägt also den Namen amc_4.24q4LTS.
Archiv
Archivierte quantitative Informationen zu älteren Versionen
| Version | Periode | Details |
|---|---|---|
| amc_4.24q4LTSx | bis incl. 12/2024 | siehe unten |
| amc_4.3x | bis incl. 12/2023 | siehe unten |
| amc_4.2x | bis incl. 12/2022 | siehe unten |
| amc_4.1x | bis incl. 12/2021 | siehe unten |
** Versionen zur baldigen Skartierung! **
Archivierte quantitative Informationen zu den älteren Versionen die mit 2026-03-31 entfernt werden müssen
| Version | Periode | Details |
|---|---|---|
| amc_4.24q3 | bis incl. 09/2025 | siehe unten |
| amc_4.24q2 | bis incl. 06/2025 | siehe unten |
| amc_4.24q1 | bis incl. 03/2025 | siehe unten |
| amc_4.24q4LTS | bis incl. 12/2024 | siehe unten |
| amc_4.24q3 | bis incl. 09/2024 | siehe unten |
| amc_4.24q2 | bis incl. 06/2024 | siehe unten |
| amc_4.24q1 | bis incl. 03/2024 | siehe unten |
| amc_4.3 | bis incl. 12/2023 | siehe unten |
| amc_4.2 | bis incl. 12/2022 | siehe unten |
| amc_4.1 | bis incl. 12/2021 | siehe unten |
| amc_3.2 | bis incl. 12/2020 | siehe unten |
| amc_3.1 | bis incl. 12/2018 | siehe unten |
amc_4.24q4LTSx
(bis incl. 2024-12)
Anzahl der Token, Words, etc.
| Counts | |
|---|---|
| Dokumente | 50.090.854 |
| Sätze | 1.039.574.877 |
| Token | 12.521.622.928 |
| Wörter | 9.487.953.982 |
amc_4.3x
(bis incl. 2023-12)
Anzahl der Token, Words, etc.
| Counts | |
|---|---|
| Dokumente | 48.880.513 |
| Absätze | 364.913.303 |
| Sätze | 1.012.025.323 |
| Token | 12.182.176.046 |
| Wörter | 9.221.502.489 |
amc_4.2x
(bis incl. 2022-12)
Anzahl der Token, Words, etc.
| Counts | |
|---|---|
| Dokumente | 47.497.659 |
| Absätze | 355.094.399 |
| Sätze | 981.741.540 |
| Token | 11.818.066.207 |
| Wörter | 8.938.490.106 |
amc_4.1x
(bis incl. 2021-12)
Anzahl der Token, Words, etc.
| Counts | |
|---|---|
| Dokumente | 46.005.552 |
| Absätze | 344.302.954 |
| Sätze | 948.403.019 |
| Token | 11.428.845.125 |
| Wörter | 8.638.159.631 |
** Versionen zur baldigen (2026-03) Skarktierung vorgesehen! **
amc_4.25q3
(bis incl. 2025 Quartal 3 – also bis 2025-09-31)
Anzahl der Token, Words, etc.
| Counts | |
|---|---|
| Dokumente | 52.291.868 |
| Sätze | 1.079.323.799 |
| Token | 12.993.408.689 |
| Wörter | 9.864.080.492 |
amc_4.25q2
(bis incl. 2025 Quartal 2 – also bis 2025-06-30)
Anzahl der Token, Words, etc.
| Counts | |
|---|---|
| Dokumente | 52.010.544 |
| Sätze | 1.072.891.225 |
| Token | 12.914.401.900 |
| Wörter | 9.802.022.253 |
amc_4.25q1
(bis incl. 2025 Quartal 1 – also bis 2025-03-31)
Anzahl der Token, Words, etc.
| Counts | |
|---|---|
| Dokumente | 51.712.877 |
| Sätze | 1.065.996.483 |
| Token | 12.829.197.706 |
| Wörter | 9.735.231.247 |
amc_4.24q4LTS
(bis incl. 2024 Quartal 4 – also bis 2024-12-31)
Anzahl der Token, Words, etc.
| Counts | |
|---|---|
| Dokumente | 51.424.098 |
| Sätze | 1.059.346.562 |
| Token | 12.746.733.078 |
| Wörter | 9.670.164.441 |
amc_4.24q3
(bis incl. 2024 Quartal 3 – also bis 2024-09-30)
Anzahl der Token, Words, etc.
| Counts | |
|---|---|
| Tokens | 12.660.427.393 |
| Wörter | 9.602.488.987 |
| Sätze | 1.052.335.670 |
| Dokumente | 51.114.256 |
amc_4.24q2
(bis incl. 2024 Quartal 2 – also bis 2024-06-31)
Anzahl der Token, Words, etc.
| Counts | |
|---|---|
| Tokens | 12.577.332.053 |
| Wörter | 9.537.143.055 |
| Sätze | 1.045.596.054 |
| Dokumente | 50.813.279 |
amc_4.24q1
(bis incl. 2024 Quartal 1 – also bis 2024-03-31)
Anzahl der Token, Words, etc.
| Counts | |
|---|---|
| Tokens | 12.487.315.613 |
| Words | 9.466.712.738 |
| Sentences | 1.038.318.869 |
| Documents | 50.491.712 |
amc_4.3
(bis incl 2023-12)
Für eine Beschreibung aller hier genannten Attribute und Strukturen vgl. die Annotationsdetails Für den Umgang mit Trefferzahlen aus Ihren Recherchen **beachten Sie unbedingt die Hinweise zum Thema **Normalisierung.
Anzahl der Token, Words, etc.
| Counts | |
|---|---|
| Tokens | 12.402.137.100 |
| Words | 9.399.509.602 |
| Sentences | 1.031.383.187 |
| Documents | 50.177.372 |
Verteilung der Artikel über die Zeit
Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.

Verteilung der Artikel auf Medientypen

| doc.mediatype | Artikelanzahl |
|---|---|
| 40.577.867 | |
| agentur | 8.664.575 |
| tv | 914.899 |
| radio | 20.031 |
Verteilung der Artikel auf „Regionen“
Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails

| doc.region | Artikelanzahl |
|---|---|
| agesamt | 26.612.219 |
| amitte | 3.527.856 |
| awest | 4.548.043 |
| aost | 8.823.473 |
| asuedost | 5.035.394 |
| spezifisch | 1.630.387 |
amc_4.2
(bis incl. 12/2022)
Anzahl der Token, Words, etc.
| Counts | |
|---|---|
| Tokens | 12.032.705.217 |
| Words | 9.112.182.470 |
| Sentences | 1.000.638.839 |
| Documents | 48.752.417 |
Verteilung der Artikel über die Zeit
Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.

Verteilung der Artikel auf Medientypen

| doc.mediatype | Artikelanzahl |
|---|---|
| agentur | 8.479.112 |
| 39.386.468 | |
| tv | 886.837 |
Verteilung der Artikel auf „Regionen“
Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails

| doc.region | Artikelanzahl |
|---|---|
| agesamt | 25.877.137 |
| aost | 8.590.547 |
| asuedost | 4.864.031 |
| awest | 4.417.523 |
| amitte | 3.404.579 |
| spezifisch | 1.598.600 |
amc_4.1
(bis incl. 12/2021)
Anzahl der Token, Words, etc.
| Counts | |
|---|---|
| Tokens | 11.636.520.111 |
| Words | 8.806.223.211 |
| Sentences | 966.699.616 |
| Documents | 47.209.529 |
Verteilung der Artikel über die Zeit
Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.

Verteilung der Artikel auf Medientypen

| doc.mediatype | Artikelanzahl |
|---|---|
| agentur | 8.271.731 |
| 38.092.894 | |
| tv | 844.904 |
Verteilung der Artikel auf „Regionen“
Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails

| doc.region | Artikelanzahl |
|---|---|
| agesamt | 25.113.786 |
| aost | 8.314.145 |
| asuedost | 4.700.107 |
| awest | 4.278.950 |
| amitte | 3.276.335 |
| spezifisch | 1.526.206 |
amc_3.2
(enthält Veröffentlichungen bis 2020-12-31)
Anzahl der Token, Words, etc.
| Counts | |
|---|---|
| Tokens | 11.336.903.860 |
| Words | 8.499.041.636 |
| Sentences | 1.244.814.212 |
| Documents | 45.607.516 |
“Lexicon Sizes“ ( d.h. Anzahl der Typen) aller Token-Attribute
| Lexicon sizes | |
|---|---|
| dep | 101 |
| iob | 3 |
| ix | 100.700 |
| ixDEP | 82.140 |
| ixNP | 697 |
| lc | 39.566.426 |
| lemma | 35.621.298 |
| lemmaSP | 89.712 |
| lemmasource | 386 |
| lemmasp_ignore | 39.566.580 |
| lempos | 37.814.755 |
| neg | 2 |
| ner | 4 |
| pos | 829 |
| posTI | 54 |
| posTT | 54 |
| posUDS | 16 |
| posbase | 22 |
| posx | 9 |
| word | 42.471.363 |
Verteilung der Artikel über die Zeit
Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.

Verteilung der Artikel auf Medientypen

| doc.mediatype | freq |
|---|---|
| agentur | 8.021.738 |
| 36.787.218 | |
| tv | 798.560 |
Verteilung der Artikel auf „Regionen“
Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails

| doc.region | freq |
|---|---|
| agesamt | 24.284.411 |
| aost | 8.053.050 |
| asuedost | 4.538.539 |
| amitte | 3.149.063 |
| awest | 4.135.048 |
| spezifisch | 1.447.405 |
amc_3.1
(enthält Veröffentlichungen bis 2018-12-31)
Anzahl der Token, Words, etc.
| Counts | |
|---|---|
| Tokens | 10.500.118.851 |
| Words | 7.859.278.624 |
| Sentences | 1.154.897.537 |
| Paragraphs | 317.301.865 |
| Documents | 42.240.787 |
“Lexicon Sizes“ ( d.h. Anzahl der Typen) aller Token-Attribute
| Lexicon sizes | |
|---|---|
| word | 40228241 |
| posUDS | 16 |
| posTI | 54 |
| ner | 4 |
| iob | 3 |
| ixNP | 697 |
| dep | 101 |
| ixDEP | 82140 |
| neg | 2 |
| lemmaSP | 89338 |
| pos | 829 |
| posTT | 54 |
| lempos | 35747610 |
| lemmasource | 379 |
| posx | 9 |
| lc | 37490559 |
| lemma_lc | 31456634 |
| posbase | 22 |
| lemma | 33705532 |
Verteilung der Artikel über die Zeit
Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.

Verteilung der Artikel auf Medientypen

Verteilung der Artikel auf „Regionen“
Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails

| doc.region | freq |
|---|---|
| agesamt | 2.2615.668 |
| aost | 7.407.513 |
| asuedost | 4.205.373 |
| amitte | 2.902.499 |
| awest | 3.827.237 |
| spezifisch | 1.282.497 |