NoSke-Korpora für STANDARDFORA
Version des Korpus: v1 Version der Dokumentation: v1.0 (zuletzt geändert: 2025-04-30)
Autor: Hannes Pirker Austrian Centre for Digital Humanities and Cultural Heritage (ACDH-CH)
Lizenz: CC-BY
Einleitung und Übersicht
Diese Seite dient der Beschreibung der in den STANDARDFORA-Korpora verwendeten Annotationen.
Aktuelle Korpus-Version: www_standardfora_v1_25.q1
Die Korpusbenennung verwendet folgendes Schema: www_standardfora_v<VERSIONSNUMMER>_<JAHR>.q<QUARTAL>
Eine gleichlautende <VERSIONSNUMMER>
bedeutet, dass identische Annotationskonventionen verwendet wurden.
<JAHR>.q<QUARTAL>
kodiert den Genesezeitpunkt der jüngsten Textdaten im jeweiligen Korpus.
Aktuell reichen die posting Daten zurück bis 08/2020. www_standardfora_v1_25.q1
bedeutet also, dass das Korpus Texte von 08/2020 bis 03/2025 enthält.
Korpora mit derselben Versionsnummer sind miteinder kompatibel und unterscheiden sich nur in der Aktualität der Texte.
Die Annotation mit linguistischen Informationen (Lemmatisierung, PoS, NER, DependencyParse) erfolgt bei den STANDARDFORA mit denselben Werkzeugen+Methoden wie sie beim amc eingesetzt werden. Die entsprechenden Token-Attribute wie lemma, pos, posTT etc. sind daher völlig identisch zum amc.
Abweichungen zum „normalen“ amc ergeben sich im Foren-Posting-Korpus hauptsächlich in den Metadaten. Einerseits ensteht gegenüber dem amc der neue Bedarf, zwischen redaktionellen Artikeln („artikeln“) und den dazugehörigen Kommentaren („postings“) zu unterscheiden, und die Information zur Zuordnung von _postings zu bestimmten artikeln bereitzustellen.
Dafür wurden folgenden Foren-spezifische zusätzlichen Metadaten-Felder eingeführt, deren detailierte Beschreibung weiter unten folgt:
Andererseit haben einige aus dem amc bekannte Metadatenfelder in den STANDARDFORA keine Relevanz mehr, und sind unten mit
=> In WWSTAFORA nicht anwendbar
gekennzeichnet.
Als Erleichterung für die NutzerInnen wurden 2 Subkorpora mit den selbsterklärenden Namen artikel und postings_ vordefiniert, die sofort verwendet werden können um Suchabfragen exklusiv auf redaktionellen Artikeln vs. Kommentaren auszuführen.
Attribute und Strukturen in www_standardfora_v1
Inhalt
- Token-Attribute
- Strukturen und ihre Attribute
<doc>
: id forumtype => NEU page_link => NEU weblink => NEU autor => MODIFIZIERT datum datum_full datum year yymm bibl mediatype docsrc docsrc_name region province ressort2 => In WWSTAFORA nicht anwendbar mutation => In WWSTAFORA nicht anwendbar deskriptor keys => In WWSTAFORA nicht anwendbar
tokens wordcount<field>
: name dupl => In WWSTAFORA nicht anwendbar<p>
<s>
<g>
<meta_info>
: type => In WWSTAFORA nicht anwendbar speaker affil => In WWSTAFORA nicht anwendbar<fmt>
: type => In WWSTAFORA nicht anwendbar- Gemeinsame Attribute für
<doc>
<field>
und<p>
: dupl => In WWSTAFORA nicht anwendbar
- Weiterführende Links
Token-Attribute
Hier folgt die Beschreibung aller Attribute, die auf der Ebene der einzelnen Token definiert sind - also vereinfacht gesprochen, Attribute welche die einzelnen Wörter im Text beschreiben.
word: orthografische Form
Quelle: Grunddaten
Die orthografische Wortform des Token.
ix (Index)
Quelle: Spacy 3.2
Alle Token tragen eine Indexnummer. Hierfür werden die Token innerhalb eines Absatzes beginnend mit 0 fortlaufend durchnummeriert.
posTT: PoS aus dem TreeTagger
Quelle: TreeTagger externer link
Part-of-Speech tags, die mit dem TreeTagger ermittel wurden. Verwendetes Tagset: Stuttgart-Tübingen-Tagset (STTS) gemäß dem Tiger-Annotationsschema
Tagset Dokumentation:
pos: PoS aus dem RFTagger
Quelle: RFTagger externer link
Part-of-Speech tags, die mit dem RFTagger ermittel wurden. Tagset Dokumentation: Das Tagset im RFTagger wurde aus dem Tagset des Tiger corpus abgeleitet. Das Tagset kodiert nicht nur PoS-Kategorien, sondern beinhaltet auch morphologische Informationen. Das bedeutet, dass beispielsweise ein Nomen auch mit den Informationen zu Casus, Numerus und Genus versehen ist, Verben mit den Informationen zu Person, Numerus, Modus und Tempus. Beispiele: word=Häusern pos=N.Reg.Dat.Pl.Neut word=gingst pos=VFIN.Full.2.Sg.Past.Ind
- German RFTagger part-of-speech tagset overview
- A brief introduction to the TIGER Treebank
- Tiger Annotation Scheme for Syntax : hier ist v.A. der Abschnitt B Stuttgart-Tubingen-Tagset STTS relevant.
- Tiger Annotation Scheme for Morphology
posTI: PoS aus Spacy im STTS Format
Quelle: Spacy 3.2
PartOfSpeech (Wortart) unter Verwendung von Modellen, die auf dem Tiger Korpus trainiert wurden. Verwendetes Tagset: Stuttgart-Tübingen-Tagset (STTS) gemäß dem Tiger-Annotationsschema. D.h. das Tagset ist identisch mit demjenigen im Attribut posTT, und auch die Trainingsgrundlage für die Modelle ist dieselbe. Da Spacy modernere Verfahren verwendet als der TreeTagger, der immerhin bereits im Jahr 1994 veröffentlicht wurde, sind die Ergebnisse in posTI allerdings korrekter als die posTT. Das tatsächliche Ausmaß der Verbesserung lässt sich nur vermuten. Die Werte für posTT und posTI unterscheiden sich in ca. 10% der Fälle. STTS Tagset (Tiger)
posUDS: PoS aus Spacy im Universal Depencies Format
Quelle: Spacy 3.2
PartOfSpeech (Wortart) aus dem Attribut posTI,
allerdings unter Verwendung des Universal Depencies POS tagset (UDS).
Das Universal Depencies POS Tagset wurde mit dem Ziel entwickelt, mit
einer kleineren Menge an möglichst „universellen“ Kategorien das
Auslangen zu finden, aber durch diese Vereinfachung z.B. den Vergleich
zwischen verschiedenen Sprachen zu erleichtern. Im vorliegenden Fall
wurde der Inhalt des Attributs posUDS aus dem Attribut posTI
abgeleitet, indem beispielsweise die 12 verschiedenen Kategorien für
Verben aus dem Stuttgart-Tübingen-Tagset (STTS), nämlich VAFIN, VAIMP, VAINF, VAPP, VMFIN, VMINF, VMPP, VVFIN, VVIMP, VVINF, VVIZU, VVPP
durch
eine einzige Universal Depencies Kategorie VERB
ersetzt wurden.
UDS-Kategorie | Bedeutung |
---|---|
ADJ | adjective |
ADP | adposition |
ADV | adverb |
AUX | auxiliary |
CONJ | conjunction |
DET | determiner |
INTJ | interjection |
NOUN | noun |
NUM | numeral |
PART | particle |
PRON | pronoun |
PROPN | proper noun |
PUNCT | punctuation |
SCONJ | subordinating conjunction |
SYM | symbol |
VERB | verb |
X | other |
Dokumentation zum Universal Depencies POS tagset
ner: Named Entity Recognition
Quelle: Spacy 3.2
Dieses Attribut enthält die Ergebnisse der Named Entity Recognition.
Wert | Bedeutung | |
---|---|---|
LOC | Ort | |
PERSON | Person | |
ORG | Organisation |
iob
Quelle: Spacy 3.2
Dieses Attribut wird verwendet, um Entities zu markieren, die sich aus mehr als einem Token zusammensetzen (wie es z.B. für Personen mit Vor- und Zunamen typisch ist). In einer Abfolge von Token, die zusammen eine Entity bilden, steht im Attribut iob beim ersten Token der Wert B, bei allen weiteren der Wert I. vgl. info zu iob auf wikipedia
Wert | Bedeutung |
---|---|
B | beginning |
I | inside |
O | other (d.h. das so markierte Token ist keine Entity) |
ixNP: Noun-Phrase-Index
Quelle: Spacy 3.2
Spacy versucht sogenannte noun chunks — einfache Nominalphrasen — zu identifizieren. Die einzelnen Elemente eines solchen noun chunks weisen im Attribut ixNP eine Zahl auf (0,1,2,…). Benachbarte Token mit derselben Indexzahl gehören zu einem gemeinsamen chunk. Bei Token, die nicht Teil eines noun_chunk sind, hat ixNP den Wert ‘-‚. Der Index beginnt bei jedem neuen Satz wieder mit dem Wert 0.
Beispiel:
- [Das/0 Hauptproblem/0] seien/- [die/1 übertriebenen/1 Ausgaben/1] [der/2 israelischen/2 Regierung/2]
(die Zahlen hinter dem "/"
zeigen die ixNP, die eckigen Klammern sollen die durch die ixNP solchermaßen kodierten
noun chunks verdeutlichen)
dep: Kategorie in Dependenzstruktur
ixDEP: Index des Elternknoten in Dependenzstruktur
Quelle: Spacy 3.2
Mit den Attributen dep und ixDEP werden
Dependenzstrukturen kodiert. Die Modelle für den Dependenzparser wurden
auf dem TIGER Korpus trainiert. Die verwendeten Kategorien entsprechen
demzufolge auch dem TIGER Annotationsschema: TIGER Annotationsschema
(für
Syntax)
Mittels ixDEP wird die Dependenz-Baumstruktur kodiert: der Wert in
ixDEP verweist auf den Index ( d.h. das Attribut id ) des
Elternknoten. (Bei Token mit der Kategorie ROOT
verweist ixDEP auf
sich selbst.)
neg (Negation)
Quelle: eigener code auf Basis von Spacy 3.2 (experimentell)
Wörter, die im Kontext des Wortes „nicht“ stehen, und daher möglicherweise einer Negation unterliegen. In der Mehrzahl sind es Verben, die mit „neg“ markiert sind. Bsp.:
- „… Gewinnmaximierung nicht an oberster Stell steht/neg"
- "… denn die Richter müssen/neg sich nicht daran halten“
Dieses Attribut wurde experimentell für eine mögliche Verwendung im Bereich der Sentiment/Polaritäts-Analyse eingeführt.
lempos: Lemma plus PoS-Kürzel
Quelle: Treetagger, RFTagger, DBnary
Dieses Attribut enthält das Lemma (d.h. die Grundform) eines Wortes, die um ein Kürzel für die Wortart ergänzt ist. Vgl. auch posx
Wortartkürzel | Bedeutung |
---|---|
c | conjunction |
i | preposition |
j | adjective |
m | cardinal |
n | noun |
p | pronoun |
r | adverb |
v | verb |
x | particle |
Die Funktion des Wortartkürzels in lempos erschließt sich am besten anhand eines Beispiels aus dem Englischen, wo identische Grundformen mit verschiedenen Wortarten viel häufiger sind als im Deutschen.
Beispiel | Wortart | Bedeutung im Deutschen |
---|---|---|
fine-j | Adjektiv | fein |
fine-n | Nomen | die Strafe |
fine-v | Verb | jmd. strafen |
posx: PoS-Kürzel
Quelle: automatisch abgeleitet aus lempos
Das Wortartkürzel aus lempos
lc: lower cased word
Quelle: automatisch abgeleitet aus word
Eine Kleinschreibungsvariante (lower-cased) von word : für Suchanfragen, bei denen Groß-Klein-Schreibung ignoriert werden soll.
lemma_lc: lower cased lemma
Quelle: automatisch abgeleitet aus lemma
Eine Kleinschreibungsvariante (lower-cased) von lemma : für Suchanfragen, bei denen Groß-Klein-Schreibung ignoriert werden soll.
posbase: PoS Hauptktegorie aus RFTagger
Quelle: automatisch abgeleitet aus pos
Das erste Element aus dem Attribut pos, also die Haupt-PoS-Kategorie. Beispiele:
- word=Häusern pos=N.Reg.Dat.Pl.Neut : posbase=N
- word=gingst pos=VFIN.Full.2.Sg.Past.Ind : posbase=VFIN
Aktuelle Werte für posbase (absteigend nach Häufigkeit sortiert) |
---|
N |
SYM |
ART |
APPR |
CARD |
VFIN |
PRO |
ADJA |
ADV |
CONJ |
ADJD |
APPRART |
VPP |
VINF |
PART |
PROADV |
FM |
TRUNC |
VIMP |
APZR |
APPO |
ITJ |
lemma: Grundform/Zitierform
Quelle: Treetagger, RFTagger, DBnary
Das Lemma (die Grundform) eines Wortes. Die Lemmatisierung für das amc erfolgt in einem mehrstufigen Verfahren. Die „Basislemmatisierung“ erfolgt während des PoS-taggings durch den Treetagger. Für alle Wortformen, für die der Treetagger keine Lemmatisierung vornehmen konnte, wird versucht in einem Nachbearbeitungsschritt doch noch ein Lemma zu ermitteln, indem in zusätzlichen Vollformlexika wie z.B. Dbnary nachgeschlagen wird, und „verzeihendere“ Heuristiken zur Anwendung kommen. Vgl. lemmasource
lemmasource: Quelle der Lemmatierungs-Entscheidung
Quelle: rf-tagger post-lemmatisation
Dieses Attribut zeigt, wie der
Wert in lemma schlussendlich ermittelt wurde. Es dient daher
hauptsächlich der Dokumentation. Beachtung verdient der Wert 'u'
(für
unbekannt/unknown): er markiert diejenigen Fälle, für die trotz
Nachbearbeitung und Konsultation externer Lexika kein Lemma ermittelt
werden konnte. Für diese Token wurde als finale Maßnahme einfach das
Wort selbst als Lemma eingesetzt.
id | Bedeutung | Kommentar |
---|---|---|
tt | tree-tagger | die Zuordnung des lemma erfolgte durch den Treetagger |
d | direct hit | das lemma konnte durch direktes Nachschlagen in zusätzlichen Lexika ermittelt werden |
a-b | hyphened compound | für Komposita mit Bindstrich, konnte für den zweiten Wortteil das Lemma ermittelt werden |
… | … | |
u | unknown | es konnte kein lemma gefunden werden, das Attribut lemma enthält eine Kopie von word |
STRUKTUREN UND IHRE ATTRIBUTE
Die Hierarchie der Strukturelemente enthält folgende Elemente <doc>
Artikel
<field>
Unterteilung für „titel“ und „inhalt“
<p>
Absatz
<s>
Satz(
<meta_info>
) (nur in TV-Transkripten) Meta-Informationen zu Sprechern & deren Affiliation (<fmt>
) (nur in KRONE und KURIER) Markierung für spezielle, nicht darstellbare Formatierungszeichen
Struktur: <doc>
- Artikel
Das <doc>
Element umfasst jeweils einen Zeitungs- oder
Magazin-Artikel.
Metadaten zu den Artikeln werden in den folgenden Attributen gespeichert.
id: Artikel-id
Quelle: Originaldokument
Durch die id wird jeder Artikel im Korpus ein-eindeutig identifiziert. Die id setzt sich aus dem Mediennamen (vgl. docsrc), dem Erscheinungsdatum (vgl. datum) und einer fortlaufenden Nummer oder einem zufälligen hash-Wert zusammen.
Bsp.“WWWSTAFORA_20240527_701A2D2A27E0023D6676F3D88978E671“ für einen Artikel in WWWSTA_FORA von 2024-05-27. Standarmäßig wird die doc.id bei Suchergebnissen (KWIC-Listen) als Referenz angezeigt.
forumtype: Unterscheidung postings vs Originalartikel
Das Korpus enthält neben den user-postings auch die originalen Artikeln zu welchen die user-Kommentare erfasst wurden.
Das Attribute forumtype kodiert die Unterscheidung dieser beiden Text-Typen im Korpus
Wert | Bedeutung |
---|---|
ORIGINAL | Redaktioneller Artikel |
REPLY | user posting zu einem Artikel |
Quelle: Originaldokument
page_link: Weblink zum redaktionellen Artikel in der Onlineaushgabe
Alle „replies“ auf einen Artikel enthalten den Weblink auf den originalen Artikel auf https://www.derstandard.at
Quelle: Originaldokument
weblink: Weblink auf das einzelne posting in der Onlineaushgabe => „ommitted“
Die Originaldaten enhalten auch für jedes einzelne posting einen Weblink auf seine Repräsentation in https://www.derstandard.at Dieser link wurde entfernt und in allen postings durch den Wert ommitted (sic!) ersetzt.
autor
Ausgangspunkt sind die von den postenden Personen selbst gewählten Usernamen („user Nicks“) Diese wurden durch eine pseudoanonyme Id der Form „id123458“ ersetzt.
Quelle: Originaldokumente -> „anonymisiert“
datum_full
Quelle: Originaldokument
Erscheinungsdatum plus Uhrzeit im Format
'YYYY-MM-TT' + "T" + 'HH:MM:SS' + "Z"
Die Uhrzeit weist allerdings oft
den Wert 00:00:00 auf - die Brauchbarkeit der Uhrzeitangabe ist daher
fragwürdig. Bsp. „2010-01-26T00:00:00Z“
year
Quelle: automatisch abgeleitet aus datum
Erscheinungsjahr im
Format 'YYYY'
yymm
Quelle: automatisch abgeleitet aus datum
Erscheinungsjahr
und -monat im Format 'YYMM'
bibl Bibliografische Angaben
Quelle: Originaldokumente
hat immer die Form
"https://derstandard.at - Der Standard - STANDARDfora vom YYYY-MM-DD"
mediatype
Zuordnung zu einem Medientyp.
Hat immer den Wert wwwfora
mediatype | Bedeutung | Anmerkung |
---|---|---|
wwwfora | Leserforum aus einem Onlineforum | Derzeit: nur Foren aus DERSTANDARD.at |
docsrc: Medien-Kürzel
Der Name des Mediums in Kurzform. Für das Arbeiten mit dem Korpus (z.B. bei der Formulierung von Suchanfragen) empfiehlt sich die Verwendung dieser eindeutigen Kurzform.
docsrc_name: Medien-Name
Der Name des Mediums in der Langform. Zuordnung zwischen docsrc docsrc_name und mediatype
doc.docsrc | doc.docsrcname | doc.mediatype |
---|---|---|
WWWSTAFORA | https://derstandard.at - Der Standard - STANDARDfora | wwwfora |
region
Die Zuordnung von Artikeln zu einer Region erfolgt einfach über den
Mediennamen. Die Werte aost, amitte, asuedost, awest
bezeichnen
„echte“ geographische Regionen. agesamt
wird bei Medien vergeben, die
als überregional eingestuft werden. Zuordnung zwischen docsrc und
region
doc.region | doc.docsrc | Notiz |
---|---|---|
agesamt | WWWSTAFORA | Medien, die regional nicht zuzuordnen sind |
province: Bundesland
In WWSTAFORA nicht anwendbar
Bundesland. Zur Zeit ist das Attribut province nur für Medien aus den Ländern Vorarlberg und Tirol in Verwendung, da diese weitere Unterscheidung der Region awest linguistisch bedeutsam sein kann (bairischer vs. alemannischer Sprachraum). Bei allen anderen Medien bleibt province leer. Zuordnung zwischen docsrc und province
doc.province | doc.docsrc | Name |
---|---|---|
V | VN, NVT | Vorarlberg |
T | TT,TTKOMP,OBERRUND | Tirol |
ressort2 => in WWWSTAFORA nicht anwendbar
=> In WWSTAFORA nicht anwendbar Originalartikel und postings in WWWSTAFORA enthalten keine ressort-Informationen.
Quelle: Originaldokumente, teilkuratiert.
Multiple Werte möglich. Trennzeichen: ‘ ‘ Die von den einzelnen Medien verwendeten Ressortbezeichnungen folgen ursprünglich keinem einheitlichen Schema. Es wurde versucht für das amc zumindest einen Teil der verwendeten unterschiedlichen Bezeichnungen mittels einer Umsetzungstabelle auf eine kanonische(re) Ressortbezeichnung zurückzuführen. Beispiele aus der Ressortbereinigungstabelle
ressort2 | ersetzt diese ursprünglichen Ressortbezeichnungen |
---|---|
politik | verwaltung, pol_auss, inland, pol_inn, landespolitik, landes-politik, pol_reg |
auto | motor, mot, auto, auto+mot, automobil, auto&motor |
… | … |
mutation => in WWWSTAFORA nicht anwendbar
Quelle: Originaldokumente, nicht kuratiert.
Multiple Werte möglich. Trennzeichen: “,„
Von manchen Medien erscheinen lokale bzw. regionale Mutationen, die in den Ausgaben des amc ebenfalls enthalten sind. Das Attribut doc.mutation kann Informationen zu diesen Mutationen enthalten, die Informationen sind aber medienspezifisch und wurden nicht vereinheitlicht. Häufig auftretende Werte sind z.B. Bundesländerkürzel, „Morgenausgabe“, „Abendausgabe“ oder auch Bezirksnamen. Mutationen sind eine Quelle möglicher Artikelduplikate: einzelne Artikel einer Zeitung können taggleich in mehreren Mutationen derselben Zeitung in den Ausgangsdaten aufscheinen. Zum Umgang des amc mit Duplikaten vgl. dupl
deskriptor
Quelle: Originaldokumente, nicht kuratiert.
Multiple Werte möglich. Trennzeichen: ‘ ‚
Dieses Feld enthält Marker und Stichworte, die direkt aus der APA-Datenbank übernommen wurden, und deren Vollständigkeit und Korrektheit nicht überprüft wurde. Es finden sich darin z.B. Ländernamen wie „PORTUGAL“ aber auch Informationen, die eher der Ressortzuordnung ähneln - wie „SPO“ und „SPORT“ für Sportnachrichten. Hinweis: die Einträge in diesem Feld sind alle einheitlich in Großbuchstaben gehalten.
keys
Quelle: Originaldokumente, nicht kuratiert.
Multiple Werte möglich. Trennzeichen: ‘ ‚
Dieses Feld enthält Marker, die direkt aus der APA-Datenbank übernommen wurden, und deren Funktion nicht überprüft wurde.
tokens
Anzahl der Token in diesem <doc>
wordcount
Anzahl der „Wörter“ in diesem <doc>
: die Zahl errechnet sich aus der
Anzahl der Token abzüglich Satzzeichen und Zahlen.
dupl: Duplikats-Status
In WWSTAFORA nicht anwendbar : es werden bei den postings keine Duplikate erwartet - daher wurde auf die Duplikateserkennung vorerst verzischtet.
Multiple Werte möglich. Trennzeichen: ‘|‚
Struktur <field>
Mit <field>
können die Inhalte weiter in die Abschnitte Titel, Inhalt und Stichworte strukturiert werden.
Die Unterscheidung erfolgt über das folgende Attribut:
name
Wert | Bedeutung |
---|---|
titel | Der Text in <field> beinhaltet einen Titel |
inhalt | Der Text in <field> beinhaltet den „eigentlichen“ Artikel |
stichwort | Der Text in <field> beinhaltet Stichwörter zum Artikel |
dupl
In der Struktur <field>
kann das Attribut dupl einen zusätzlichen
Wert aufweisen, nämlich ftitle. In vielen Artikeln werden im amc in
Ermangelung eines echten Titels einfach die ersten paar Wörter des
Inhalts als Titel vorangestellt. Diese faux titles werden automatisch
erkannt aber nicht entfernt, sondern mit dem Attribut dupl=„ftitle“
markiert.
Struktur <p>
- Paragraph
Quelle: Paragraphenmarker werden aus den input-Daten übernommen
Struktur <s>
- Satz
Quelle: Spacy 3.2
speaker (Spechername)
Name der SprecherIn (d.h. der InterviewerIn oder der Interviewten)
affil (Affiliation)
Affiliation der SprecherIn (d.h. der InterviewerIn oder der
Interviewten) Bsp. <meta_info type="speaker_info" speaker="Ziegler Robert" affil="ORF">
Ziegler Robert (ORF) </meta_info>
Struktur <fmt>
- Hilfskonstrukt für nicht darstellbare Zeichen
(Spezialzeichen zur Formatauszeichnung: wird nur für Artikel aus KRONE und KURIER verwendet.)
In jüngeren Jahrgängen der Tageszeitungen KRONE
und KURIER finden sich in den Ausgangsdaten nicht druckbare
Formatierungszeichen, die offenbar verwendet werden, um
redaktionsinterne Markierungen wie „Bildunterschrift“ oder
„Telefonnummer“ anzubringen. Damit diese sehr spezifischen
Auszeichnungen nicht störend in der Textanzeige aufscheinen, die
Informationen aber dennoch für künftige Auswertungen erhalten bleiben,
wurden diese Spezialzeichen in eine Struktur namens <fmt>
verpackt:
damit werden sie in der Textanzeige unsichtbar, die Information bleibt
aber dennoch für Suchanfragen verfügbar.
type
Das Attribut type enthält das ursprüngliche, nun „versteckte“ Steuerzeichen. (Lediglich das Steuerzeichen, das einheitlich Telefonnummern anzeigt, wurde der besseren Lesbarkeit und der klaren Semantik wegen gleich durch das Zeichen “☎“ ersetzt)
Sonderzeichen in fmt.type | Anzahl am Beispiel amc_3.1 |
---|---|
☎ | 512.836 |
\uEAF0 | 96.848 |
\uEAE7 | 41.713 |
\uEAE9 | 34.606 |
\uEEE7 | 29.755 |
\uEAEB | 21.305 |
\uEAEF | 19.925 |
\uEAEE | 14.968 |
\uEAE8 | 11.040 |
\uEAF4 | 8.410 |
\uEEE8 | 5.864 |
\uEBAD | 3.300 |
\uEBE4 | 2.996 |
\uEC14 | 2.114 |
\uEEE9 | 507 |
\uEAF1 | 358 |
\uEF1E | 181 |
\uEF1F | 160 |
\uEF20 | 150 |
\uEF21 | 130 |
\uEF22 | 122 |
\uEF23 | 92 |
\uEF24 | 80 |
\uEF25 | 65 |
\uEF26 | 64 |
\uEF27 | 58 |
\uEEED | 41 |
\uEEEE | 39 |
\uEBE6 | 24 |
\uEC2E | 10 |
\uEEF9 | 1 |
Struktur <g>
- glue-element
Bei der Anzeige von Texten in der SKE wird zwischen zwei Token
standardmäßig ein Leerzeichen eingefügt. Ein <g>
Element unterdrückt
dieses Leerzeichen in der Anzeige. <g>
-Elemente finden sich also
typischerweise zwischen Wörtern und nachfolgenden Satzzeichen.
Im folgenden Beispiel sorgen die eingefügten <g>
-Elemente also dafür, dass der Text in der SketchEngine als „Sieh her, ein Satz!“ und nicht als „Sieh her , ein Satz !“ angezeigt wird:
Sieh
her
<g/>
,
ein
Satz
<g/>
!
Gemeinsame Attribute für <doc>
<field>
und <p>
dupl (in <doc>
, <field>
, <p>
)
Quelle: onion externer link
In den Ausgangsdaten können sich Doubletten von Artikeln befinden. Es wurde versucht diese Doubletten automatisch zu erkennen und — je nach Art und Ursache — explizit zu markieren oder gleich ganz zu entfernen.
- vollständige Duplikate: Artikel die sich in mindestens 98% ihrer n-gramme mit anderen Artikeln derselben Zeitungsausgabe überschneiden: werden vorab entfernt.
- partielle Duplikate - Artikel in denen mindestens 60% der n-gramme bereits in anderen Artikeln vorkamen: werden als solche markiert, aber nicht entfernt.
Vgl. METHODS_DEDUPLICATION
Wert | Bedeutung | Quelle | Kommentar |
---|---|---|---|
dfull | <doc> ist ein vollständiges Duplikat eines anderen Artikels in derselben Ausgabe | onion | wurde vorab entfernt |
dpart | <doc> ist ein partielles Duplikat eines anderen Artikels in derselben Ausgabe | onion | |
dkleinefull | <doc> ist ein vollständiges Duplikat eines Artikels aus KLEINE | onion | nur in NVT wurde vorab entfernt |
dkleinepart | <doc> ist ein vollständiges Duplikat eines Artikels aus KLEINE | onion | nur in NVT |
ftitle | <field type="title"> ist ein faux title | nur in Strukturen <field type="title"> |
Weiterführende Links
Informationen zu den verwendeten Tag-sets
Kompakte Übersicht
- Stuttgart-Tübingen-PoS-Tagset (STTS) wie es im PoS-attribut
posTT
verwendet wird- https://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/germantagsets
(dieser Link findet sich auch in der SKE selbst unter
Corpus info -> Tagset Description
)
- https://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/germantagsets
(dieser Link findet sich auch in der SKE selbst unter
- Tag-set des RFTaggers wie es im PoS-attribut
pos
verwendet wird:
Detailierte Beschreibungen De-facto wurden alle für das amc verwendeten PoS-Tagger auf dem TIGER-Korpus trainiert. Ausführliche Dokumentationen der Annotations-Konventionen für das TIGER-Korpus finden sich hier: http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/TIGERCorpus/annotation Insbesondere relevant für das amc sind:
- „A Brief Introduction to the TIGER Treebank“
- http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/TIGERCorpus/annotation/tiger_introduction.pdf
- Note: die minimalen Adaptionen des STTS Tagsets finden sich in Appendix A.2 Deviation from STTS in the TIGER Treebank
- “TIGER Morphologie-Annotationsschema“ : Beschreibung der
kombinierten PoS plus Morphoplogie-tags in
pos
:
Verwendete NLP-Tools
Die folgenden Tools wurden für die Erstellung der Annotationen im amc version 4.x verwendet.
Tokenisierung
- Unitok v 3.2.7 http://corpus.tools/wiki/Unitok
Duplikaterkennung
- onion v 1.2 http://corpus.tools/wiki/Onion
PoS Tagging
- RFTagger
http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger
-
Helmut Schmid and Florian Laws: Estimation of Conditional Probabilities with Decision Trees and an Application to Fine-Grained POS Tagging, COLING 2008, Manchester, Great Britain.
-
Treetagger v 3.2 http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger
- Helmut Schmid (1995): Improvements in Part-of-Speech Tagging with an Application to German. Proceedings of the ACL SIGDAT-Workshop. Dublin, Ireland.
PoS Tagging, Named Entities, Dependenzstrukturen
- Spacy v 3.2 https://spacy.io
Zusätzliche Resourcen
Vollformlexika
- Dbnary (dump von 2022-01) http://kaiko.getalp.org/about-dbnary : aus dem Wiktionary abgeleitete Vollformlexika