GermaNet: Annotation der Beispielsätze von großen Sprachmodellen

Data Availability

The R scripts and the analyzed data for the paper submission "On the Use of Large Language Models to Enrich GermaNet Lexical Entries With Example Sentences" for Natural Language Processing (Cambridge University Press):

data in zip format: llm_data.zip
data in tar format (compressed): llm_data.tgz

Annotationsmanual

Stylebook (pdf) Version vom 28.04.25

Trainingsdaten (für 5 Beispiel-Lemmata)

Bemerkung: die Validierung von Werten funktioniert nur in Excel, nicht in Numbers.

Daten für 100 monoseme Lemmata

Zur Annotation der Beispielsätze für die monosemen Lemmata gibt es insgesamt drei Annotatoren: rb (Reinhild Barkey), ck (Celine Kimball) und et (Emma Tortora) und damit drei mögliche Paarungen. Ein Batch besteht aus 11 Lemmata (Batch-09 hat 12 Lemmata), und für jedes Lemma werden je 3 Beispielsätze von jeweils ChatGPT, Claude, und deepseek generiert. Es ergeben sich somit 99 Sätze pro Batch (Batch-09 hat 108 Sätze). Jedes Batch wird von einem Annotatorenpaar annotatiert. Jeder Annotator annotatiert somit sechs Batches.

Batch-01 -- rb, ck -- done
Batch-02 -- rb, et -- done
Batch-03 -- ck, et -- done
Batch-04 -- rb, ck -- done
Batch-05 -- rb, et -- done
Batch-06 -- ck, et -- done
Batch-07 -- rb, ck -- done
Batch-08 -- rb, et -- done
Batch-09 -- ck, et -- done

Annotatoren tauschen sich während des Annotationsprozesses NICHT aus. Annotierte Excel Sheets bitte nach Abarbeitung, möglichst in Excel-Format, an claus.zinn@uni-tuebingen.de schicken. Ich aktualiere dann den Status der Webseite

Daten für 300 Lesarten

Batch-01 -- rb, ck -- done, done
Batch-02 -- rb, et -- done, done
Batch-03 -- ck, et -- done, done
Batch-04 -- rb, ck -- done, done
Batch-05 -- rb, et -- done, done
Batch-06 -- ck, et -- done, done
Batch-07 -- rb, ck -- done, done
Batch-08 -- rb, et -- done, done
Batch-09 -- ck, et -- done, done
Batch-10 -- rb, ck -- done, done
Batch-11 -- rb, et -- done, done
Batch-12 -- ck, et -- done, done
Batch-13 -- rb, ck -- done, done
Batch-14 -- rb, et -- done, done
Batch-15 -- ck, et -- done, done
Batch-16 -- rb, ck -- done, done
Batch-17 -- rb, et -- done, done
Batch-18 -- ck, et -- done, done
Batch-19 -- rb, ck -- done, done
Batch-20 -- rb, et -- done, done
Batch-21 -- ck, et -- done, done
Batch-22 -- rb, ck -- done, done
Batch-23 -- rb, et -- done, done
Batch-24 -- ck, et -- done, done
Batch-25 -- rb, ck -- done, done
Batch-26 -- rb, et -- done, done
Batch-27 -- ck, et -- done, done
Batch-28 -- rb, ck -- done, done
Batch-29 -- rb, et -- done, done
Batch-30 -- ck, et -- done, done

Daten für Post-Studie

Batch-10 (monosemes) -- rb, et -- done, done
Batch-4711 (polysemes) -- rb, ck -- done, done
Batch-4712 (polysemes) -- rb, et -- done, done
Batch-4713 (polysemes) -- ck, et -- done, done

Letzte Aenderung 15. September 2025