
270.857 Tokens in Sprachkorpora
Kalenderwoche 28
Zum Projekt
Projekt des Monats INEL
INEL im Podcast „Wissenschaft als Kompass“
270.857 ist die Zahl der Tokens (das ist die Bezeichnung für ein Wort im laufenden Text im Korpus), die inzwischen im INEL-Projekt in Sprachkorpora, also Sprachdatensammlungen, veröffentlich wurden – und es werden noch mehr! INEL steht dabei für Indigenous Northern Eurasian Languages – das Langzeitforschungsprojekt der Akademie der Wissenschaften in Hamburg hat zum Ziel, Grammatiken, Korpora und Sprachtechnologie für indigene nordeurasische Sprachen aufzufinden, zu erschließen und vor allem in Form von Sprachkorpora zu veröffentlichen.
Bisher wurden Korpora zum Selkupischen, Kamassischen, Ewenkischen und Dolganischen veröffentlicht. All diese Sprachen wurden oder werden in Nordeurasien gesprochen. Selkupisch und Kamassisch gehören zur uralischen Sprachfamilie, bei Ewenkisch handelt es sich um eine tungusische Sprache und Dolganisch ist eine Turksprache.
Korpora erlauben Forschenden verschiedener Disziplinen sich mit den Daten auseinanderzusetzen und empirisch fundierte Analysen aus variierenden Blickwinkeln unter unterschiedlichsten Fragestellungen durchzuführen.
Kontakt
Sebastian Zwies
Leiter Koordinierung
Akademienprogramm
06131 / 218 528 17
sebastian.zwies@akademienunion.de