Text-Corpus

Alle PDFs der digitalisierten Zeitschrift „Wetter und Leben“ wurden in ProTERM eingelesen, wo sie in txt-Dateien umgewandelt wurde. Die einzelnen Worte wurden extrahiert und mittels Stoppwortlisten alle Nomina, die meteorologische Begriffe sind, herausgefiltert. So kam es zu ca. 1000 Worten, welche unseren Text-Corpus darstellten und die wir in Folge bearbeiteten. Angemerkt werden sollte hierbei auch, dass dieser Text-Corpus uns erst nach mehreren Bearbeitungsschritten zugänglich gemacht wurde. HR Mag. Rainer Stowasser hat diesen Text-Corpus von Geographika und Wörtern mit zeitlichem Kontext getrennt. Das Bereinigen der zeitlichen Ebene wurde aufgrund des historischen Kontextes der Zeitschrift „Wetter und Leben“ notwendig. Die Zeitschrift behandelte außerdem vor allem das Feld der Biometeorologie, was sich ebenfalls auf die Begriffe ausgewirkt hat. Wir bearbeiteten also keinen „rein“ meteorologischen Thesaurus bzw. Text-Corpus, sondern ein historisches Vokabular, das sich sehr stark auf die Meteorologie im biometeorologischen Sinne bezieht, exklusive Geographika. Für die Erstellung eines Prototypen-Thesaurus, brachte dieses „bereinigte“ Vokabular jedoch den Vorteil, das verkomplizierende Elemente ausgeklammert blieben. Daher wurde auch die Klimatologie in unserem Thesaurus nicht berücksichtigt.