Korpuslinguistik: Einführungsbücher und Online-Ressourcen zur Erstellung und Verwendung von Korpora (Corpus linguistics: introductory texts and online resources for the creation and use of corpora)

Abfrage für "* - Minze" mit dem Ngram Viewer für Google BooksAbfrage für "* - Minze" mit dem Ngram Viewer für Google Books

Der heutige Blogartikel bietet deutschsprachige und englischsprachige Einführungsbücher zur Korpuslinguistik sowie Listen von deutschsprachigen und englischsprachigen Online-Ressourcen zur Erstellung und Verwendung von Korpora. Korpora, d.h. strukturierte Textsammlungen von Texten können auf ganz unterschiedlichen schriftlichen Quellen beruhen, z.B. aus Büchern, Zeitschriften, Zeitungen oder online-Medien. Sie können aber auch auf Aufnahmen mündlicher Äußerungen basieren, die transkribiert, d.h. verschriftlicht, wurden. Korpora werden vielfältig genutzt:

  • Sprachverarbeitung und Natürliche Sprachverarbeitung (Natual Language Processing, NLP):
    Man nutzt Korpora als Trainingsdaten, um KI-Sprachmodelle und Algorithmen für die Verarbeitung natürlicher Sprache zu entwickeln, insbesondere in Bereichen wie Übersetzung, Textklassifizierung, Spracherkennung oder Chatbot-Entwicklung.
  • Linguistik:
    In der Sprachwissenschaft verwendet man Korpora als Datenquellen, um die Struktur, Eigenschaften und Variationen von Sprachen zu untersuchen.
  • Sprachdidaktik:
    Im Sprachunterricht kann man Korpora einsetzen, um authentische Beispiele für die Sprachverwendung bereitzustellen, das Vokabellernen zu unterstützen, grammatische Strukturen zu veranschaulichen, Diskussionen anzuregen und Schreibübungen zu fördern.
  • Lexikografie:
    Korpora bilden die Grundlage für die Erstellung von Wörterbüchern, Lexika und lexikalischen Datenbanken. Sie helfen, Beispielsätze zu erstellen und die Verwendung von Wörtern zu illustrieren. Außerdem liefern Korpora Informationen über die Häufigkeit und Verbreitung von Wörtern und die Kontexte, in denen sie verwendet werden.
  • Stilistik und Textanalyse:
    Korpora können genutzt werden, um stilistische Merkmale von Texten zu analysieren, wie z.B. Wortwahl, Satzstruktur, Rhythmus und Register. So können Korpora auch bei der Identifizierung von persönlichen Schreibstilen und bei der Textvergleichsanalyse eingesetzt werden.
  • Kulturelle und soziale Studien:
    Korpora geben Einblicke in die kulturellen und sozialen Kontexte, in denen Sprache verwendet wird. So lassen sich Trends, Veränderungen und soziale Dynamiken in der Sprachgemeinschaft entdecken.

Neben Lesetipps und Ressourcenwebseiten  zur Korpuslinguistik findet man im heutigen Blogartikel natürlich auch wieder einen ganz persönlichen Sprachspinat-Tipp zur Verbindung von Sprachbildung, Naturbildung und Bildung für nachhaltige Entwicklung. Diesmal erfährt man, wie Korpora bzw. korpusbasierte lexikalische Datenbanken dazu genutzt wurden, um Listen mit Pflanzennamen für das Sprachspinat-Garten-Konzept zu erstellen.

Lesetipps: Einführungen in die Korpuslinguistik

Die Korpuslinguistik ist eine Teildisziplin der Sprachwissenschaft, die sich mit der Erstellung und Verwendung von Korpora befasst. Einführungen in die Korpuslinguistik bieten die im Folgenden aufgeführten Bücher. Einige von ihnen sind Open Acces, d.h. können kostenlos heruntergeladen werden. Für mehr Informationen zur Nutzen

Deutschsprachige Einführungsbücher zur Korpuslinguistik

Introductions to Corpus Linguistics in English

Online-Ressourcen zur Korpuslinguistik

Deutschsprachige Online-Ressourcen

Online-Ressources in English

Kräuter und Materialien beim Kinderuni-Event

Kräuter und Materialien beim Kinderuni-Event

Mein persönlicher Sprachspinat-Tipp

Korpora bzw. korpusbasierte lexikalische Datenbanken werden nicht nur in der Sprachwissenschaft, in der KI-Entwicklung und in der Sprachdidaktik genutzt. Ich habe auch von diesen Tools Gebrauch gemacht, um Listen mit Pflanzennamen für das Sprachspinat-Garten-Konzept zu erstellen. Insbesondere habe ich für den Sprachspinat-Wortform-Küchengarten  nach Pflanzennamen mit den Wortbestandteilen Basilikum, Minze, Thymian und Zitrone gesucht. Hierzu habe ich zunächst Suchanfragen in verschiedenen Pflanzendatenbanken gestartet. Außerdem habe ich in lexikalischen Datenbanken (digitales Wörterbuch der deutschen Sprache, DWDS, und Wortschatz Leipzig) sowie im Deutschen Referenzkorpus (DeReKo) auf der Webseite von COSMAS II nach Wörtern mit den entsprechenden Bestandteilen gesucht.

Bei DWDS ist das Ergebnis für die Suchanfrage “Minze” der Eintrag für Minze selbst. Dieser Eintrag enthält grammatische und andere lexikalische Informationen, Textbelege und alle Wörter mit Minze als Erst- oder Letztglied. So findet man Links zu den Einträgen für Krauseminze · Pfefferminze · Poleiminze · Wasserminze.

Beim Leipziger Wortschatz kann man mit dem Platzhalten * nach Wörtern mit bestimmten Buchstabenketten. So liefert z.B. die Suche nach “*Minze” die folgende Liste von Datenbankeinträgen: Minze, Pfefferminze, Katzenminze, Wasserminze, Apfelminze, Grüne Minze, Ackerminze, Erdbeerminze, Zitronenminze, Krauseminze, Schokoladenminze, Bananenminze, Ingwer-Minze, Samtminze, Schokominze, Zitrone-Minze, Bergminze, Gartenminze, Limette-Minze, Mandarinenminze, Nana-Minze, Schoko-Minze.

Die Verwendung von Platzhaltern innerhalb eines Wortes ist allerdings nicht bei allen Korpora und Suchmaschinen möglich. So kann man z.B. beim ngram-Viewer für Google Books keine Platzhalter innerhalb von Wörtern verwenden. Eine Ausnahme sind allerdings Wörter mit Bindestrich, vgl. z.B. das Beitragsbild zu Minze.

Hier erhält man mit der Abfrage “* – Minze” nicht nur eine Liste von Wörtern mit dem Bestandteil “‑Minze”, sondern auch noch Angaben dazu, wie häufig das betreffende Wort im jeweiligen Jahr in den von Google erfassten deutschen Büchern vorkam. Ebenso wie bei den anderen Abfragen muss man allerdings damit rechnen, dass man nicht nur Pflanzennamen wie Polei-Minze findet, sondern auch andere Wörter, wie z.B. Joghurt-Minze.

Vergleicht man das Beitragsbild zur Google-Books-Suchabfrage “* – Minze” mit der folgenden Abbildung zur Abfrage “* – Basilikum”, so kann man gut erkennen kann, dass Formen mit “-Basilikum” erst relativ spät in deutschen Büchern auftauchen.

Abfrage für “* – Basilikum” mit dem Ngram Viewer für Google Books

Eine Version der Pflanzenliste für den Sprachspinat-Wortform-Küchengarten kann man in einem Blogartikel zu einem VHS-Workshop für das Lesementoring in Aachen finden. Weitere Aktivitäten mit der Pflanzenliste für den Sprachspinat-Wortform-Küchengarten findet man mit dem Tag “WoFoPf” (Wortform-Pflanzenliste).

Viel Spaß beim korpusbasierten Erstellen eigener Wortlisten für Wortformaktivitäten – oder bei anderen Verwendungen von Korpora für Forschung, Lehre, Spiele …!

Pflanzennamen lesen und schreiben beim VHS-Lesementoring-Workshop

Pflanzennamen lesen und schreiben beim VHS-Lesementoring-Workshop