Digitale Empirische Sprachwissenschaft - Quantitative Sprachdatenverarbeitung - Korpuslinguistik
Ein N-Gramm, gelegentlich auch Q-Gramm genannt, entsteht durch die Zerlegung eines Textes in einzelne Fragmente. Dabei wird der Text zerlegt und jeweils N aufeinanderfolgende Fragmente werden zu einem N-Gramm zusammengefasst. Diese Fragmente können Buchstaben, Phoneme, Wörter oder ähnliches sein. Die Anwendungsbereiche von N-Grammen liegen in der Kryptologie und Korpuslinguistik sowie insbesondere in der Computerlinguistik, Quantitativen Linguistik und Computerforensik. Bei dieser Methode werden einzelne Wörter, ganze Sätze oder komplette Texte zur Analyse oder statistischen Auswertung in N-Gramme zerlegt und anschließend in Datensätzen zusammengeführt.
Die Nutzung von Kenntnissen über geschriebene und gesprochene Sprache zur Entwicklung von Systemen, die darauf abzielen, menschliche Sprachen zu erkennen, zu verstehen, zu interpretieren und zu erzeugen. Diese Sprachtechnologien umfassen auch maschinelle Übersetzung, automatische Spracherkennung und -synthese sowie semantische Suchanfragen und Informationsrückgewinnung.
Korpuslinguistik (engl. corpus linguistics) Die K. dient zum einen dem Aufbau von gesprochenen oder geschriebenen Sprachdaten (Korpus) in großen Text- oder Sprachsammlungen und lexikal. Ressourcen, die gesammelt, zusammengestellt, aufbereitet und annotiert werden, um diese unterschiedl. Benutzergruppen zur Verfueung zu stellen. Zum anderen bescaeftigt sich die K. mit der wiss. Auswertung von Sprachaeußerungen auf der Basis von Korpora mit dem Ziel (a) einer adaequaten deskriptiven Beschreibung sprachl. Phaenomene und (b) einer fundierten ling. Theoriebildung. Seit dem Aufkommen empir.-quantitativer Methoden in der Computerlinguistik hat sich die K. zunehmend als eigenstaendige Teildisziplin etabliert (Aarts 1996), z. T. eng verwandt mit der Quantitativen Linguistik (z. B. Anwendung induktiver Verfahren zum Auffinden von hufigen Mustern in der Korrelationsanalyse). Auch in der theoret. Ling. setzen sich korpusling. Methoden zunehmend durch, um ling. Hypothesen innerhalb eines Modells empir. ueberpuefen zu koennen. Traditionelle Anwendungsgebiete der K. sind die Lexikographie, die Historische Linguistik und die Maschinelle Uebersetzung (Metzler Lexikon Sprache, 5. Auflage).
CORPUSLINGUISTICS - REDIRECTION HYPERLINK