Die Zusammenstellung von Primärtexten zu einem Korpus ist eine gängige, aber selten problematisierte literaturwissenschaftliche Praxis. Die Gefahr von Fehlschlüssen aufgrund bestimmter, nicht bewusster Eigenschaften des Korpus ist nämlich relativ hoch und steigt sowohl mit der Größe eines Korpus als auch mit dem Grad der Automatisierung der Analyse. Deshalb muss ein besonderes Augenmerk auf die Zusammenstellung digitaler Korpora gelegt werden, um sie als literaturwissenschaftlichen Untersuchungsgegenstand nutzen zu können. Dies betrifft insbesondere den immer häufigeren Fall, in dem Korpora aus qualitativ unterschiedlichen Texten aus verschiedenen Quellen zusammengestellt werden.
Im Beitrag wird exemplarisch die Zusammenstellung und Bereinigung eines Korpus beschrieben, die eine Balance zwischen der Qualität der Daten und den Aufwand bei der Korpuserstellung herzustellen versucht.
Diese Visualisierung basiert auf der Einreichung
Korpuserstellung als literaturwissenschaftliche Aufgabe und setzt sich aus Werten für Flesch-Reading-Ease (53) und Sentimentanalyse (54) zusammen.