Einleitung
Sprache ist in der Forschung immer präsent, sei sie implizit oder explizit. Sie kann ein Medium, ein Werkzeug oder ein Gegenstand wissenschaftlicher Forschung sein und somit die Reproduzierbarkeit von Studien erheblich beeinflussen, insbesondere in den Verhaltens-, Sozial- und Kognitionswissenschaften. Die Forschung wurde im Rahmen des META-REP-Programms der Deutschen Forschungsgemeinschaft durchgeführt und kombiniert Erkenntnisse aus der Kommunikationswissenschaft, der Computerwissenschaft und der Psycholinguistik (“META-REP,” n.d.). Während der statistischen Strenge und der Datentransparenz bei der Bewältigung der Replikationskrise viel Aufmerksamkeit geschenkt wurde, wurde die Rolle der Sprache oft übersehen. Dabei ist Sprache ein wesentlicher Bestandteil jeder Phase des Forschungsprozesses - von der Theoriebildung über das Studiendesign und die Datenerhebung bis hin zur Analyse und Verbreitung (Schmalz et al. 2025).
Die Rollen der Sprache in Forschung
Die wissenschaftliche Kommunikation stützt sich auf die natürliche Sprache und damit auf die Sprache als Medium der Forschung. Da Sprache von Natur aus mehrdeutig, kontextabhängig und ungenau ist, können Mehrdeutigkeiten in Hypothesen, Terminologie oder Anweisungen auftreten, die zu unterschiedlichen Interpretationen durch verschiedene Forscher*innen führen, was zu widersprüchlichen Ergebnissen führt, selbst wenn die Verfahren ähnlich erscheinen. Dies untergräbt die Grundlage der Replizierbarkeit, bei der von wiederholten Studien erwartet wird, dass sie ähnliche Ergebnisse liefern. Die Sprache fungiert auch als Instrument. Sie bestimmt, wie Erhebungen, Interviews und Experimente konstruiert und interpretiert werden. Eine zentrale Herausforderung ergibt sich, wenn versucht wird, Studien in verschiedenen Sprachen zu wiederholen: Direkte Übersetzungen können kulturelle oder sprachliche Nuancen nicht erfassen, was zu einer Nichtinvarianz der Messungen führt. Dies ist besonders problematisch bei kulturübergreifenden Studien, bei denen Annahmen, die auf englischsprachigen Ergebnissen basieren, möglicherweise nicht verallgemeinert werden können. Darüber hinaus bringen Programmiersprachen und Software, die in der Forschung verwendet werden, ihre eigenen Beschränkungen mit sich, wenn die Werkzeuge undokumentiert oder unzugänglich sind, was die Reproduzierbarkeit selbst in rechnergestützten Umgebungen einschränkt. Wenn die Sprache selbst Gegenstand der Untersuchung ist, wie es in der Linguistik oder der Kommunikationsforschung der Fall ist, wird die sprachübergreifende Variabilität zu einem zentralen Thema. Die Replikation von Ergebnissen in verschiedenen Sprachen ist nicht immer möglich, da sich die zugrunde liegenden sprachlichen Strukturen und kulturellen Kontexte unterscheiden. Eine fehlgeschlagene Replikation kann daher eher auf kontextuelle Unanwendbarkeit als auf wissenschaftliche Ungültigkeit hinweisen. Sprache wird zunehmend als Datenquelle genutzt, insbesondere durch soziale Medien, große Sprachmodelle und nutzergenerierte Inhalte. Der Zugang zu solchen Daten ist jedoch oft begrenzt, unbeständig und urheberrechtlich geschützt. So ist beispielsweise ein großer Teil der Tweets innerhalb weniger Tage nicht mehr verfügbar, und die APIs der Plattformen (wie die von Twitter oder Facebook) ändern sich regelmäßig, was die Reproduzierbarkeit erschwert. Abgesehen von der Unbeständigkeit von Social-Media-Daten erschweren auch rechtliche und ethische Hindernisse die Replizierbarkeit. Textdaten, insbesondere aus sozialen Medien, sind häufig personenbezogen oder urheberrechtlich geschützt, was ihre Weitergabe erschwert oder sogar illegal macht. In vielen Fällen können Forscher*innen die von ihnen gesammelten Daten nicht veröffentlichen oder gar aufbewahren, was die Transparenz einschränkt.
Empfehlungen
- Von der Gemeinschaft betriebene Verfeinerung der Begriffsdefinitionen für eine klarere Konzeptualisierung
- Formalisierung von Forschungsfragen und Hypothesen für eine effektive Kommunikation
- Entwicklung von invarianten Messungen für sprachübergreifende Replikationen
- Gemeinsame Nutzung von Material und Daten für vergleichbare Replikationen in verschiedenen Gemeinschaften
- Förderung des wiederverwendbaren und interoperablen Einsatzes von Programmiersprachen “Big Team Science” für offene Wissenschaft und groß angelegte Replikationen (disziplinübergreifende Forschungsteams)
Diskussion
Auf den Vortrag folgte eine Diskussion in welcher vor allen Dingen die Hürden welche mit der Nutzung von Social-Media-Daten in der Forschung verbunden ist. Zum einen verbieten die Nutzungsbedingungen vieler Plattformen – etwa bei Twitter oder Facebook – ausdrücklich die Veröffentlichung von Daten wie Tweets oder Beiträgen. Zum anderen erschweren strenge Datenschutzgesetze die Erhebung und Verarbeitung solcher Daten erheblich. Ein weiteres Problem stellt die mangelnde Repräsentativität sozialer Medien dar. Plattformen wie Twitter bilden die Bevölkerung wie zum Beispiel Deutschland nur unzureichend ab, weshalb sich Ergebnisse aus entsprechenden Studien nicht ohne Weiteres verallgemeinern lassen. Auch in der Diskussion um Replikation versus Reproduktion wurde deutlich, dass Replikationen in einer anderen Sprache in der wissenschaftlichen Praxis teilweise als wenig innovativ gelten. Dies führt dazu, dass sie seltener durchgeführt oder veröffentlicht werden. Der Vortragende plädierte dafür, nicht vorschnell zu kategorisieren, sondern mithilfe einer Skala zu bewerten, wie ähnlich oder verschieden Studien tatsächlich sind. Zugleich wurde angemerkt, dass der Wunsch nach Innovation im deutschsprachigen Raum stark ausgeprägt ist und von Fachzeitschriften unterstützt wird, die Replikationsstudien häufig ablehnen. Ein weiteres zentrales Thema war der Datenverlust: Viele Social-Media-Inhalte sind nach kurzer Zeit nicht mehr verfügbar. Der Zugang zu gelöschten oder eingeschränkten Daten kann nur in eng begrenzten Ausnahmefällen gewährt werden – etwa bei strafrechtlicher Relevanz oder extremen Fällen von Hassrede. In solchen Fällen können Behörden die Daten anfordern, ebenso wie Forschende, wenn sie einen entsprechenden Antrag stellen. Schließlich wurde die Problematik von Bots in sozialen Medien thematisiert. Derzeit gibt es kaum verlässliche Methoden, um Bots eindeutig von echten Nutzer*innen zu unterscheiden. Diese Unsicherheit beeinträchtigt die Validität und Nachvollziehbarkeit von Studien, die auf Social-Media-Daten basieren.
Zusammenfassung
Sprache spielt in der Forschung eine zentrale Rolle sei es als Medium, Werkzeug und Untersuchungsgegenstand und beeinflusst maßgeblich die Replizierbarkeit wissenschaftlicher Studien. Besonders in den Sozial-, Verhaltens- und Kognitionswissenschaften führen Mehrdeutigkeiten, Übersetzungsprobleme und technologische Barrieren oft zu inkonsistenten Ergebnissen. Auch Social-Media-Daten bergen große Herausforderungen: rechtliche Einschränkungen, fehlende Repräsentativität und Datenverlust behindern transparente Forschung. Empfohlen werden u.a. klarere Begriffsdefinitionen, sprachinvariante Messinstrumente sowie offene, disziplinübergreifende Zusammenarbeit. Empfehlungen dazu, wie man ethische und rechtliche Schwierigkeiten, die bei der Nutzung sozialer Medien entstehen können, vermeiden oder überwinden kann, wären sehr hilfreich.