Donnerstag, 9. Dezember 2010

Worüber man halt so redet... und wieviel

Immer und immer wieder aufs Neue drängt sich einem der Eindruck auf: über viele Dinge und Personen wird einfach viel zu viel berichtet, diskutiert und spekuliert. Man denke nur an den Fall Kachelmann. Ein Vergewaltigungsvorwurf gegen einen Wettermoderator - man sollte meinen, das reicht gerade mal für eine Kurzmeldung unter "Vermischtes". Und doch scheint dieses Thema in den Medien nahezu allgegenwärtig. Und vor einer Weile war es Sarrazin, dessen Thesen, entweder blödsinnig oder altbekannt, viel zu viel, viel zu oft diskutiert wurden, als sie das objektiv zu verdienen schienen. Nun aber sind solche Einschätzungen, worüber zuviel geredet und berichtet wird, leider eine recht subjektive Angelegenheit, und manch einer wird womöglich zu einer anderen persönlichen Einschätzung kommen. Wie schön wäre es da, wenn man ein sachliches, objektives und klar quantifiziertes Maß dafür hätte, ob ein Thema oder eine Person zu viel öffentliche Aufmerksamkeit bekommt oder nicht! Und ein solch unbestechliches Maß wollen wir uns jetzt bauen.

Alles, was wir tun müssen, ist beispielsweise die Verwendungshäufigkeit eines Begriffes gegen seine Wichtigkeit aufzutragen. Dann könnten wir überprüfen, in welchem Rahmen sich die normalen Begriffe typischerweise so bewegen. Und man könnte feststellen, welche Begriffe rausfallen, sei es, weil in Bezug auf ihre Wichtigkeit zu viel oder zu wenig über sie geredet wird.
Woher man die Verwendungshäufigkeit eines Begriffes bekommt, ist ja noch ziemlich klar. Man könnte z.B. nachzählen, wie oft der entsprechende Begriff in Zeitungen vorkommt. Das wird allerdings etwas mühsam. Also machen wir es uns hier mal einfach und nehmen einfach mal die Zahl der Treffer bei einer Google-Suche als Maß für die Verwendungshäufigkeit. Um Verwirrungen zu vermeiden, suchen wir dabei nur auf deutschsprachigen Seiten und setzen den Suchbegriff in Anführungszeichen.
Wie aber objektiv die Wichtigkeit eines Begriffs messen? Machen wir es uns auch hier einfach. Nehmen wir mal an, daß ein Begriff (beziehungsweise der Gegenstand, für den der Begriff steht) Wikipedia-Artikel in umso mehr Sprachen hat, je größer seine Bedeutung für die Menschheit ist. Also können wir die Anzahl der Sprachen, in denen es Wikipedia-Artikel zu einem Begriff gibt, als leicht zu bestimmendes Maß für die Wichtigkeit des Begriffs nehmen.
Jetzt wird der ein oder andere sicherlich einwenden wollen, daß dies zwei wirklich sehr grobe und primitive Kriterien für die Verwendungshäufigkeit und die Bedeutung eines Wortes seinen. Und das mag ja sein, aber sehen wir erst mal, ob es diese Kriterien nicht doch schon tun! Wenn es gute Maße sind, dann sollte man eine Korrelation zwischen ihnen erwarten. Denn je wichtiger ein Begriff, desto mehr sollte auch über ihn geredet werden, desto größer sollte also eine Verwendungshäufigkeit sein. Nehmen wir also mal eine Reihe von willkürlich ausgewählten Worten aus der Alltagssprache, von oft verwendeten Worten wie "Haus" oder "Liebe" bis zu eher selten verwendeten wie "Senfgurken" oder "Hachse". Für alle diese Worte bestimmen wir die Verwendungshäufigkeit und die Wichtigkeit. Wenn wir dann beide Zahlen für jedes Wort gegeneinander auftragen, sollte man keine zufällige Verteilung erwarten, sondern einen Zusammenhang zwischen beiden Größen. Und da aus irgendeinem seltsamen Grund solche Dinge wie Worthäufigkeiten etc. gerne Potenzgesetzen gehorchen, tragen wir die Werte in ein doppelt-logarithmisches Diagramm ein, wo wir dann eine Gerade erwarten sollten. Und tatsächlich:
Die Werte für die einzelnen Worte reihen sich grob entlang einer Geraden auf. Die Streuung mag zwar recht groß sein, aber man erkennt deutlich, in welchem Bereich des Häufigkeits-Wichtigkeits-Diagramms man typische Begriffe erwarten kann. Nennen wir diesen Bereich der Einfachheit halber mal die "Hauptreihe". Unsere primitiven Kriterien scheinen also durchaus zu funktionieren. Bevor wir jetzt aber vergleichen können, wo denn die nervigen Begriffe wie "Kachelmann" oder "Sarrazin" in diesem Diagramm zu finden sind, müssen wir noch ein wenig verweilen und uns die Struktur in dem Diagramm noch etwas genauer ansehen.

Es ist ja keinesfalls selbsverständlich, daß alle Begriffe auf derselben "Hauptreihe" liegen. Nehmen wir beispielsweise mal Begriffe aus dem naturwissenschaftlich-technischen Bereich. Solche Begriffe mögen mitunter eine sehr große Bedeutung haben, obwohl man sie doch eher selten verwendet. Die Worte "Lithium" oder "Molybdän" zum Beispiel benutzt man bestimmt nicht nennenswert häufiger als das Wort "Senfgurke", obwohl die Ersteren in ihrer wirtschaftlichen und technologischen Bedeutung die Senfgurken ganz erheblich übersteigen. Also sollten wir mal eine Reihe von Fachbegriffen aus den Bereichen Physik, Chemie, Astronomie und Geologie nehmen und sehen, wo diese Worte in dem Diagramm liegen. Wenn wir sie in Rot dazu eintragen, sieht das so aus:
Diese Begriffe liegen in der Tat auf einer eigenen Reihe und bei gleicher Bedeutung des Begriffes bei einer geringeren Verwendungshäufigkeit. Nennen wir diesen Bereich mal kurz den "Wissenschaftszweig". Bei einer weiteren gründlichen Untersuchung sollte man bestimmt noch mehr Strukturen finden können. Man denke z.B. mal an die Begriffe aus dem Bereich Sexualität und Erotik. Sicherlich sollten die viel häufiger verwendet werden, als ihre objektive Bedeutung rechtfertigen kann, und sich daher weiter oben in dem Diagramm gruppieren. Wir können aber das Diagramm schon mal in zwei Bereiche einteilen:Was hier auffällt ist noch, daß die Hauptreihe und der Wissenschaftszweig bei großen Bedeutungen, im schraffierten Bereich, zusammen zu laufen scheinen. Hier kommt es allerdings zu einer Art "Sättigung": Auch die Worte mit der höchsten Bedeutung kommen nur auf um die einhundert Sprachen in der Wikipedia. Zwar behauptet die, in ca. 260 Sprachen zu existieren, man findet aber kaum Worte mit Einträgen in mehr als einhundert Sprachen. Hier endet also unsere Skala der Bedeutung, und alle Kurven müssen hier zusammen laufen. Im schraffierten Sättigungsbereich können wir daher keine zuverlässigen Aussagen mehr über die Wichtigkeit von Begriffen machen.
Somit kommen wir zusammengefaßt auf das folgende Übersichtsdiagramm:Begriffe, die in dieser Darstellung oberhalb der Grenze der Hauptreihe liegen, sind überbewertet in dem Sinne, daß mehr über sie berichtet und gesprochen wird, als ihre tatsächliche Bedeutung rechtfertigen würde. Für Begriffe unterhalb der Hauptreihe gilt das Entgegengesetzte.
Nun müssen wir noch sicherstellen, daß auch die typischen Prominenten, die einem nicht sonderlich überpräsent vorkommen, mit der Hauptreihe zusammen fallen, und nicht etwa eine eigene Region im Diagramm bevölkern. Nehmen wir also einige deutsche Prominente mit unterschiedlichen Bekanntheitsgraden und (ohne jemandem persönlich nahetreten zu wollen) unterschiedlichen Bedeutungen. Nehmen wir mal Benedikt XVI, Die Ärzte, Rammstein, Herbert Grönemeyer, Stefan Raab, Herbert Feuerstein, Marie Gruber und Sebastian Koch, und tragen wir sie in Blau ins Übersichtsdiagramm ein:Über den gesamten untersuchten Bereich der Wortbedeutungen fallen alle genau in die Grenzen der Hauptreihe.
Nun endlich können wir mal einige gefühlte Plagen des öffentlichen Lebens hernehmen und sie in das Diagramm eintragen! Nehmen wir also mal Kachelmann, Sarrazin und Franz Josef Wagner, und tragen wir sie in Rot dazu: Und damit haben wir es tatsächlich und endlich offiziell und unumstößlich! Franz Josef Wagner liegt leicht über der Hauptreihe und ist damit gerade eben überpräsent in der öffentlichen Diskussion. Kachelmann und Sarrazin dagegen liegen deutlich über der Hauptreihe. Ihre Namen werden mehrfach häufiger verwendet, als ihre Bedeutungen es rechtfertigen würden!
Was also soll man noch mehr sagen? Ich sollte vieleicht noch die ganze Liste mit Worten nachreichen, die ich zur Bestimmung der Hauptreihe und des Wissenschaftszweiges verwendet habe. Und ansonsten eher mal schweigen...

Kommentare:

  1. finde diese uebung richtig schoen - danke dafuer :-)

    AntwortenLöschen
  2. Ob grob oder schwammig - es taugt!
    Feine Spielerei, die mit einer schönen Mischung aus Augenzwinkern und "erschütternder" Erkenntnis daherkommt.

    AntwortenLöschen
  3. Auch wenn die Analyse der Worthäufigkeiten interessant ist: Dann deutsche Prominente mit in das Schaubild einzutragen (und somit mit international bekannten Begriffen zu vergleichen), ist nicht gerade sehr sinnvoll.

    AntwortenLöschen
  4. Sitz grad in einem Seminar zu Statistik und SPSS. Ich werd dein Beispiel in der Pause gleich mal an den Beamer werfen lassen.

    Deine Ausführungen sind lebendiger als die Beispiele die wir bisher bekommen haben :D

    Danke!

    AntwortenLöschen
  5. @ Anonym Nr.3:

    Die anderen Prominenten, welche auf der Hauptreihe liegen, sind allerdings auch Deutsch und hauptsächlich in Deutschland bekannt. (Mit Ausnahme von Benedikt und, in gewissen Maßen, Rammstein, welche zwar Deutsch sind aber international doch ziemlich bekannt.)

    Folglich funktioniert es besser als gedacht. (auch wenns wohl wirklich eher Agenzwinkernd als mit wissenschaftlichen Anspruch gmeint ist)

    AntwortenLöschen
  6. Verzeihung, meinte Anonym #2.

    AntwortenLöschen
  7. Der Ansatz ist spannend, aber vor allem die Bewertung der "Wichtigkeit" wird der Aufgabe nicht gerecht. Es verliert in Bezug auf die vielen Differenzierungen der Wichtigkeit (Innenpolitik, Außenpolitik, Kulturgut, und und und) seine Aussagekraft. Der erhobene Wert bietet höchsten Rückschlüsse auf die internationale Popularität eines Begriffs. Es lässt sich kein wirklicher Rückschluss ableiten, der die Wichtigkeit in irgendeiner Form wirklich wiedergeben würde. Und auch die Anzahl der Google-Treffer sind unbereinigt nicht aussagekräftig. Da z.B. die dpa eine Meldung veröffentlicht, die dann tausendfach wieder gegeben wird. Das ist ein Mechanismus, und unterliegt oft keiner selbstbestimmten Wertung. Noch mal in Kurz: Ansatz sehr spannend - Zahlenmaterial aber nicht brauchbar für konkrete Aussagen. Aber daran könnte man ja arbeiten! ;-)

    Beste Grüße

    AntwortenLöschen
  8. Eigentlich wollte ich diese kleine Spielerei ja nicht zu einer Magisterarbeit ausbauen. ;-) Aber ein paar Anmerkungen zur Kritik möchte ich dann doch noch machen...

    Einmal ist da das Problem eines Vergleichs national bekannter und international bekannter Begriffe, und dann ist da die Frage nach der Aussagekraft der Zahlenwerte. Und beides hängt ja zusammen.

    Das man nationale und internationale Begriffe überhaupt voneinander abgrenzen kann, glaube ich nicht. Senfgurken sind noch eine ziemlich deutsche Angelegenheit, Matjes kennt man auch in den Niederlanden, Schweden, Norwegen, in der Normandie,... und Pizza ist dann endgültig global. Da gibt es einen kontinuierlichen Übergang. Und bei Prominenten ist es nicht viel anders. Benedikt und Rammstein haben weltweite Bekanntheit, Die Ärzte haben noch eine gewisse Bekanntheit in Nachbarländern, und andere wiederum kennt man nur in Deutschland. Daher sehe ich in dieser Hinsicht gar kein so großes Problem mit dem Vergleichen...

    Eine größere Schwierigkeit ist sicherlich die Frage, was "Wichtigkeit" eigentlich ist, und für wen (lesbische schwarze Behinderte? Deutsche? die "westliche Welt"? Menschen mit Internetzugang?). Das man nur Rückschlüsse auf eine "internationale Popularität" ziehen kann, finde ich aber nicht. Bei Prominenten würde man vieleicht noch von Popularität sprechen, aber bei Begriffen wie "Haus" oder "Boson"? Da würde ich dann schon eher von "Wichtigkeit", "Bedeutung", oder sowas in der Art sprechen. Und wenn man dann dasselbe Kriterium sowohl für Alltagsgegenstände wie auch für Prominente anwendet, dann sollten die Ergebnisse einigermaßen vergleichbar sein. Und was man da vergleicht, das kann man dann einfach mal die "Wichtigkeit" nennen, wenn man schon über keinen präziseren Begriff verfügt.

    Was die Anzahl der google-Treffer als Kriterium angeht, so finde ich es auch gar nicht so schlecht. Dass eine dpa-Meldung tausendfach verbreitet wird, ist doch nur ein Zeichen für das Interesse an ihr, und damit auch an den in ihr erwähnten Begriffen. Andere Agenturmeldungen werden dafür gleich im Nichts des Vergessens verschwinden.

    Also letztlich geht es um den Grad an Differenzierung und Genauigkeit, den man erreichen möchte. Sicherlich könnte man da mit besseren Maßstäben für die Häufigkeit und genaueren Vorstellungen von "Wichtigkeit" noch einiges besser hinbekommen. Aber für so aus der hohlen Hand und auf die Schnelle scheint mir das Diagramm schon in die richtige Richtung zu weisen...

    AntwortenLöschen
  9. Schöne Sache!
    Darf ich noch anfügen, dass die Zahl der Google-Treffer nach Suchbegriff täglich (teilweise massiv) schwankt...
    Als Beispiel der 'Google'-Kurs meiner Webseite
    http://www.arua.ch/googlestats/index.php?id=41
    [wie ich eben seh, stimmt es hintenraus nicht mehr//ab Tag 456].

    AntwortenLöschen
  10. Vielen Dank für diese wunderbare Auftragung. Ich bin so froh, dass ein Diagramm belegt, was man so oft denkt ;-)
    Vielleicht wäre es interessant noch Begriffe statt Personen zu prüfen: zB. Atomkraft, S21, AIDS, Bankenkrise und weitere...

    AntwortenLöschen
  11. Hallo Thomas,
    danke für die Anmerkungen zu meiner konstruktiv gemeinten Kritik in #7.

    Nochmal möchte ich sagen, dass ich den Ansatz und das Thema insgesamt sehr gut finde.

    Deinen Anmerkungen kann ich folgen, wenn ich die eigentliche Aufgabe dieser Statistikübung vernachlässige.

    Wenn ich mich aber damit beschäftigen möchte, am Aufkommen von Inhalten auf die Bedeutung von medial verarbeiteten Themen zu schließen, kommt man auf Grundlage dieser Daten einfach zu keiner validen Aussage.

    Die Schwierigkeit das Wort "Wichtigkeit" oder "Bedeutung" mit Inhalten zu füllen, hast du ja schon selbst erwähnt. Kurz gesagt, die Verallgemeinerung von individual Interessen durch Häufigkeitsrechnungen ist immer problematisch und kritikanfällig.

    Besser, aber natürlich nicht verfügbar, wäre eine repräsentative Umfrage für die Bedeutung der einzelnen Themen in der Bevölkerung gewesen.

    Dies würde dann im Vergleich zu Google-Treffern einen Rückschluss auf die Über- und Unterbewertung eines Themas schließen lassen.

    Natürlich hast du mit dem Gedanken einen Ansatz gesucht, der ohne einen ähnlich großen Aufwand zu realisieren ist. Das macht den Ansatz ja auch spannend.

    Wenn ich aber von der Häufigkeit der Übersetzung von Worten auf deren, sagen wir mal, internationalen Bedeutung im medialen Diskurs zu schließen will, ist das schlicht falsch.

    Die Verbreitung von Worten kann auch an an anderen Dingen liegen. Beispiel: Ein ähnlicher Fall, der vor Jahren schon mal Schlagzeilen gemacht hat, und dieses Wort im Netz schon verbreitet hat. Oder aber in Fall a) handelt es sich um Alltagsbegriffe und ist Weltweit-Bekannt, und im Fall b) handelt es sich um Fachbegriffe die weniger weit verbreitet sind.

    Über die Bedeutung des Themas,für die Menschen auf der Straße, sagt die Anzahl der Übersetzungen leider nichts aus.

    Wenn es so leicht wäre, wäre es für die Politiker ein leichtes die Liste mit den aktuellen Wahlkampfthemen zu entwickeln.

    Weils so lang geworden ist: In beiden Zahlenansätzen sind zu viele Störfaktoren. Eine annähernd valide Aussage ist so nicht möglich.

    Und damit das kein Meinungs-Ping-Pong wird... Danke für diesen trotzdem sehr lesenswerten Post.

    Beste Grüße

    AntwortenLöschen
  12. Man hätte als Vergleichsbasis nur andere Prominente wählen sollen, wenn man untersuchen will, über welche Prominente zu viel berichtet wird ;-) Alltagsgegenstände und wissenschaftskram sind ja nun mal doch völlig andere Dinge als Prominente. ;-)

    AntwortenLöschen
  13. Beeindruckend, wie wissenschaftlich man Fantasieresultate aufmachen kann.

    AntwortenLöschen
  14. @VonFernSeher:
    Danke! Dabei habe ich selbst mich in dieser speziellen Kunst noch nicht einmal bis ins Mittelmaß hochgearbeitet...!

    AntwortenLöschen
  15. Advocatus diaboli9. April 2016 um 19:43

    Wörter, nicht Worte ...

    AntwortenLöschen