Gerald Jatzek und Franz Zauner
Was and Wann or Wo
Wer sucht, der findet kein Ende: Über Sein und Werden der weltweiten Wissbegierde

----------
Das «Land» der Suchbegriffe zeigt, wofür sich die Menschen am häufigsten interessieren: Sex, Jobs, Gratis-SMS und ein Dach über dem Kopf.

 

Eigentlich suchen wir immer. Das gelobte Land, den Gral oder die Autoschlüssel. Während uns Geistesgeschichte und persönliche Erfahrung vor den schnellen Antworten warnen, erwarten wir von -> Suchmaschinen augenblicklich sechs Richtige.
Pythia hatte es noch leicht. Ihre Prognose über das Reich, das Krösus zerstören würde, überdeckte manche in Trance gestammelte Fehleinschätzung. Heute muss das Orakel rund um die Uhr seine Qualität beweisen. Jeder Tag beginnt mit einer Suche. Geblieben ist die Stummelsprache: «Mozart AND Opern NOT Wagner.» Diese Form der Konversation geht auf George Boole zurück, der im 19. Jahrhundert aus Logik und Mathematik ein Rechenwerk für grundlegende Werte bastelte, Werte wie Richtig oder Falsch, für Vernunft in kleinstmöglicher Dosierung.
So operiert jeder Prozessor - wer surft, surft mit George. Wer sucht, sucht irgendwie. Das zeigt die Studie «Wegweiser im Netz» der Bertelsmann-Stiftung: 21 Prozent der Abfragen bestehen aus einem Wort, 59 Prozent aus mehreren Wörtern, die unverknüpft im Eingabefeld stehen. Jede elfte Anfrage enthält Tipp- oder Rechtschreibfehler, und vier von fünf Anwendern beachten bloss die erste Resultatseite.
Die Logik, die den Suchenden fehlt, soll von den Maschinen ersetzt werden. Das Verständnis spontan gestellter Fragen ist deshalb der heilige Gral aller Suchmaschinenfirmen, und der Programmierer, der ihn findet, hat ausgesorgt. Weil aber Sprache ein Hort doppelter Böden, Labyrinthe und Fallstricke ist, werden manche Antworten vermutlich auch noch 2014 lustig sein (-> Zukunft).

 

----------
AUFMERKSAMKEITSÖKONOMIE
Nicht nur die Algorithmen, auch die Geschäftsmodelle werden stets verbessert - und die Theorien darüber. Wir leben in einer Aufmerksamkeitsökonomie. Ein Begriff wie dieser macht aufmerksam, darauf kommt es an. Wer oder was bekannt ist, bekommt Zuwendung. Auf Zuwendung folgt Begehren, dann erst kommt das Geld ins Spiel. Die Erkenntnis, dass es nicht unwichtig ist, hat viel Geld gekostet. Trotzdem bleibt der Tausch von Information gegen Aufmerksamkeit Geschäftsgrundlage. Suchmaschinen sind die Lokomotiven dieser neuen Ökonomie. Ihre Geschäftsmodelle setzen an jedem Punkt des Datenflusses an. Anwender finden schneller, öfter und umfangreicher Aufnahme in die Datenbank, wenn sie bezahlen.
Wer «Adwords» bucht, kann seine Kundenwerbung treffsicher mit bestimmten Suchanfragen kombinieren. Wenn ein User zum Beispiel etwas über «Bananen» wissen möchte, bekommt er neben der Trefferliste auch Einkaufsmöglichkeiten offeriert. Der Online-Auktionär eBay bietet bei Google aufs Stichwort etwa Bananen-kühlwagen von Modelleisenbahnen und Schmuckbananen aus Holz, Plastic und Metall an - echte Bananen stehen noch nicht zur Disposition. Da 60 Prozent aller Suchen lokaler Natur sind, regionalisieren die Suchmaschinen ihre Wissensbestände, denn die lokalen Märkte gelten als Goldgruben: Das entsprechende Inseratevolumen auf den Such-Websites soll bis 2008 von einer Milliarde Dollar auf 2,5 Milliarden wachsen. Parallel dazu entstehen spezialisierte Themen- oder Zielgruppenportale. Auch der Tausch von Geld gegen Relevanz verspricht gute Geschäfte. Ob die Führenden der Trefferliste tatsächlich bedeutsam sind oder es aufgrund «bezahlter Listings» an die Spitze geschafft haben, kann der Anwender nur ahnen. Letztlich bestimmt jedoch seine Toleranz das Ausmass der Manipulationen (-> Zukunft).

 

----------
FREIWILLIGE
Freiwillige haben einst der Oxford English Dictionary zum letzten Wort über Worte gemacht, Freiwillige sollen das Open Directory Project zur Enzyklopädie des WWW machen. Als Editoren organisieren sie Links in Kategorien und sind sich des Danks von All the Web, AltaVista, Google, HotBot, Lycos, Teoma und Yahoo sicher. Sie alle bedienen sich hier, um Fehleinschätzungen der Maschinen mit menschlicher Hilfe zu korrigieren.
Auch das vor kurzem aus dem Nichts aufgetauchte Projekt Grub verstärkt die Ahnung, dass im Internet immer noch plötzlich alles ganz anders kommen kann. Ähnlich wie bei SETI@Home, einer bisher trefferlosen Suchmaschine für Ausserirdische, betätigt sich der Heim- oder Firmencomputer in den Bildschirmpausen als Crawler. Das SETI-System (Search For Extraterrestrial Intelligence), das die Bildschirmschoner von vier Millionen Freiwilligen zu der Welt grösstem virtuellem Supercomputer koppelt, kann Tag für Tag auf das Äquivalent von 1000 Jahren Rechenleistung zurückgreifen. Damit werden jene astronomischen Datenmengen, die die Radioteleskope des Projekts erlauschen, auf Anzeichen ausserirdischer Intelligenz gesiebt.
Ähnlich soll Grub die gigantischen Weiten des World Wide Web erkunden: Immer wenn der Computer eines Freiwilligen gerade nichts zu tun hat, indiziert er einige Webseiten in seiner Netzumgebung und meldet die Daten an die Rechner der Suchmaschinenfirma LookSmart in San Francisco weiter. Eine genügend grosse Anzahl von Teilnehmern vorausgesetzt, könnte es eines Tages gelingen, alle Seiten des Internets laufend neu zu erfassen (-> Technik).

 

----------
GOOGLE
Google erfasst längst nicht alle Seiten des World Wide Web, lotet aber den Datenozean am tiefsten aus. Die Suchmaschinenfarm ist das Herz der -> Aufmerksamkeitsökonomie und Ausweis einer Intimität, die man der Globalisierung nie zugetraut hätte. Wörter, die früher höchstens im Beichtstuhl über die Lippen gekommen wären, gehen wie selbstverständlich über die Tastatur. Googles Serverfarmen stillen 75 Prozent des weltweiten Wissensdurstes. Wie alle Monopole wirft natürlich auch dieses Fragen auf: Die Suchanfragen werden länderspezifisch gefiltert, den Newcomern fällt es schwerer, berühmt zu werden (-> Tricks). Manchmal rüttelt Google selbst an den Fundamenten seiner Weltordnung. Wenn die Entwickler den grundlegenden Algorithmus ändern, werden die Ersten zu den Letzten: Firmen, die vorher nach Eingabe gewisser Stichworte auf den Antwortseiten ganz oben standen, versäumen Millionen von Klicks. «Google Dance» nennt die Fachwelt diese Allüren.

 

----------
INFORMATIONSFLUT
Wer das digitale Orakel befragt, muss ihm vertrauen. Je höher die Informationsflut steigt, desto mehr. Die University of California schätzte den Zuwachs für 2003 auf etwa 5 Exabytes oder eine halbe Million Mal die Library of Congress, die 19 Millionen Bücher (10 Terabytes Information) beherbergt.
Es hat viele Versuche gegeben, das im Datenmeer des WWW gelöste Wissen zu filtern. Gewiss, ein Ovid ist nicht dasselbe wie eine Anleitung zum Streichen von Gartenmöbeln, aber in manchen Augenblicken zählt Letzteres zu den bedeutenderen Metamorphosen. Es wäre schön, wenn Information nach Art selbstorganisierender Strukturen über sich Bescheid geben könnte. Das ist die Idee von neuen Standards wie den Topic Maps, einem elektronischen Thesaurus, oder des Semantic Webs, eines hochformalisierten, wie ein missing link zwischen Sprache und Mathematik anmutenden Beschreibungssystems für Dokumente.
Damit sollen Ressourcen aller Art benannt, ihr Informationsgehalt und ihre Bedeutung im Verhältnis zu anderen Ressourcen erfasst werden. Wer sich üblicherweise nicht an Konstrukten formaler Logik ergötzt, wird beim Anblick von ausgeklügelten RDF-Graphen oder DAML-Ontologien Fluchtimpulse verspüren. Entsprechend zugerichtete Suchmaschinen und Softwareagenten können diese Konstrukte des Semantic Web jedoch anstandslos interpretieren und dem Normalverbraucher nach dem Vorbild kundiger Bibliothekare mit jenen Informationen dienen, die sie tatsächlich suchen.

 

----------
KNOWLEDGE
Die -> Informationsflut überspült einzelne Orte heftiger als andere. Unternehmen wissen manchmal so viel, dass niemand mehr weiss, was sie wissen. Ausser dem Wissensmanager, der sagt: «Knowledge Management umfasst alle Methoden, Werkzeuge und kritischen Aspekte einer Organisation, die zur Anpassung, Kompetenzbewahrung und -erweiterung notwendig sind, um auf Anforderungen des Marktes effizient reagieren zu können.» Das weiss bald auch die Konkurrenz, und so wird der Wissensmanager zum gerngesehenen Gast. Die nächsten zehn Jahre werden gute Jahre für Firmen wie Autonomy, Hummingbird oder Eurospider - automatisches und halbautomatisches Erfassen, Abspeichern, Finden und Darbieten von Wissen gilt als Goldgrube.

 

----------
SUCHMASCHINEN
Die weltweite Wissbegierde ist das Kapital von Google & Co. In ihren Computerfarmen summieren sich die Wortbrocken zu einem Bewusstseinsstrom, der das Denken im Westen spiegelt: Worüber Google noch nicht befragt worden ist, davon kann man getrost schweigen. «To google» hat Eingang ins Wörterbuch gefunden, selbst einer «Googlosophy» hängen manche bereits an.
1996 konnte Lycos auf 60 Millionen Dokumente verweisen. 2003 protzte Google mit 3,3 Milliarden. Grundsätzlich unterscheidet man handgearbeitete Kataloge wie Yahoo und automatisch erstellte Indizes. Kooperationen bündeln die Vorteile beider Ansätze. Nicht immer geht es dabei friedlich zu, Übernahmen sind an der Tagesordnung. Daten werden quer durch den Markt ausgetauscht, bisweilen auch unter Konkurrenten, wenn alte Verträge erfüllt werden müssen. Bis 2007 soll der Markt für Suchmaschinen und ihre Software von 2 auf 7 Milliarden Dollar wachsen. Verkauft werden Inserate, Daten und Suchalgorithmen in allen geschäftlichen Grössenordnungen.

 

----------
TECHNIK
Damit alles seine Ordnung hat, muss man die -> Suchmaschinen einteilen. Suchmaschinen 1. Ordnung nehmen es mit dem Web auf, Suchmaschinen 2. Ordnung mit Suchmaschinen 1. Ordnung, die sie parallel abfragen. Suchmaschinen der 3. Ordnung existieren erst als Postulat. Sie sollen Suchmaschinen 1. Ordnung automatisch erzeugen, deren Resultate jedoch thematisch beschränken. Irgendwann wird jeder eine Suchmaschine haben. Momentan heisst Suchen, kleine Programme, Bots, Crawlers und Spiders genannt, rund um die Uhr durchs Web eilen zu lassen. Sie hangeln sich von Link zu Link, schauen nach, was es Neues gibt - und verursachen rund fünf Prozent des Verkehrsaufkommens.
Als wesentliche Messgrössen dienen die Rückmeldungen der Wissbegierigen. Weil diese selten freiwillig Auskunft erteilen, schmuggeln ihnen die Betreiber der Suchmaschinen Spione auf die Festplatte, die das Rechercheverhalten protokollieren. Die in frühen Stadien der Entwicklung befindlichen «Theme Engines» arbeiten nach dem Prinzip, dass eine Sache so ist, wie eine Menge Leute behaupten, dass sie ist. Sie vergleichen die Struktur und den Inhalt einer Seite mit anerkannten Referenzseiten. Daraus ergibt sich die Reputation für ein Thema. Die Schmuckbananenseite (-> Aufmerksamkeitsökonomie) kann also einen Wert von 0,92 für «Bananen», aber nur 0,23 für «Früchte» und 0,02 für «Dritte Welt» aufweisen. Wenn das Selbstbild und das Fremdbild voneinander abweichen, sinkt die Akzeptanz gegen null, man kennt das auch aus dem richtigen Leben (-> Zukunft).

 

----------
TRICKS
Man kann gleichzeitig unsichtbar und interessant sein. Manche arbeiten einfach die meistgesuchten Begriffe in weisser Schrift auf weissem Grund in ihre Seiten ein. Das blinde Suchprogramm sieht so Stichwörter, die der menschliche Besucher nie zu Gesicht bekommt. Wie die Steuerverwaltung lernen Suchmaschinen jedoch schnell. Sie strafen mit Ignoranz, die Seite wird aus dem Index gekippt.
Weil die Anzahl der Links als Massstab für Relevanz galt, wurden Linkfarmen mit Tausenden von sinnlosen Verweisen eingerichtet. Kaum schaffen die Entwickler einen Algorithmus, der das Datenuniversum ordnen könnte, beginnen die Trickser zu tüfteln. Sie fingieren häufige Aktualisierungen und täuschen künstlich Interesse vor (-> Aufmerksamkeitsökonomie). Der Geschäftszweig heisst Search Engine Optimization; jene, die es betreiben, nennen sich selbstbewusst SEO, im Gleichklang mit den mächtigen Chief Executive Officers, den CEO.

 

----------
ZUKUNFT
Suchen ist Kunst, Finden eine Frage der Forschung. Manche setzen auf künstliche Intelligenz. Die meisten bestärken die Computer in dem, was sie können: vergleichen, zählen, wägen, messen. Mustererkennung, sprachunabhängige Indizierung, wahrscheinlichkeitsbasierte Relevanzrangierung lauten die Stichworte jener Bemühungen, die die Fährnisse der Sprache überwinden sollen.
Filter sind wie Barten für Informationsplankton. Sie ermöglichen es, dem Datenozean Sinn in rauhen Mengen abzugewinnen. Die eigene DVD-Sammlung nach Sonnenszenen, Meeresrauschen und flirrender Luft abzusuchen - das zum Beispiel wäre komfortabel. Der Konjunktiv muss nicht mehr lange bleiben: Die -> Technik der Suche sucht zum Zwecke des Findens alles zu nutzen, was Merkmal ist.
Weltweit beschäftigen sich Forscher mit den letzten Fragen der Suche. In Artikeln mit ansprechenden Titeln wie «An Ontology-Based Binary-Categorization Approach for Recognizing Multiple-Record Web Documents Using a Probabilistic Retrieval Model» keimen die Suchmaschinen der Zukunft.
Eines Tages gibt es keine offenen Fragen mehr, und die Algorithmen werden auf die Frage «Welche Fische schwimmen im Mittelmeer?», in ein Mikrophon im Flugzeug gebrummt, eine Trefferliste vorsprechen, um die sie jeder Angler beneidet (-> Anfang).

 

Gerald Jatzek und Franz Zauner betreuen Datenbank und Webauftritt der «Wiener Zeitung».

 

http://www-x.nzz.ch/folio/archiv/2004/02/articles/zauner.html