Was kommt nach Google?
Die Zukunft der Suchmaschinen
“Googeln” für Fortgeschrittene
Was kommt nach Google?
Mit Google hat die Suche im Internet wesentliche Verbesserungen erfahren. Dennoch bleiben einige Probleme offen.
Für wenig geübte Benutzer ist es zum Beispiel schwierig, auf Anhieb die Stichwort-Kombination zu finden, die zum gewünschten Suchergebnis führt. Darüberhinaus führen mehrdeutige Begriffe dazu, dass auch Texte aus Bereichen, die der Benutzer gar nicht gemeint hat, angezeigt werden.
(die versinnbildlichte semantische Suche. Bild: Intelligent Views)
Ein weiteres Problem, das zunehmend an Bedeutung gewinnt, ist die Suche in firmeninternen elektronischen Datenbeständen und auf Websites von Unternehmen. Eine verbesserte Suche soll hier einerseits Mitarbeiten helfen, rascher die gewünschten Dokumente zu finden. Andererseits will man vor allem auch Kunden bei der Suche auf Firmen-Websites unterstützen und so vermeiden, dass diese zu einem anderen Anbieter wechseln, weil der Suchprozess zu lange dauert oder die Suche gar keine oder keine brauchbaren Treffer zurückliefert.
“Text Mining”und “Question Answering” erkennen Sinnzusammenhänge
Was kommt nach Google?
Zur Lösung der genannten Such-Probleme forschen Computerlinguisten am Thema “Text Mining“. Hier geht es um das automatische Erschließen von Informationen aus unstruktrurierten Texten. Es stellt eine spezielle Art des “Data Mining” dar, bei dem es generell um die Erkennung von Mustern in großen Datenmengen geht.
Ein noch ambitionierterer computerlinguistischer Ansatz ist “Question Answering“. Dabei ist die Idee, dass der Benutzer eine vollständige Frage eingibt (z.B. “Wer ermordete J.F. Kennedy?”), woraufhin er eine präzise Antwort bekommt, evtl. angereichert durch Zusatzinformationen (“Lee Harvey Oswald ermordete Kennedy am 22.11.1963.”).
Einige dieser Verfahren sind bereits heute im Einsatz. Experte im Bereich intelligente firmeninterne Suche ist beispielsweise das Unternehmen Fastsearch in München. Fastsearch hat es sich zur Aufgabe gemacht, individuelle Lösungen für eine erfolgreichere Suche für ihre Firmenkunden zu entwickeln, je nach Branche, Art des Dokumentenbestands und typischen Suchanfragen bzw. Geübtheit der Benutzer. Weitere Anbieter von Technologien zur Intelligenten Suche sind z.B. die Unternehmen Language Computer Corporation, Neofonie, Moresophie, Ontoprise und Intelligent Views.
Neue Techniken: Unerkannt schon aktiv
Was kommt nach Google?
Question Answering wird bereits bei manchen Suchmachinen wie Google, ask.com, gigablast.com oder brainboost.com eingesetzt, befindet sich aber insgesamt noch im Entwicklungsstadium.
Hinzu kommen Forschungsprojekte und Konferenzen, die sich mit dem Thema Intelligente Suche und Question Answering beschäftigen. Auf der “Text Retrieval und Evaluation Conference” (TREC) werden jährlich auch neueste Ergebnisse zu Question Answering vorgestellt.
Das am MIT entwickelte System START wird als das erste Web-basierte Question Answering System bezeichnet und ist seit 1993 online. Grundlagen für die Intelligente Suche werden unter anderem auch in dem vom Bundesministerium für Wirtschaft und Technologie 2006 initiierten Programm THESEUS erforscht, das sich mit 31 Forschungspartnern die semantische Erschließung der Daten im Web zur Aufgabe gemacht hat und das Internet der nächsten Generation (Web3.0) vorantreiben will.
Wie funktioniert Intelligente Suche?
Was kommt nach Google?
Während sich herkömmliche Suchmaschinen vorwiegend des Information Retrievals bedienen – ohne weitere Informationen über die Textstruktur oder semantische Zusammenhänge von Wörtern innerhalb des Textes einzubeziehen – , werden im Text Mining unterschiedliche Methoden zur Erschließung von Inhalt und Struktur der Texte angewendet, wie z.B. Text Categorization, Summarization, Clustering von thematisch verwandten Texten, Erkennen von Fachterminologie und Information Extraction.
Dabei werden zunächst die Dokumente im Datenbestand vollautomatisch analysiert und mit bestimmten Meta-Informationen versehen: es wird die Textkategorie bestimmt, evtl. eine Zusammenfassung erstellt, der Text wird “lemmatisiert, getaggt und geparst” (also morphologisch, lexikalisch und syntaktisch analysiert) und semantische Beziehungen zwischen Verben und ihren Objekten werden ermittelt. Durch Methoden der “Information Extraction” können zusätzlich noch Eigennamen, Mengen- und Datumsangaben im Text markiert sowie Beziehungen zwischen Pronomen und Nomen in unterschiedlichen Sätzen herausgefunden werden (“Coreference Resolution”). In manchen Ansätzen wird zudem ermittelt, ob Wörter z.B. im Verhältnis Ober- und Unterbegriff zueinander stehen, Synonymie oder Antonyme sind.
Hierfür wird meist eine Mischung aus statistischen und symbolischen Verfahren verwendet. Durch statistische Verfahren können Häufigkeiten der verwendeten Begriffe und vorhandenen semantischen Beziehungen ermittelt werden, die wiederum Aufschluss über die Art der Texte geben und festlegen an welchen Stellen im Dokument sich zentrale Inhalte befinden. Symbolische Verfahren verwenden in der Regel computerlinguistische Ressourcen wie maschinenlesbare Lexika, Grammatiken und Ontologien bzw. Wortnetze (z.B. Wordnet).
Außerdem muss natürlich die Such-Eingabe linguistisch analysiert werden. Dies geschieht mit zum Teil ähnlichen Methoden wie bei der Aufbereitung der Texte. Es werden beispielsweise Tippfehler korrigiert, spezielle Wortformen werden auf ihre Basisfrom zurückgeführt oder durch alle möglichen morphologischen Formen angereichert (“Bäume” -> “Baum”, “Baumes”, “Bäumen” etc.), es werden Synonyme für die Suchbegriffe ermittelt. Diese Methoden können aus einer “schlechten” Suchanfrage ein Query erzeugen, das möglichst viele Dokumente zum gewünschten Thema zurückliefert und gleichzeitig Dokumente ausschließt, die nichts damit zu tun haben.
Linguistik verbessert Suchfunktionen
Was kommt nach Google?
Question Answering (QA) geht noch einen Schritt weiter als die bloße linguistische Analyse: Hier sollen nicht passende Dokumente gefunden, sondern eine möglichst genaue Antwort auf die Frage des Benutzers gegeben werden.
QA lässt sich laut Prof. Michael Hess von der Universität Zürich in drei Schritte unterteilen: Verarbeitung der Frage, der Dokumente und der Antwort.
Die sehr komplexe Theorie würde den Rahmen dieser Online-Veröffentlichung sprengen, daher im Folgenden nur eine grobe Zusammenfassung der möglichen Vorgehensweisen:
Linguistik 1: Verarbeitung der Frage
Was kommt nach Google?
Einfachere Ansätze extrahieren Keywords aus der Frage, in der Annahme, dass diese Konzepte in der Antwort ebenfalls vorkommen. Dazu wird die Frage linguistisch analysiert (z.B. durch Tagging, Parsing, Entfernung von “Stopwörtern”, also Wörtern die häufig im Text vorkommen, inhaltlich aber kaum oder nicht zur Bedeutung beitragen). Übrig bleiben die “Keywords”. Durch das Tagging wird die Frage m
it Wortarten angereichert und mittels Parsing werden Wörter ermittelt, die eine Einheit (Phrase) bilden.
Eine wichtige Bedeutung hat auch das “Stemming” (auch Lemmatisierung genannt) bzw. die morphologische Analyse der Wörter, da sonst keine Beziehung zwischen z.B. “Baum” in der Anfrage und “Bäume” im Dokument hergestellt werden kann. Durch Zuhilfenahme von Thesauren wie Wordnet oder Wortlisten können semantische Beziehungen zwischen Wörtern, wie z.B. Synonymie, hinzugefügt werden.
Andere Ansätze extrahieren nicht nur Keywords, sondern ordnen die Frage zusätzlich einem bestimmten Typ zu (z.B. Frage nach Ort, Personen, Zahl, ja/nein-Fragen etc.), aus dem sich automatisch der Typ der Antwort ergibt.
Mit Hilfe der gefundenen Keywords werden dann Kontexte für die Suche gebildet. Die meisten QA-Systeme verwenden in diesem Schritt Information Retrieval (IR). Aus den Keywords bzw. der analysierten Frage kann also eine Anfrage an eine Suchmaschine (z.B. Google) gebildet werden, die relevante Textschnipsel zurückliefert. Hierbei spielt die Dichte der Suchbegriffe im Textschnipsel eine entscheidende Rolle. Kennt man den gesuchten Antworttyp, können außerdem je nach Typ bestimmte Wörter zum in der Antwort erwarteten Kontext hinzugefügt werden (z.B. bei einer “warum”-Frage die Begriffe “weil”, “wegen” etc.).
Linguistik 2: Verarbeitung der Dokumente
Was kommt nach Google?
Um QA betreiben zu können ist es notwendig, jedes Dokument in der Datenbasis bezüglich seiner linguistischen Eigenschaften zu analysieren.
Dabei werden beispielsweise Wortgruppen bestimmte semantische Kategorien zugewiesen, etwa spezielle Typen von Eigennamen (wie Orte, Personen- oder Firmennamen). Dies kann mit dem Verfahren der “Named Entity Recognition”, mit Wortlisten oder einfachen Heuristiken geschehen.
Das geschieht entweder vor dem oben genannten IR oder danach (nur für die Menge der relevanten Dokumente). Zudem sollten Koreferenzen (Beziehungen zwischen Pronomen und Nomen in unterschiedlichen Sätzen) aufgelöst werden.
Linguistik 3: Verarbeitung der Antwort
Was kommt nach Google?
Aus den durch das IR gefundenen Textschnipseln wird nun der Begriff, der für die Antwort zentral ist (z.B. eine Zahl) herausgesucht. Evtl. wird noch der Kontext des Wortes einbezogen (z.B. eine Maßeinheit). Kommen mehrere Kandidaten in Frage, so wird das am häufigsten in den Schnipseln vorkommende Wort als Antwort selektiert.
Außerdem kann der Frage- bzw. Antwort-Typ, falls bekannt, zur weiteren Einschränkung herangezogen werden. Aus dem gefundenen Begriffen (z.B. Zahl + Einheit) und dem Antworttyp wird schließlich ein konkreter Antwortsatz konstruiert.
Die Zukunft der Suche entsteht gerade
Was kommt nach Google?
Google und Co sind schon fast die Vervollkommnung der reinen Textsuche, und ohne dass der Nutzer es wirklich merkt, nutzen einige Suchmaschinen bereits die ersten Ergebnisse der derzeitigen computerlinguistischen Forschungen.
Regierungsorganisationen finanzieren einige Forschungsprojekte, und mit Mitteln aus EU, Deutschland, Frankreich und den USA erkunden Forscher weltweit, wie sich Sprachanfragen und Ergebnisse durch Technik noch intelligenter gestalten lassen. Die in diesem Artikel genannten Ansätze sind hier erst der Anfang, und Unternehmen wie Google forschen mit eigenen Geldern mit.
Web und Firmen-Content mit wenig Aufwand sinnvoll zu durchsuchen bringt noch zahlreiche Herausforderungen mit sich – die Forscher sind schon dran.