Suchmaschinen
Inhalt:
- Einführung
- Suchmaschinenmarkt
- Architektur von Suchmaschinen
- Ranking
- Suchanfrage
- Suchergebnisse
- Spezialisierte Suchmaschinen
- Aktuelles
Suchmaschinen gehören heute sicherlich zu den gebräuchlichsten Werkzeugen im Internet. Die eingangs skizzierte Größe des World Wide Webs hat sie zu unverzichtbaren Ausgangspunkten für Recherchen aller Art gemacht. Auch für das Innovationsmanagement stellen Sie einen wichtigen Zugangspunkt zu den im Web zu findenden Informationen dar. Hauptvorteile allgemeiner Suchmaschinen sind
- Universalität: Allgemeine Suchmaschinen bieten einen einheitlichen Zugang zu jeder Art von Information, da sie prinzipiell alle Webseiten indizieren, die von ihren Crawlern erreicht werden können.
- Abdeckung: Die Abdeckung möglichst großer Teile der im Web zu findenden Informationen spielt eine wesentliche Rolle bei Suchmaschinen.
- Bedienbarkeit: Bei den heute populären allgemeinen Suchmaschinen haben sich übersichtliche und minimalistisch gestaltete Benutzeroberfläche durchgesetzt.
Suchmaschinenmarkt
Der Suchmaschinenmarkt wird inzwischen von einigen wenigen Firmen dominiert. Im Wesentlichen ist der Markt aufgeteilt zwischen den Anbietern Google, Yahoo und Microsoft. In den USA verfügt zudem Ask.com (früher Ask Jeeves) über geringe Marktanteile. Erwähnenswert ist noch die Suchmaschine Baidu, die durch ihre ausschließliche Präsenz im chinesischen Heimatmarkt jedoch im weltweiten Vergleich auf lediglich 0,42 Prozent Marktanteil kommt.
Architektur von Suchmaschinen
Obige Abbildung (Darstellung basierend auf http://www.ibm.com/developerworks/web/library/wa-lucene) zeigt die übliche Architektur einer Web-Suchmaschine. Die Hauptbestandteile sollen im Folgenden in Kürze erläutert werden.
- Aufgabe des Crawlers ist es, das Web zu durchsuchen und die gefundenen Dokumente zu indizieren. Üblicherweise beginnt der Crawling-Vorgang mit einer wohldefinierten Dokumentenmenge ("Root Set") und folgt nach einem bestimmten Traversierungsalgorithmus den von diesen Dokumenten ausgehenden Verknüpfungen. Insbesondere aufgrund der Größe und des ungebremsten Wachstums des Internet muss der Crawlingalgorithmus hinsichtlich seiner Performanz optimiert sein.
- Der Suchindex ist die Datenbank einer Suchmaschine. Die durch den Crawler erschlossenen Dokumente werden indiziert, die wichtigsten Begriffe und weitere für eine Suche notwendige oder hilfreiche Informationen werden gespeichert. Die Größe des Internets bedingt eine entsprechende Indexgröße, was wiederum zu entsprechenden Infrastrukturkosten auf Seite des Suchmaschinenbetreibers führt.
- Der Ranker ist dafür verantwortlich, die gefundenen Dokumente in eine definierte Ordnung zu bringen. Das Ordnungskriterium kann dabei variieren. Leitidee ist stets, die Dokumente nach Relevanz für den Benutzer zu ordnen. Die Schwierigkeit liegt darin, dass diese Relevanz für den Nutzer ein unscharfer und in den meisten Fällen nicht einfach zu algorithmisierender Begriff ist. Faktoren, die beim Ranking berücksichtigt werden können, sind z. B. Termfrequenz, inverse Dokumentfrequenz , Nähe der einzelnen Suchbegriffe im Dokument, Vorkommen der Suchbegriffe an exponierter Stelle im Dokument (z. B. im Titel), Aktualität des Dokuments, Dateityp des Dokuments, Quelle des Dokuments, Anzahl der Verweise auf das Dokument, Anzahl Zugriffe auf das Dokument usw.
Ranking
Das Ranking in Suchmaschinen ist von höchster Bedeutung, da aufgrund der immensen Größe des Dokumentenkorpus die Anzahl der gefundenen Treffer oftmals sehr hoch sein und der Benutzer in den meisten Fällen nicht sämtliche Treffer begutachten kann. Studien haben gezeigt, dass Benutzer nur in seltenen Fällen durch die Ergebnisseite einer Suchanfrage blättern, daher ist entscheidend, welche Dokumente im oberen Bereich der ersten Seite zurückgegeben werden - es also unter die ersten 10 bis 20 Plätze schaffen .
In den aktuellen generische Suchmaschinen kommen üblicherweise Rankingverfahren zum Einsatz, die auf der Idee der Zitationsindizes basieren: PageRank (Brin und Page, 1998), HITS (Kleinberg, 1999) etc. treffen ihre Bewertung nicht, wie die ersten Suchmaschinen der 90er Jahre ausschließlich auf Basis einer Inhaltsanalyse, sondern primär auf Basis der Verlinkungsstruktur des Dokumentes. Grundannahme ist, dass auf die besten Dokumente auch am häufigsten verwiesen wird.
Suchanfrage
Der Benutzer drückt seinen Informationswunsch aus, indem er eine Suchanfrage über die Benutzerschnittstelle eingibt. Üblicherweise besteht das Anfrage-Frontend aus einem Textfeld, in das eine Menge von Suchbegriffen eingegeben werden kann. Meist gibt es zusätzliche Möglichkeiten, das Informationsbedürfnis zu präzisieren, etwa durch eine Verknüpfung mehrerer Begriffe durch Operatoren, die Kennzeichnung von Phrasen, die Einschränkung auf bestimmte Dokumententypen oder Quellen usw. Häufig bieten Suchmaschinen ein einfaches Frontend für den "normalen" Benutzer und ein erweitertes Suchfrontend für spezifischere Suchen ("Expertensuche" oder "Profisuche"). Die Anfrage wird durch den Anfrageparser in eine von der Suchmaschine auswertbare Anfrage übersetzt. Üblicherweise werden in diesem Schritt Anfrageoptimierungen, wie etwa das Entfernen von Stoppwörtern usw. vorgenommen.
Suchergebnisse
Die gefundenen und gerankten Dokumente werden dem Benutzer präsentiert. Üblicherweise geschieht dies in Form einer sortierten Liste, die neben dem Verweis auf das eigentliche Dokument einen (möglichst bzgl. der Suchanfrage relevanten) Ausschnitt oder eine Inhaltszusammenfassung sowie weitere Informationen wie z. B. Metadaten wie Autorenname, Änderungsdatum etc. enthält.
Spezialisierte Suchmaschinen
Aufgrund der für viele Fachgebiete mangelnden Präzision der generischen Suchmaschinen entsteht ein immer größerer Bedarf an spezialisierten Suchmaschinen. Dies hat u. a. folgende Gründe:
- Generische Suchmaschinen liefern oft zu viele nicht relevante Treffer.
- Generische Suchmaschinen lassen die Suchanfrage nicht in angemessener Form zu.
- Generische Suchmaschinen ranken die Ergebnisse oft nicht in angemessener Form.
- Generische Suchmaschinen stellen die Ergebnisse oft nicht in angemessener Form dar.
- Generische Suchmaschinen erlauben keine angemessene Navigation in der Dokumentenmenge
Der Bedarf von Spezialsuchmaschinen ist auch den Betreibern der großen generischen Suchmaschinen bekannt. So bietet Google seit geraumer Zeit mit "iGoogle" und "Google Custom Search Engine" die Möglichkeit, personalisierte Suchseiten zu erstellen.
Aktuelles
Im Frühjahr 2010 hat Google auch das Frontend seiner Standard-Suchmaschine stark im Funktionsumfang erweitert.
Die Abbildung zeigt einen Screenshot des neuen Frontends: Eines der Hauptanliegen der befragten Benutzer aus der
im vorigen Abschnitt pr

