Suchmaschine: Programm zur Beschaffung von Dokumenten, die in einem Computer oder einem Computernetzwerk (z. B. World Wide Web) gespeichert sind.
Funktion: Nach Eingabe eines Suchbegriffs liefert die Suchmaschine eine Auflistung von Verweisen auf möglicherweise bedeutsame Dokumente, meistens wird es mit Titel und einem kurzen Auszug des Dokuments angezeigt.
Die wichtigsten Aufgabenbereiche einer Suchmaschine sind:
Erstellung und Pflege eines Indexes (Datenstruktur mit Informationen über Dokumente; Datenstruktur: eine bestimmte Art, Daten zu verwalten und miteinander zu verknüpfen)
Verarbeiten von Suchanfragen (Finden und Ordnen von Ergebnissen)
Aufbereitung der Ergebnisse in einer möglichst sinnvollen Form
Arten von Suchmaschinen
Suchmaschinen lassen sich nach Merkmalen unterscheiden. Die drei folgenden Merkmale sind orthogonal zueinander (d. h. man kann sich beim Entwurf einer Suchmaschine für eine Möglichkeit aus jeder der drei Merkmalsgruppen entscheiden, unabhängig von den anderen Merkmalen). Die gängigste und meistgenutzte Kombination ist eine indexbasierte (Realisierung) Websuchmaschine (Datenquelle) auf HTML-Textdokumenten (Art der Daten), wie sie unter anderem von den zwei großen Suchmaschinenanbietern Google, Yahoo! Search bereitgestellt wird.
Merkmalsgruppen:
Art der Daten
Verschiedene Suchmaschinen können unterschiedliche Arten von Daten durchsuchen. Diese Daten können z. B. sein: Text, Bild, Ton oder Video. Die Ergebnisseiten werden also in Abhängigkeit von dieser Art gestaltet. Bei einer Suche nach Textdokumenten z. B. wird normalerweise ein Textauszug angezeigt, welches die Suchbegriffe enthält.
Datenquelle
Ein weiteres Merkmal ist die Quelle, aus der die Daten stammen, die von der Suchmaschine erfasst wurden. Meistens beschreibt bereits der Name der Suchmaschinenart die Quelle. Websuchmaschinen erfassen Dokumente aus dem World Wide Web, Usernetsuchmaschinen Beiträge aus dem weltweit verteilten Diskussionsmedium Usenet. Intranetsuchmaschinen beschränken sich auf die Rechner des Intranets einer Firma.
Realisierung
Dieser Abschnitt beschreibt Unterschiede in der Realisierung des Betriebs der Suchmaschine.
Am Wichtigsten sind indexbasierte Suchmaschinen. Diese lesen passende Dokumente ein und legen einen Index an. Dabei handelt es sich um eine Datenstruktur, die bei einer späteren Suchanfrage verwendet wird. Nachteil ist die aufwendige Pflege und Speicherung des Indexes, Vorteil ist die Beschleunigung des Suchvorgangs.
Metasuchmaschinen schicken Suchanfragen parallel an mehrere indexbasierte Suchmaschinen und kombinieren die Einzelergebnisse. Als Vorteil ergibt sich die größere Datenmenge. Nachteil ist die relativ lange Dauer der Anfragebearbeitung. Metasuchmaschinen sind vor allem bei selten vorkommenden Suchbegriffen sinnvoll.
So genannte Echtzeitsuchmaschinen starten etwa den Indexierungsvorgang erst nach einer Anfrage. So sind die gefundenen Seiten zwar stets aktuell, die Qualität der Ergebnisse ist aber aufgrund der fehlenden breiten Datenbasis insbesondere bei weniger gängigen Suchbegriffen schlecht.
Ranking (Sortierung der Ergebnisse):
Vorgang der Sortierung aller potentiellen Suchergebnisse nach Relevanz oder Bedeutung. Hierbei verwendet jede Suchmaschine eigene Algorithmen (Kriterien), so dass man bei allen Suchmaschinen unterschiedliche Ergebnisse für identische Suchanfragen erhält, selbst wenn der Datenbestand aller Suchmaschinen identisch wäre. Die meist geheim gehaltenen Kriterien sind:
Die Bedeutung eines Dokuments (bei Google der PageRank-Wert).
Häufigkeit und Stellung der Suchbegriffe im gefundenen Dokument.
Zahl der Verweise anderer Webseiten auf eine bestimmte Homepage (je mehr Links, desto besser die Einstufung)
Wie stark die unterschiedlichen Kriterien für das Ranking von den Suchmaschinen herangezogen werden, ist meist ein Firmengeheimnis der Betreiber. Webseiten die von mehr Surfern besucht werden, werden auch in den Trefferlisten höher eingestuft. Da das Ranking sehr wichtig für den Erfolg einer Webseite sein kann, ist es bei vielen Suchmaschinen möglich, sich ein hohes \"Listing\" zu erkaufen (Paid Placement).
|