Das größte Problem bei der Suche nach Informationen im Internet sind Datenbestände unterschiedlichster Art und Herkunft. Sie liegen auf zahlreichen Servern, wobei jeder Server weitgehend keiner zentralen Verwaltung unterworfen ist. Folglich gibt es kein zentrales Inhaltsverzeichnis.
Jeder Suchmaschine liegt eine eigene Datenbank zugrunde, in der Informationen zu den einzelnen Seiten gespeichert sind. Ein Datensatz besteht dabei im wesentlichen
aus der URL (Uniform Ressource Locator) dem Adressierungssystem für Web - Dokumente, unter der die Seite zu finden ist, dem Titel der Seite und den für die Seite charakteristischen Stichwörtern. Nach diesen Stichwörtern läßt sich suchen. Das Ergebnis ist eine Liste mit Links, die zu den jeweiligen Seiten führen.
Schon wegen der Größe des Internet - der Gesamtbestand an Web - Seiten wird auf 100 bis 150 Millionen geschätzt müssen Suchmaschinen Beachtliches leisten.
Abfragen müssen ohne größere Verzögerung bearbeitet werden, wobei die Systeme auch simultanen Suchanfragen von mehreren tausend Anwendern gewachsen sein.
sollten. Außerdem muß der Datenbestand laufend aktualisiert werden. Ein Großteil der Seiten im Internet wird mehr oder weniger regelmäßig überarbeitet, und neue
Sites schießen wie Pilze aus dem Boden. Es leuchtet ein, daß das gesamte Internet niemals manuell erfaßt werden kann.
|