Die Tiefen des Internets

Die Zahl der Seiten, die von Google indiziert und so auffindbar gemacht werden, beträgt inzwischen über eine Billion. So unvorstellbar gross - eine Eins mit zwölf Nullen - diese Zahl auch ist, handelt es sich dabei doch nur um den Bruchteil des gesamten Informationsbestands des Internets. Suchmaschinen wie Google können derzeit nämlich die riesigen Informationsmengen, die in Datenbanken liegen und eigentlich öffentlich zugänglich wären, nicht erfassen. Diese Datenbanken beinhalten alles mögliche, von Einkaufskatalogen über Flug- und Fahrpläne bis hin zu wissenschaftlichen Forschungsergebnissen.

Diese Menge an Informationen können mit den bisherigen Technologien kaum erfasst werden. Dies ist auch der Grund, warum zum Beispiel Google auf die Suchanfrage "Wann fährt der nächste Zug von Bern nach Zürich" überhaupt nicht zufriedenstellend beantworten kann.

Dieser Text wurde ursprünglich am 03.03.2009 um 16:28 Uhr auf dem mittlerweile eingestellten Corporate Blog von aseantic ag, Biel veröffentlicht. Das Original ist offline. Die Wiederveröffentlichung erfolgt im Sinne des Fair Use unter der GNU FDL 1.2 Lizenz.

Nur die Spitze des Eisbergs

Die herkömmliche Methode zur Indizierung von Webseiten sind so genannte Crawler oder Spider, kleine Programme also, die das WWW automatisch durchsuchen und die gefundenen Seiten analysieren. Wie ein Surfer gelangen diese Crawler über Links von einer Seite zur anderen. Die dabei gefundenen Links werden gespeichert und der Reihe nach besucht.

Web Crawler Architecture
Die Architektur eines Crawlers (Quelle: Wikimedia Commons)

Diese Methode kann jedoch nur die Spitze des Eisbergs indizieren, da die meisten Inhalte nicht über einfache Links, sondern beispielsweise nur über Suchmasken (Formulare) erreichbar sind: Erst wenn ein Nutzer über ein solches Formular eine Suchanfrage erstellt, werden Seiten dynamisch aus Datenbanken generiert. In diesem Zusammenhang spricht man auch vom "Deep Web".

Die Indizierung von Datenbanken

Die grosse Herausforderung besteht nun darin, dieses Deep Web sinnvoll zugänglich zu machen. Die Probleme beginnen schon damit, dass eine Suchmaschine zuerst überhaupt wissen muss, welche Datenbank zu welcher Suchanfrage überhaupt eine Antwort liefern könnte. Ausserdem muss klar sein, wie Fragen an die Datenbank gestellt werden müssen, um ihr auch tatsächlich Inhalte zu entlocken. Schliesslich müssen die Suchergebnisse auch in einer nutzbaren Form präsentiert werden (Search engine results page SERP).

Den ersten beiden Herausforderungen versucht man derzeit dadurch zu begegnen, dass man einige wenige Testanfragen an eine Datenbank sendet und die zurückkommenden Resultate analysiert. Diesen Ansatz verfolgt beispielsweise DeepPeep, welches derzeit eine kleine Auswahl an öffentlich zugänglichen Wissenschaftsdatenbanken indiziert.

Ein ewiger Wettlauf

Das Deep Web besteht aber nicht nur aus Datenbanken und dynamischen Webseiten. Ein grosser Teil des Deep Web bilden Dokumente, die (noch) nicht in einem Browser dargestellt werden können, komprimierte oder beschädigte Daten. Zwar ermöglicht es der technische Fortschritt, immer mehr Dokumente oder Dateiformate zu erfassen. So ist es Google erst kürzlich gelungen, auch Flash-basierte Webseiten zu indizieren. Aber die Datenmenge wächst kontinuierlich. Der Umfang des WWW verdoppelt sich alle 5,32 Jahre und folgt dem mooreschen Gesetz.

Gordon Moore formulierte das Gesetz 1965, das besagt, dass sich die Anzahl der Transistoren, die auf einem integrierten Schaltkreis platziert werden können, in einem Rhythmus von 18 Monaten verdoppelt. Das Gesetz hat nach wie vor Gültigkeit. Eine Gruppe chinesischer Wissenschafter konnte jüngst nachweisen, dass das Gesetz nicht nur für die Elektronik sondern auch für das Web gilt.

Wortgefecht

Über das Wortgefecht

Newsletter

Nur die Spitze des Eisbergs

Die Indizierung von Datenbanken

Ein ewiger Wettlauf

Kommentare

Einen Kommentar verfassen

Kampagne

Kampagne

Werbung