ck
01.09.07 / 00:10
Heft 17/2007 Praxis
Semantisches Web

Mehr Nutzen vom Netz

Online-Suchmaschinen wie Google, Yahoo oder web.de spucken auf Anfrage Millionen von Infos aus. Für Nutzer der Dienste nicht unbedingt ein Vorteil. Sie laufen Gefahr, in der Datenflut unterzugehen. Das Semantische Web (SemWeb) soll Ordnung ins Chaos bringen, Computer intelligenter machen und die Internetnutzung effizienter. Utopische Träumerei oder realisierbarer Plan?




Tim Berners-Lee ist ein Mann mit großen Visionen. 1989 hob der britische Physiker das Internet aus der Taufe. Ursprünglich als Plattform zum Austausch von Forschungsergebnissen gedacht, verließ seine Erfindung schnell den wissenschaftlichen Elfenbeinturm und eroberte kometenhaft die Welt. Als World Wide Web. Heute gibt es schätzungsweise 128 Millionen Seiten im Netz. Ein ungeheurer Wissenspool – mit einem entscheidenden Schönheitsfehler: Von technischer Einheitlichkeit keine Spur. Die Informationen haben unterschiedliche Formate und existieren daher mehr oder weniger nebeneinander. Verschenktes Potenzial, wie Berners-Lee findet. Seinen Einfluss als Vorsitzender des World Wild Web Consortiums (W3C) – ein Gremium, das die technische Standardisierung des Internets vorantreibt – nutzt er vor allem, um seinen Lieblingsplan in die Tat umzusetzen: das Internet als SemWeb in einer riesengroßen Datenbank zu verschmelzen.

Masse statt Klasse

In der Semantik dreht sich alles um die Bedeutung sprachlicher Zeichen und Zeichenfolgen. Die semantische Erweiterung des World Wide Webs soll die differenzierte Suche nach Informationen ermöglichen und präzisere Ergebnisse liefern, indem Computer lernen, die Inhalte von Webseiten zu erfassen und logisch miteinander zu verknüpfen. Bisher ist das nicht möglich. Die meisten Suchmaschinen spüren Informationen nur auf. Gibt man etwa den politischen Begriff „Macht“ ein, kann es passieren, dass in der Trefferliste ein Dokument mit dem Titel „Macht Schokolade glücklich?“ auftaucht. Für die Anfrage ist diese Seite irrelevant. Die Zeit, die der User darauf verwendet hat, das Dokument auszuschließen, ist futsch.

Genau hier liegt die Crux: Herkömmliche Suchdienste sind nicht in der Lage, Informationen zu interpretieren. Sie arbeiten nach dem Prinzip der Volltext-Indexierung, zählen also lediglich, wie oft Wörter oder Wortkombinationen in einem Dokument vorkommen, ohne deren Bedeutung zu erfassen. Je häufiger der Begriff auf einer Seite zu finden ist, desto höher erscheint sie im Ranking der Trefferliste. Einen vorderen Platz sichern sich Websites, die den Suchbegriff in Überschrift oder URL haben oder Fotos zum Thema enthalten. Fazit: Bei der Indexierung ergibt sich die Relevanz aus Masse statt Klasse.

Nach Auffassung der SemWebber ist das nicht der einzige Schwachpunkt. Für ihren Geschmack sind Nutzer in der Komplexität ihrer Anfragen überaus eingeschränkt. Nicht alle Sachverhalte lassen sich in wenigen Stichworten beschreiben. Ein Beispiel: Gibt man als Suchbegriff „Semantisches Web“ ein, erhält man viele – mehr oder weniger nützliche – Informationen. Null Treffer hingegen bei komplexeren Anfragen wie „Welche Möglichkeiten bietet das SemWeb für die Zahnarztpraxis?“. Damit sind die Suchdienste völlig überfordert. Vom SemWeb erhoffen sich IT-Fachleute Besserung.

Ab auf die Metaebene

Nicht im Bereitstellen von Dokumenten, sondern im Verbinden von Daten liegt der Clou. Elementar dabei: der Unterschied zwischen Dokumenten und Daten. Computer können Dokumente finden und lesen, die darin enthaltenen Daten sind allerdings für sie ein Buch mit sieben Siegeln. Semantisch erweitert erhalten Webseiten jedoch eine zusätzliche Ebene, die für Maschinen auswertbar ist. Vereinheitlichen, lautet das Zauberwort. Beispiel Preisvergleich: Auf der Seite eines Anbieters ist im Quelltext von „Preis: 12 Euro“ die Rede, auf der von der Konkurrenz steht „Betrag: 12 Euro“. Ein Computer kann nicht verstehen, dass es sich um dieselbe Information handelt. Um das Problem zu lösen, muss eine Struktur her, in der ein Feld mit dem Namen „Preis“ immer dasselbe Format hat und immer dieselbe Art von Information enthält.

Das SemWeb soll eine Angleichung von Daten ermöglichen. Dafür braucht es eine eigene Systematik. Es gibt viele Möglichkeiten, das W3C empfiehlt die Auszeichnungssprache XML und den sogenannten RDFStandard. RDF steht für Resource Description Framework. Er gibt die Struktur vor, nach der die Sprachelemente in Beziehung zueinander gesetzt werden. Und zwar so standardisiert, dass Maschinen Informationen nach logischen Regeln kombinieren können.

Ein typisches RDF-Modul besteht aus drei Elementen, den „Triples“. Dazu gehören ein Subjekt, ein Prädikat – das die Eigenschaft des Subjekts beschreibt – und ein Objekt. In der Praxis funktionieren logische Ketten ungefähr so: Bulldoggen sind Hunde. Hunde haben vier Beine. Also sind Bulldoggen Vierbeiner.

Solche Schlussfolgerungen zeigen die Fähigkeiten des SemWeb nur im Kleinen. Im ausgereiften Stadium, so der Traum von Berners-Lee und seinen Mitstreitern, wird es den Namen künstliche Intelligenz verdienen. Der heimische Computer wird dann zum Beispiel die komplette Reiseplanung übernehmen können – Flug, Taxi und Hotel inklusive. Und wer Gefahr läuft, den Recall beim Zahnarzt zu verpassen, erhält obendrauf noch eine Erinnerung. Heute sind solche Szenarien aber noch Zukunftsmusik. Das SemWeb steckt erst in den Kinderschuhen – interessante Blüten treibt es trotzdem schon.

Erste Gehversuche

Ein soziales Netzwerk auf Basis maschinenverständlicher Informationen knüpft die Online-Community „Friend Of A Friend“ (FOAF). Das im Jahr 2000 gestartete Projekt speichert in XML und RTF, welche Interessen Menschen haben, wo sie wohnen oder wen sie kennen. Zum FOAF-Profil gehören außerdem E-Mail- und Homepage-Adresse, Spitzname und der berufliche Status. Dank des einheitlichen Vokabulars können andere Computer die Bedeutung der von den Mitgliedern gemachten Angaben erfassen. Gibt ein FOAFler beispielsweise den Satz „Stefan interessiert sich für Musik und Kino“ bekommt anderswo ein User auf die Frage „Wofür interessiert sich Stefan?“ eine detaillierte Antwort.

Relevanz für das www gewinnen solche Projekte aber nur, wenn sie sich für andere öffnen. FOAF gewährt anderen Communities Zugriff auf ihre Benutzerprofile und hinterlegt die Daten auf Seiten wie FOAF-Explorer, Foafer oder Foafscape. Den Anwendungsmöglichkeiten sind dadurch kaum Grenzen gesetzt. Ob Job-Börsen, Menschensuchmaschinen oder Ahnenforschung – alles geht. Der Service „BlueFOAF“ treibt die Entwicklung noch weiter auf die Spitze. Via Bluetooth zeigt er, welche Bekannten sich gerade in der näheren Umgebung aufhalten.

Suchmaschinen, die semantische Elemente integrieren, sind noch relativ selten. Ein Beispiel ist der Dienst „Hakia“, der von sich sagt, er könne Fragen besser als Google und Co. beantworten. Anfragen, versprechen die Betreiber, können ruhig ein wenig komplexer sein und in ganzen Sätzen eingegeben werden. Die erste Probe aufs Exempel läuft gut: „Wie hoch ist der Mount Everest?“ Antwort: 8 848 Meter. Gibt man allerdings „Warum verlieren Bäume ihre Blätter?“ ein, strauchelt Hakia. Solche Beispiele zeigen: Das SemWeb ist vielversprechend, ausgereift ist die Technik aber noch lange nicht.

Bis es soweit ist, können User auf andere interessante Tools, wie die deutsche Suchmaschine „Mister Wong“ zurückgreifen. Der Dienst arbeitet nach dem Prinzip des Social Bookmarking: User stellen ihre Lieblingsseiten ins Netz, um sie mit anderen zu teilen. Ziel ist es, eine unabhängige Suchmaschine zu schaffen. Damit wenden sich die Betreiber der Seite gegen kommerzielle Suchmaschinen, die ihre Rankingkriterien meist geheimhalten. Bei Mister Wong entscheidet die Community über die Reihenfolge der Treffer. Ganz oben stehen die beliebtesten Seiten. Anspruch auf Vollständigkeit erhebt das Portal nicht. Trotzdem: Nutzern von Mister Wong stehen mittlerweile fast zweieinhalb Millionen bewertete Seiten zur Verfügung. Tendenz steigend.

Susanne Theisen
Freie Journalistin in Köln
SusanneTheisen@gmx.net

zm-Surftipps

• Friend Of A Friend

www.foaf-project.org

• FOAF-Profil erstellen

www.ldodds.com/foaf/foaf-a-matic

• Suchmaschine Mister Wong

www.mister-wong.de

• Suchmaschine Hakia

www.hakia.com



Mehr zum Thema


Anzeige