Samstag, 22. Januar 2005
Semantischer Spam
Google "revolutioniert" das Internet mit dem rel=nofollow Attribut (es ist übrigens nur ein Attribut, und kein HTML-Element, wie man vielerorts falsch erfährt), liest man derzeit in allen Blogs (siehe Alp, Martin Röll, NoNofollow etc.). Weitere Links erspare ich mir, da findet man sicher genug. Während dieses Attribut eigentlich nur Symptome kuriert, weist es grundsätzlich darauf hin, wie die Zukunft des WWW aussehen wird. Metadaten für alles und jeden, Klassifizierung und automatisierte Verschlagwortung. Kurz, das semantische Web.
Ein Blick in die Zukunft des Internets:
Ich möchte mir eine neue Digitalkamera mit 20 Megapixeln kaufen. Weil Ciao und andere damals bekannte Meinungsvergleichsportale aufgrund von gefälschten Meinungsberichten von Produktherstellern nicht mehr meinungsneutral sind, fällt die offensichtlichste Möglichkeit heraus mich über das beste Produkt zu informieren.
Google ist unbrauchbar geworden, weil bei jedem Suchtreffer alles sowieso auf Phentermine hinausläuft, auch gesponsorte Links sind inzwischen nur Weiterleitungen auf Online-Apotheken.
Aber die Neuzeit hat uns ja auch das semantische Web gebracht.
Ein Blick in die Zukunft des Internets:
Ich möchte mir eine neue Digitalkamera mit 20 Megapixeln kaufen. Weil Ciao und andere damals bekannte Meinungsvergleichsportale aufgrund von gefälschten Meinungsberichten von Produktherstellern nicht mehr meinungsneutral sind, fällt die offensichtlichste Möglichkeit heraus mich über das beste Produkt zu informieren.
Google ist unbrauchbar geworden, weil bei jedem Suchtreffer alles sowieso auf Phentermine hinausläuft, auch gesponsorte Links sind inzwischen nur Weiterleitungen auf Online-Apotheken.
Aber die Neuzeit hat uns ja auch das semantische Web gebracht.
Also nichts wie hin zu Soogle, dem semantischen Google. Da tippe ich nur den Suchbegriffe "Produktvergleich" ein, wähle als Suchkategorie "Digitalkameras" und als einschränkende Optionen "20 Megapixel" ein. Weil ich auf private Meinungen vertraue, stelle ich die Filterung auf "private Homepages" und "Blogs" ein. Herstellerseiten filtere ich also aus.
Sofort habe ich passende Webseiten, die sich mit Produktvergleichen solcher Kameras auseinandersetzen. Natürlich interessieren mich nur qualitativ hocherwertige Produktvergleiche, also weise ich Soogle an, die Suchergebnisse nach Qualität und Wortanzahl zu sortieren.
Schon habe ich den perfekten Artikel gefunden, und in Windeseile meine Lieblingskamera auserkoren.
So toll ist das semantische Web: Endlich muss ich mir nicht mehr Suchbegriffe aus den Fingern saugen, sondern kann auf die Metadaten von Seiten zugreifen. Autoren aller Seiten bringen inzwischen mehr Zeit damit zu, ihren Artikel zu klassifizieren, als ihn zu schreiben. Ärgerlicher Nebeneffekt, aber demnächst gibt es ja auch Software, die meine Artikel semantisch analysiert und Zuordnungen automagisch vorschlägt.
Schöne neue Welt!
Schauen wir mal hinter die Kulissen von Soogle: Es analysiert Metadaten anhand von definierten semantischen Strukturen und speichert sie in einem normalisierten Verzeichnis ab. Um jetzt Suchergebnisse nach Qualität zu sortieren, nutzt es folgende Technik: Jedes mal, wenn jemand auf den Zielartikel referenziert, kann der Linkende mit eigenen Metadaten über den Link angeben, warum er referenziert.
Ein Blogautor regt sich zum Beispiel über falsche Werbeversprechen von Jamba2007 auf. Wenn er auf die Firmenseite linkt, will er diesem Ärger Ausdruck verleihen und gibt dem Link einiges an böswilligen Metadaten mit. Wenn jemand per Soogle nach kritischen Äußerungen über Jamba2007 sucht, wird er mit Sicherheit auf diesen Blogeintrag stoßen. Den unter den Hauben von Soogle arbeiten komplexe Kreuzverbindungen fast aller Artikel, die mit jeden neuen Metadaten von weiteren Seiten ausführlicher werden.
Die Theorie ist, die Bewertung einer Seite nicht mehr von Metatags auf der Seite selbst abhängig zu machen, sondern von Metadaten anderer über diese Seite. Schreibt jemand journalistischen Schwachsinn, so kann das entlarvt werden indem unabhängige Personen in ihren Metadaten zum Link erwähnen, dass der Text halt eben journalistischer Schwachsinn ist. Übersteigen diese negativen Metadaten eine gewisse Schwelle, wird der Artikel bei Soogle seine Gewichtung immer weiter verringern.
Hört sich immer noch toll an, oder?
Das W3C hat sich so einige Gedanken über das Semantische Web in seiner Anfangszeit gemacht, und mit einer komplexen Metadaten-Beschreibungssprache ermöglicht, alles erdenkliche zu klassifizieren. Suchmaschinen wie Soogle werden mit diesen Daten gefüttert und können eigenständige Analysen der Metadaten führen und Kreuzverknotungen anhand spezieller Algorithmen erstellen.
Wie diese Verknotungen geschehen ist nun das Problem: Welchen Quellen kann man trauen, und welchen nicht?
Was hindert die Firma Jamba2007 nun daran, eigene "unabhängige" Links zu erstellen, die die Firma äußerst positiv erwähnen, und den Artikel des 'bösen Bloggers' als journalistischen Schwachsinn markieren? Jamba2007 verfügt mit seinen Subunternehmen Apple, IBM und Microsoft über beinahe unendlich viele Webseiten, auf denen sie ihre semantische Metadaten-Eloquenz ausführen können.
Woher soll Soogle nun wissen, welchen Meta-Attributen es vertrauen soll? Und hier setzt der semantische Spam an: Es gibt keine Möglichkeit, die einen Daten als "vertrauenswürdig" zu klassifizieren, und die anderen nicht. So was fußt letztlich in der Meinungsfreiheit, und darf theoretisch nicht auf globaler Ebene klassifiziert werden. Und weil Spammer schon immer innovativ waren, und das Setzen von Meta-Attributen auf gigantischen Linkfarmen nichts kostet, können sie auch hier wieder fluten: Der Spammer klassifiziert seine Phentermin-Apotheke einfach als Produktvergleich für Digitalkameras. Wer kann daran etwas ändern? Selbst automatisierte Textanalyse-Tools können durch das Setzen ungültiger Stichworte ausgetrickst werden.
Der einzige Ausweg aus einer solchen konstruierten Situation ist die einmalige Zuordnung von URLs (diese sind das identifizierende Merkmal für semantische Metadaten) zu Personen bzw. Institutionen. Nur wenn man jede einzelne Seite einer Linkfarm immer demselben Spammer zuordnen kann, ist es möglich diese zu filtern. So können Organisationen
zum Beispiel eine Liste von Spammern erstellen, die man als Kategorie bei Soogle in der Suche ausschließen kann.
So eine Identifikation schafft natürlich den absoluten gläsernen Bürger, und müsste auf weltweitem Niveau durchgeführt werden. Durch die Schaffung von Pseudonymen und abgegrenzter "Unter-Identitäten" (die aber durch Strafverfolgungsbehörden zentral zurückführbar sind) kann man dies zwar etwas eindämmen, aber ein mulmiges Gefühl entsteht doch.
Zusätzlich würde nach der Durchsetzung einer solchen Zentralidentität immer noch das Problem bestehen, dass ein Spammer einen "vertrauenswürdigen Benutzer" dafür bezahlt, unwahre Metadaten zu verbreiten. Und sicherlich wird man solche unwahren Metadaten nicht als Strafdelikt auffassen können, da das ja wieder an der Meinungsfreiheit nagt. Möglichkeiten zum semantischen Spam wird es also dank des menschlichen Faktors wohl immer geben.
Und das Fazit der Geschichte? Mit neuen Techniken kommt neuer Spam. Es wird nie eine Technik geben, die Spam ein Ende setzt. So etwas kann nur durch einen sozialen Wandel eingedämmt werden - mehr Aufklärung, mehr Solidarität, mehr Eigenverantwortung und ein höheres Bewusstsein für die Entscheidung zwischen kurz- oder mittelfristigem Gewinn oder nachhaltiger Wertschöpfung.
Das gilt übrigens nicht nur für das Internet, sondern auch für die Natur.
Sofort habe ich passende Webseiten, die sich mit Produktvergleichen solcher Kameras auseinandersetzen. Natürlich interessieren mich nur qualitativ hocherwertige Produktvergleiche, also weise ich Soogle an, die Suchergebnisse nach Qualität und Wortanzahl zu sortieren.
Schon habe ich den perfekten Artikel gefunden, und in Windeseile meine Lieblingskamera auserkoren.
So toll ist das semantische Web: Endlich muss ich mir nicht mehr Suchbegriffe aus den Fingern saugen, sondern kann auf die Metadaten von Seiten zugreifen. Autoren aller Seiten bringen inzwischen mehr Zeit damit zu, ihren Artikel zu klassifizieren, als ihn zu schreiben. Ärgerlicher Nebeneffekt, aber demnächst gibt es ja auch Software, die meine Artikel semantisch analysiert und Zuordnungen automagisch vorschlägt.
Schöne neue Welt!
Schauen wir mal hinter die Kulissen von Soogle: Es analysiert Metadaten anhand von definierten semantischen Strukturen und speichert sie in einem normalisierten Verzeichnis ab. Um jetzt Suchergebnisse nach Qualität zu sortieren, nutzt es folgende Technik: Jedes mal, wenn jemand auf den Zielartikel referenziert, kann der Linkende mit eigenen Metadaten über den Link angeben, warum er referenziert.
Ein Blogautor regt sich zum Beispiel über falsche Werbeversprechen von Jamba2007 auf. Wenn er auf die Firmenseite linkt, will er diesem Ärger Ausdruck verleihen und gibt dem Link einiges an böswilligen Metadaten mit. Wenn jemand per Soogle nach kritischen Äußerungen über Jamba2007 sucht, wird er mit Sicherheit auf diesen Blogeintrag stoßen. Den unter den Hauben von Soogle arbeiten komplexe Kreuzverbindungen fast aller Artikel, die mit jeden neuen Metadaten von weiteren Seiten ausführlicher werden.
Die Theorie ist, die Bewertung einer Seite nicht mehr von Metatags auf der Seite selbst abhängig zu machen, sondern von Metadaten anderer über diese Seite. Schreibt jemand journalistischen Schwachsinn, so kann das entlarvt werden indem unabhängige Personen in ihren Metadaten zum Link erwähnen, dass der Text halt eben journalistischer Schwachsinn ist. Übersteigen diese negativen Metadaten eine gewisse Schwelle, wird der Artikel bei Soogle seine Gewichtung immer weiter verringern.
Hört sich immer noch toll an, oder?
Das W3C hat sich so einige Gedanken über das Semantische Web in seiner Anfangszeit gemacht, und mit einer komplexen Metadaten-Beschreibungssprache ermöglicht, alles erdenkliche zu klassifizieren. Suchmaschinen wie Soogle werden mit diesen Daten gefüttert und können eigenständige Analysen der Metadaten führen und Kreuzverknotungen anhand spezieller Algorithmen erstellen.
Wie diese Verknotungen geschehen ist nun das Problem: Welchen Quellen kann man trauen, und welchen nicht?
Was hindert die Firma Jamba2007 nun daran, eigene "unabhängige" Links zu erstellen, die die Firma äußerst positiv erwähnen, und den Artikel des 'bösen Bloggers' als journalistischen Schwachsinn markieren? Jamba2007 verfügt mit seinen Subunternehmen Apple, IBM und Microsoft über beinahe unendlich viele Webseiten, auf denen sie ihre semantische Metadaten-Eloquenz ausführen können.
Woher soll Soogle nun wissen, welchen Meta-Attributen es vertrauen soll? Und hier setzt der semantische Spam an: Es gibt keine Möglichkeit, die einen Daten als "vertrauenswürdig" zu klassifizieren, und die anderen nicht. So was fußt letztlich in der Meinungsfreiheit, und darf theoretisch nicht auf globaler Ebene klassifiziert werden. Und weil Spammer schon immer innovativ waren, und das Setzen von Meta-Attributen auf gigantischen Linkfarmen nichts kostet, können sie auch hier wieder fluten: Der Spammer klassifiziert seine Phentermin-Apotheke einfach als Produktvergleich für Digitalkameras. Wer kann daran etwas ändern? Selbst automatisierte Textanalyse-Tools können durch das Setzen ungültiger Stichworte ausgetrickst werden.
Der einzige Ausweg aus einer solchen konstruierten Situation ist die einmalige Zuordnung von URLs (diese sind das identifizierende Merkmal für semantische Metadaten) zu Personen bzw. Institutionen. Nur wenn man jede einzelne Seite einer Linkfarm immer demselben Spammer zuordnen kann, ist es möglich diese zu filtern. So können Organisationen
zum Beispiel eine Liste von Spammern erstellen, die man als Kategorie bei Soogle in der Suche ausschließen kann.
So eine Identifikation schafft natürlich den absoluten gläsernen Bürger, und müsste auf weltweitem Niveau durchgeführt werden. Durch die Schaffung von Pseudonymen und abgegrenzter "Unter-Identitäten" (die aber durch Strafverfolgungsbehörden zentral zurückführbar sind) kann man dies zwar etwas eindämmen, aber ein mulmiges Gefühl entsteht doch.
Zusätzlich würde nach der Durchsetzung einer solchen Zentralidentität immer noch das Problem bestehen, dass ein Spammer einen "vertrauenswürdigen Benutzer" dafür bezahlt, unwahre Metadaten zu verbreiten. Und sicherlich wird man solche unwahren Metadaten nicht als Strafdelikt auffassen können, da das ja wieder an der Meinungsfreiheit nagt. Möglichkeiten zum semantischen Spam wird es also dank des menschlichen Faktors wohl immer geben.
Und das Fazit der Geschichte? Mit neuen Techniken kommt neuer Spam. Es wird nie eine Technik geben, die Spam ein Ende setzt. So etwas kann nur durch einen sozialen Wandel eingedämmt werden - mehr Aufklärung, mehr Solidarität, mehr Eigenverantwortung und ein höheres Bewusstsein für die Entscheidung zwischen kurz- oder mittelfristigem Gewinn oder nachhaltiger Wertschöpfung.
Das gilt übrigens nicht nur für das Internet, sondern auch für die Natur.
Kommentare
Ansicht der Kommentare:
(Linear | Verschachtelt)
Phantastisch erläutert! Wir überspringen quasi das erste Level, ohne das Spamproblem in den Griff gekriegt zu haben und setzen uns gleich dem zweiten Level mit härteren Rahmenbedingungen aus.
Wer sich heute FOAF anguckt, kann schon sehen, wie das vielleicht in Zukunft mal aussehen wird. Ich zeige an, wen ich kenne und wem ich vertraue. Wenn Du, Garvin sagst, dass Jamba2007 ein Spammer ist, dann werde ich dem mehr glauben, als wenn es jemand anderes sagt. Wenn Jamba2007 etwas als Digitalkamera klassifiziert, das jemand anderes aus meinem Vertrauensnetz anders eingeordnet hat, wird das niedrigere Gewichtung kriegen. Über persönliche Beziehungen werden wir auf sematisches Markup unserer Bekannten zugreifen und damit durch das Netz navigieren.
Wenn es mehr gute Leute als Spammer gibt, wird das funktionieren. Wenn nicht, dann nicht. Ich freue mich auf die Zukunft.
Wenn es mehr gute Leute als Spammer gibt, wird das funktionieren. Wenn nicht, dann nicht. Ich freue mich auf die Zukunft.
Das ist in der Theorie nett. Funktioniert aber nur, weil Du eine schillernde Persönlichkeit im Netz bist.
Was macht Otto-Normalverbraucher denn, der mal so für Spaß ins Internet geht und kein Blog führt, oder soziale Kontakte zu vielen vertrauenswürdigen Quellen hat? Kann jemand das Internet erst gebrauchen, wenn er sich ein großes Web of Trust zugelegt hat?
Es wird hoffentlich immer mehr gute Leute als Spammer geben. Das Problem ist halt, dass schon wenige Störenfriede ein System zermaden können...
Was macht Otto-Normalverbraucher denn, der mal so für Spaß ins Internet geht und kein Blog führt, oder soziale Kontakte zu vielen vertrauenswürdigen Quellen hat? Kann jemand das Internet erst gebrauchen, wenn er sich ein großes Web of Trust zugelegt hat?
Es wird hoffentlich immer mehr gute Leute als Spammer geben. Das Problem ist halt, dass schon wenige Störenfriede ein System zermaden können...
Wieviele Menschen kennst Du, die *nie* surfen? Alle anderen sind Dein Web of Trust. Das wird für _jeden_ funktionieren, da bin ich mir sicher. Für die einen früher und die anderen später, für die einen besser und die anderen schlechter, aber prinzipiell für jeden.
Ich keine ein paar, wenn auch wenige, Menschen, die nie oder fast nie surfen. Aber was bestimmte Themen angeht, vertraue ich diesen auch sehr stark.
Aber ich verstehe nicht, was mir Menschen bringen, die nur surfen. Die Leute müssen doch im (semantischen) Web publizieren, dass ich diese Informationen automatisiert auswerten kann, und ich kenne schon einige Leute mehr, die zwar surfen, aber nicht publizieren.
Aber ich verstehe nicht, was mir Menschen bringen, die nur surfen. Die Leute müssen doch im (semantischen) Web publizieren, dass ich diese Informationen automatisiert auswerten kann, und ich kenne schon einige Leute mehr, die zwar surfen, aber nicht publizieren.
Es wird automatisch publiziert werden. Was spricht dagegen, dass Deine Browserhistory automatisch Deinem Vertrauensnetz zur Verfügung gestellt wird? Heute müssen wir noch manuell bloggen, Kram in del.icio.us einstellen oder Linkdumps produzieren. Morgen wird das meiste davon so weit automatisiert sein, dass jeder der surft auch Daten produziert (lies: produzieren kann - das ist keine Privacy-Frage), die seinem semantischen Netz und dem seines Vertrauensnetzes helfen.
Ein sehr schöner Artikel!
Vergleicht man das moderne Medium Internet mit klassischen Medien (Fernsehen|Radio|Printmedien), so ist festzustellen, daß es auch heute ein "Web of Trust" gibt. Es ist allerdings nicht ganz so sichtbar und auch nicht in FOAF modelliert.
Blättert man heute in Spiegel, Stern oder Focus, liest man FAZ, TAZ oder Zeit, sieht man Tagesschau, Monitor oder RTL-Aktuell, so weiß man -hoffentlich- die dargebotenen Informationen kategorisch einzuschätzen (hier: die politische Färbung zu erkennen): die hierzu notwendigen Metainformationen erhält man aus seinem Umfeld oder gar aus der Schule (ein guter Sozial&Gemeinschaftskunde-Unterricht vorausgesetzt).
Den Spam (Werbung) gibt es auch in diesen Medien - implizit oder explizit.
Dass es im Allgemeinen nicht ganz die Massen sind, wie bei email, liegt schlicht und ergreifend am Preis. Radio- und TV-Werbung sind recht teuer, auch Anzeigen und Beilagen in bzw. bei Zeitschriften kosten Geld. Nicht von ungefähr gibt es an der Antispamfront Flickschustereien, die genau an diesem Hebel ansetzen wollen ("Hashcash" für MTAs).
Der finanzielle Erfolg von 9live gibt Deinem letzten Absatz recht: "sozialer Wandel", "höheres Bewußtsein" .. so ganz wird man den Darwinismus aber auch im Internet nicht abschalten können. Hmm.. diesbezüglich hab ich gestern einen guten Forenkommentar gelesen, muß ich mal raussuchen und bloggen, wird dann ein Trackback werden.
Vergleicht man das moderne Medium Internet mit klassischen Medien (Fernsehen|Radio|Printmedien), so ist festzustellen, daß es auch heute ein "Web of Trust" gibt. Es ist allerdings nicht ganz so sichtbar und auch nicht in FOAF modelliert.
Blättert man heute in Spiegel, Stern oder Focus, liest man FAZ, TAZ oder Zeit, sieht man Tagesschau, Monitor oder RTL-Aktuell, so weiß man -hoffentlich- die dargebotenen Informationen kategorisch einzuschätzen (hier: die politische Färbung zu erkennen): die hierzu notwendigen Metainformationen erhält man aus seinem Umfeld oder gar aus der Schule (ein guter Sozial&Gemeinschaftskunde-Unterricht vorausgesetzt).
Den Spam (Werbung) gibt es auch in diesen Medien - implizit oder explizit.
Dass es im Allgemeinen nicht ganz die Massen sind, wie bei email, liegt schlicht und ergreifend am Preis. Radio- und TV-Werbung sind recht teuer, auch Anzeigen und Beilagen in bzw. bei Zeitschriften kosten Geld. Nicht von ungefähr gibt es an der Antispamfront Flickschustereien, die genau an diesem Hebel ansetzen wollen ("Hashcash" für MTAs).
Der finanzielle Erfolg von 9live gibt Deinem letzten Absatz recht: "sozialer Wandel", "höheres Bewußtsein" .. so ganz wird man den Darwinismus aber auch im Internet nicht abschalten können. Hmm.. diesbezüglich hab ich gestern einen guten Forenkommentar gelesen, muß ich mal raussuchen und bloggen, wird dann ein Trackback werden.
Das "no-follow" ist insgesamt gesehen natürlich kontraproduktiv- nicht nur bei Blogs! Es stellt die eigene Bewertung von Google hinsichtlich Verlinkung und somit dem Wert (Platzierung) einer Seite ja in Frage (Pagerank und Linkpopularität)- Herausgefiltert werden ja eben nicht nur Spammer, sondern alle neuen Seiten gesamt - wie sollen diese unter einer weit verbreiteten "no-follow" suchmaschinenrelevante Verlinkung bewerkstelligen - selbst bei relevanten Inhalten!
Wow, ein nach wie vor heißes Thema. Mit knapp fünf Jahren Abstand betrachtet muss man leider sagen, es hat sich nicht viel geändert. Erst kürzlich wurde ich über die Analyse mehrerer Webseiten auf Spam erneut aufmerksam. Ich musste feststellen, dass alle Seiten ausschließlich mit SPAM auf Top-Positionen für gewinnbringende Keywords optimiert wurde. Was die No-Follow "Problematik" betrifft, so hat man bereits den nützlichen Nebeneffekt steigender Besucherzahlen durch Massenverlinkungen in Social-Bookmark-Diensten erkannt. Ein Umdenken scheint da eher unwahrscheinlich.
Peruns Blog - Webwork und Internet am : Meinungen zu nofollow
Vorschau anzeigen