Maßnahmen gegen Plagiate, Spambots etc. [4]

31 Jörg Kruse

Aber leider hat Jörg den Teil über Bots abgetrennt und zu einem eigenem Thema gemacht.

Ich habe die Themen hier jetzt wieder zusammengeführt.

32 Ranma (Gast)

Es gibt eine Neuigkeit zu dem Thema:

http://www.heise.de/tr/artikel/Algorithmus-soll-zuverlaessig-Online-Stoerenfriede-erkennen-2617971.html

In diversen Foren wird das allerdings als garnicht nützlich angesehen. Das wundert mich auch nicht, schließlich wird bei dem Ansatz moderieren mit administrieren vermischt, wenn nicht sogar verwechselt. Man kann der Meldung also nur entnehmen, daß sich auf dem Gebiet nicht viel tut. Ähnlich auch mit der kürzlichen Aussage Zuckerbergs, daß man etwas gegen Haßgetrolle auf Facebook unternehmen sollte.

Ich hatte tatsächlich vermutet, daß Facebook oder Google oder Microsoft oder mindestens ein anderes großes Unternehmen längst eine Lösung hätte. Schließlich gibt es einfache Ansätze schon sehr lange! Sogar einzelne Hacker hätten da vielleicht etwas weiterentwickeln können. Schließlich fiel auch mir folgendes Phänomen ein.

http://letterfrequency.org/

Ursprünglich hatte ich danach gesucht, um Sprachen unterscheiden zu können. Aber dafür ist die entsprechende Umgebungsvariable der beste Hinweis. Der nächstbeste ist dann der verwendete Zeichensatz. Das ist sehr treffsicher, obwohl es eine winzige Abweichung sogar bei Hangul gibt, das ausschließlich für Koreanisch verwendet wird und bei dem es auch keine mit anderen Schriftsätzen gemeinsam genutzten Zeichen gibt. Dafür kann man mit der Buchstabenhäufigkeit, wovon man sich auf der verlinkten Netzseite überzeugen kann, sogar Unterscheidungen innerhalb einer Sprache vornehmen, sogenannte Soziolekte. Natürlich findet man auf der verlinkten Netzseite nur Buchstabenhäufigkeiten englischer Soziolekte. Noch sucht man Entsprechendes für andere Sprachen vergeblich. Untersucht man nicht nur einzelne Buchstaben, sondern N-Gramme, dann dürfte man leicht eine sehr hohe Treffsicherheit erreichen.

Späm läßt sich als ein eigener Soziolekt betrachten, Haßausbrüche auch. Beide sind nicht gerade selten. Deswegen hätten sich N-Gramm-Analysen schon lange ziemlich leicht erstellen lassen. Ich stelle mir das so vor, daß man eigentlich nur eine Datenbank-Tabelle zusätzlich braucht, in die man Beiträge verschiebt, die gelöscht werden müßten. Am besten getrennt nach Kategorien wie kommerzjeller Späm, Haß, dummes Geschwätz und so weiter. Dann braucht man nur noch mit einer PHP-Funktion die N-Gramme jedes neuen Beitrages mit denen dieser Datenbank-Tabelle zu vergleichen.

Das erscheint mir leicht genug, daß ich das auch selbst ausprobieren kann, sobald ich mit den wichtigeren Teilen meines Skriptes fertig bin.
Ranma

Beitrag schreiben (als Gast)

Verwandte Themen