[Die folgenden Beiträge wurden von
diesem Thread abgetrennt]
Hm, vielleicht sollte man jedesmal jeden verfügbaren Text auf Zitate durchsuchen.
http://deutsche-wirtschafts-nachrichten.de/2014/01/06/shillbots-regierung-kann-internet-foren-mit-robotern-manipulieren/
http://de.verschwoerungstheorien.wikia.com/wiki/Shillbots
Aber das würde wahrscheinlich die Ressourcen jedes Servers überfordern. Was könnte man stattdessen gegen (fremde) Chatbots tun?
Ranma
Was ist denn jetzt passiert? Plötzlich muß mein Beitrag von einem Moderator überprüft werden, während alle vorherigen Beiträge, sogar noch bis vor ungefähr einer Stunde, einfach so freigegeben wurden?
Ranma
Also mit dem noch zu moderierendem Beitrag meine ich den drittletzten, falls man den hier mitzählt und der hier sofort freigegeben werden sollte.
Ranma
Die Forensoftware hat den Beitrag aufgrund der Links als spamverdächtig eingestuft, deswegen kam er erst in die Warteschlange.
Hm, vielleicht sollte man jedesmal jeden verfügbaren Text auf Zitate durchsuchen. [...] Aber das würde wahrscheinlich die Ressourcen jedes Servers überfordern.
Wenn die Texte in einer Datenbank gespeichert sind, könntest du beim Erstellen eines Posts eine Volltextsuche machen. Muss ja nicht nach dem ganzen Text gesucht werden, ein Teilstring reicht ja vielleicht schon? Bei der Ausgabe der Posts muss dann nichts mehr verglichen werden und das Erstellen eines Posts darf auch immer etwas länger dauern, als der Aufruf zum Lesen.
Texte, die in einer Datenbank gespeichert sind, dürften beispielsweise zu einem Forum gehören. Dann könnten es tausende Beiträge sein. Wenn ich die Datenbank anweisen würde, doch eben mal sämtliche Beiträge nach einem Teilstring oder soger mehreren davon zu durchsuchen, das würde doch ewig und drei Tage dauern?
Ranma
Dieses Forum hat über 26.000 Posts. Mit der Forensuche selbst kann man nur nach Strings mit einer maximalen Länge von 40 Bytes suchen, aber über phpMyAdmin kann ich auch längere Strings suchen. Wenn ich nach dem Text deines obigen Posts suchen lasse, dauert das 0,3 Sekunden.
Zwar sind 0,3 Sekunden, die direkt vor einem Schreibzugriff aufgewendet werden, nicht lang, aber ich muß noch zu bedenken geben, daß man das nicht mit phpMyAdmin tun würde, sondern das von einem Skript erledigen lassen würde, das normalerweise noch andere Aufgaben erfüllt.
Insbesondere wenn man nicht ganzen Text mit ganzem Text, sondern Teile daraus (ich halte da jeweils von Zeilenumbruch bis Zeilenumbruch für sinnvoll) und das, vielleicht je nach Länge der beteiligten Texte, in beiden Richtungen, dann müßte die Rechenzeit doch quadratisch ansteigen?
Ranma
Nicht freigeschaltet werden u.a. Seiten, die Links enthalten, die nicht zum Thema beitragen, aber anscheinend gesetzt wurden, um das Suchmaschinen-Ranking der verlinkten Seiten zu stärken.
Das entspricht dann ungefähr einer Weißen Liste? Das geht wohl nur bei einem eng umgrenzten Thema. Wo es nicht so streng zugeht, verwendet man dann wohl sinnvollerweise eine Schwarze Liste. Das dürfte auf einen genau gleichen Aufwand hinauslaufen. Sollte ich ein und dieselbe Liste für alle Moderationszwecke verwenden können, dann wäre das natürlich praktisch.
Ranma
Ich denke nicht, dass sich so etwas auf einfache Weise automatisieren lässt, weil hierbei Zusammenhänge semantischer Natur berücksichtigt werden müssen.