Zur Navigation

Maßnahmen gegen Plagiate, Spambots etc.

1 Ranma (Gast)

[Die folgenden Beiträge wurden von diesem Thread abgetrennt]

Hm, vielleicht sollte man jedesmal jeden verfügbaren Text auf Zitate durchsuchen.

http://deutsche-wirtschafts-nachrichten.de/2014/01/06/shillbots-regierung-kann-internet-foren-mit-robotern-manipulieren/

http://de.verschwoerungstheorien.wikia.com/wiki/Shillbots

Aber das würde wahrscheinlich die Ressourcen jedes Servers überfordern. Was könnte man stattdessen gegen (fremde) Chatbots tun?
Ranma

12.04.2015 03:28 | geändert von Jörg: 14.05.2015 20:29

2 Ranma (Gast)

Was ist denn jetzt passiert? Plötzlich muß mein Beitrag von einem Moderator überprüft werden, während alle vorherigen Beiträge, sogar noch bis vor ungefähr einer Stunde, einfach so freigegeben wurden?
Ranma

12.04.2015 03:30

3 Ranma (Gast)

Also mit dem noch zu moderierendem Beitrag meine ich den drittletzten, falls man den hier mitzählt und der hier sofort freigegeben werden sollte.
Ranma

12.04.2015 03:31

4 Jörg

Die Forensoftware hat den Beitrag aufgrund der Links als spamverdächtig eingestuft, deswegen kam er erst in die Warteschlange.

Hm, vielleicht sollte man jedesmal jeden verfügbaren Text auf Zitate durchsuchen. [...] Aber das würde wahrscheinlich die Ressourcen jedes Servers überfordern.

Wenn die Texte in einer Datenbank gespeichert sind, könntest du beim Erstellen eines Posts eine Volltextsuche machen. Muss ja nicht nach dem ganzen Text gesucht werden, ein Teilstring reicht ja vielleicht schon? Bei der Ausgabe der Posts muss dann nichts mehr verglichen werden und das Erstellen eines Posts darf auch immer etwas länger dauern, als der Aufruf zum Lesen.

12.04.2015 18:21

5 Ranma (Gast)

Texte, die in einer Datenbank gespeichert sind, dürften beispielsweise zu einem Forum gehören. Dann könnten es tausende Beiträge sein. Wenn ich die Datenbank anweisen würde, doch eben mal sämtliche Beiträge nach einem Teilstring oder soger mehreren davon zu durchsuchen, das würde doch ewig und drei Tage dauern?
Ranma

13.04.2015 01:46

6 Jörg

Dieses Forum hat über 26.000 Posts. Mit der Forensuche selbst kann man nur nach Strings mit einer maximalen Länge von 40 Bytes suchen, aber über phpMyAdmin kann ich auch längere Strings suchen. Wenn ich nach dem Text deines obigen Posts suchen lasse, dauert das 0,3 Sekunden.

13.04.2015 10:33

7 Ranma (Gast)

Zwar sind 0,3 Sekunden, die direkt vor einem Schreibzugriff aufgewendet werden, nicht lang, aber ich muß noch zu bedenken geben, daß man das nicht mit phpMyAdmin tun würde, sondern das von einem Skript erledigen lassen würde, das normalerweise noch andere Aufgaben erfüllt.

Insbesondere wenn man nicht ganzen Text mit ganzem Text, sondern Teile daraus (ich halte da jeweils von Zeilenumbruch bis Zeilenumbruch für sinnvoll) und das, vielleicht je nach Länge der beteiligten Texte, in beiden Richtungen, dann müßte die Rechenzeit doch quadratisch ansteigen?
Ranma

17.04.2015 12:19

8 Jörg

Nicht freigeschaltet werden u.a. Seiten, die Links enthalten, die nicht zum Thema beitragen, aber anscheinend gesetzt wurden, um das Suchmaschinen-Ranking der verlinkten Seiten zu stärken.

17.04.2015 15:41

9 Ranma (Gast)

Das entspricht dann ungefähr einer Weißen Liste? Das geht wohl nur bei einem eng umgrenzten Thema. Wo es nicht so streng zugeht, verwendet man dann wohl sinnvollerweise eine Schwarze Liste. Das dürfte auf einen genau gleichen Aufwand hinauslaufen. Sollte ich ein und dieselbe Liste für alle Moderationszwecke verwenden können, dann wäre das natürlich praktisch.
Ranma

18.04.2015 05:40

10 Jörg

Ich denke nicht, dass sich so etwas auf einfache Weise automatisieren lässt, weil hierbei Zusammenhänge semantischer Natur berücksichtigt werden müssen.

18.04.2015 22:27 | geändert: 18.04.2015 22:28