1
Als ich Wörterlisten für meine Wörterbuch-Datenbank suchte, bemerkte ich, daß im Wiktionary für viele Wörter die Übersetzungen in mehrere Sprachen angegeben werden. Es gibt sogar irgendwo bei den Wikibooks den Vorschlag solche schon vorhandenen Ressourcen für den Aufbau eines Wörterbuches zu benutzen. Schöne Idee, aber es sind natürlich viel zu viele Einträge, um alle per Hand sichten und eintragen zu wollen. Ein Skript könnte das tun. Das zählt man dann wohl zu den Webcrawlern.
Zum Teil ist mir klar wie das ginge. Jede Netzseite läßt sich wie eine Datei einlesen, zum Beispiel mit file() in PHP. Dann muß man darin nur noch die richtigen Stellen finden und sie an eine Datenbank schicken. Dann müssen noch die Verlinkungen ausgewertet werden, damit das Skript weiß, wo die Suche fortgesetzt werden kann.
Ein anderer Teil ist mir noch nicht klar. Ein Webcrawler hat keinen Benutzer und wendet sich nicht an einen Brauser als Client. Wie wird ein Webcrawler gestartet? Ist es sinnvoll, einen Crawler mit PHP zu bauen?
Ich mag PHP wegen der drei Vorteile:
1. Kein Gefrickel mit cgi.
2. Funktioniert bei so ziemlich jedem Hoster, was bei anderen für Internetseiten verwendeten Programmiersprachen nicht der Fall ist.
3. Für die Verbindung mit MySQL gibt es Standardfunktionen und MySQL gibt es wiederum bei den meisten Hostern.
Etwas mit PHP bauen zu können, ist wegen dieser Vorteile fast schon ein Grund, das dann zu tun. Aber die vielen Hoster, die PHP und MySQL bieten, verbieten in ihren Bedingungen oft Proxies und Crawler. Ein Crawler, der über das Wiktionary herziehen soll, muß natürlich irgendwo gehostet werden, von wo aus das möglich ist.
Wo kann ein Crawler gehostet werden?
Das Wiktionary darf ja jeder frei benutzen, aber bedarf es für einen Bot eine Erlaubnis? Letzteres wird wahrscheinlich über Robots.txt geregelt, aber die kann meinen Crawler noch nicht kennen, weil der erst eine Idee ist und noch nichtmal einen Namen hat...
Ranma
Zum Teil ist mir klar wie das ginge. Jede Netzseite läßt sich wie eine Datei einlesen, zum Beispiel mit file() in PHP. Dann muß man darin nur noch die richtigen Stellen finden und sie an eine Datenbank schicken. Dann müssen noch die Verlinkungen ausgewertet werden, damit das Skript weiß, wo die Suche fortgesetzt werden kann.
Ein anderer Teil ist mir noch nicht klar. Ein Webcrawler hat keinen Benutzer und wendet sich nicht an einen Brauser als Client. Wie wird ein Webcrawler gestartet? Ist es sinnvoll, einen Crawler mit PHP zu bauen?
Ich mag PHP wegen der drei Vorteile:
1. Kein Gefrickel mit cgi.
2. Funktioniert bei so ziemlich jedem Hoster, was bei anderen für Internetseiten verwendeten Programmiersprachen nicht der Fall ist.
3. Für die Verbindung mit MySQL gibt es Standardfunktionen und MySQL gibt es wiederum bei den meisten Hostern.
Etwas mit PHP bauen zu können, ist wegen dieser Vorteile fast schon ein Grund, das dann zu tun. Aber die vielen Hoster, die PHP und MySQL bieten, verbieten in ihren Bedingungen oft Proxies und Crawler. Ein Crawler, der über das Wiktionary herziehen soll, muß natürlich irgendwo gehostet werden, von wo aus das möglich ist.
Wo kann ein Crawler gehostet werden?
Das Wiktionary darf ja jeder frei benutzen, aber bedarf es für einen Bot eine Erlaubnis? Letzteres wird wahrscheinlich über Robots.txt geregelt, aber die kann meinen Crawler noch nicht kennen, weil der erst eine Idee ist und noch nichtmal einen Namen hat...
Ranma