Zur Navigation

Web Scraping Tool gesucht

1 AndiN

Hallo zusammen,
ich bin auf der Suche nach einem Web Scraping Tool um Änderungen auf einer Website zu erfassen. Ein Browser-Plugin fällt raus, da das Tool einen Verzeichnisbaum durchklicken (Hauptkategorie -> Unterkategorie -> Produktseite) und von dort dann diverse Daten in eine CSV speichern muss. Mit dem Tool "ParseHub" habe ich mir ein Script geschrieben, welches auch die gewünschte Funktionalität bietet. Allerdings ist das Script extrem langsam und da es um einen sehr großen Datensatz geht, würde das Script mehrere Tage laufen.

Hat da jemand eine Idee?

06.10.2022 17:28

2 Jörg Kruse

Was für eine Scriptsprache verwendest du und wie bindest du ParseHub ein - gibt es da eine API?

Allerdings ist das Script extrem langsam

Nur das Script oder auch das Tool ParseHub?

06.10.2022 18:35

3 AndiN

ParseHub ist ein "Baukasten" mit dem man sich ein Script quasi zusammenklicken kann. Was dahinter steckt an Scriptsprache sieht man nicht. Der Support sagte mir, dass die Geschwindigkeit von vielen verschiedenen Faktoren abhängig ist. Beispielsweise haben einzelne Befehle wie "Klicke die nächste Seite eines Pageing an" auch Delays verbaut, damit sicher gestellt ist, dass die Seite vollständig geladen ist bevor sie auf abzuspeichernde Elemente untersucht wird. Das Tool ist eigentlich ziemlich cool und auch wirklich sehr gut durchdacht, aber für solche großen Projekte nicht geeignet.

06.10.2022 19:29

4 Jörg Kruse

Werden die Inhalte und das Pageing der Website per JavaScript geladen? und wie groß ungefähr ist die Anzahl der Produktseiten, die auf Änderungen überwacht werden müssen?

06.10.2022 21:56

5 AndiN

Das Pageing sowie ein "load more"-Button laufen über JavaScript.
Mir ist allerdings gerade bewusst geworden, dass ich nicht die Produktdetailseiten (ca. 130.000 Produkte) überwachen muss, sondern es reicht, wenn ich das Pageing auf 1.000 (das geht über einen URL-Parameter) erhöhe und nur die Produktlistenseiten checke. Somit muss ich mich nur noch um den "load more"-Button kümmern und nicht 130.000 Seiten hintereinander aufrufen. Mal testen wie schnell das dann lädt.

07.10.2022 08:45

6 Jörg Kruse

Auch die Website selbst könnte hier den Flaschenhals bilden. Wenn eine Seite 1 Sekunde benötigt, bis sie soweit geladen ist, dass der "load more"- oder "next page"-Button ausgelöst werden kann, dann können max. 86.400 Seiten pro Tag verarbeitet werden.

07.10.2022 09:45

Beitrag schreiben (als Gast)

Die Antwort wird nach der Überprüfung durch einen Moderator freigeschaltet.





[BBCode-Hilfe]