Wie dynamische Webseiten auslesen?


03.04.2022, 14:28

*Kommentartext

2 Antworten

bestenfalls nutzt man eine vorhandene API wie Youtube sie z.B. hat.

andernfalls wirst du nicht drumherum kommen einen "echten" browser im Headless laufen zu lassen. Das ist sehr ressourcenintensiv, aber mir ist keine andere Möglichkeit bekannt, zumal das JS ja auch interpretiert werden muss.

Serverseitige Node-Scripts laufen im prinziep auch einer kleinen Chromium version.

Woher ich das weiß:Hobby – Programmiere seit 2017 Webapplikationen
Mensch4 
Fragesteller
 03.04.2022, 14:33

Und welche ressourcensparenden automatisierbaren browser gibt es da?

0
MrCommandBlock  04.04.2022, 18:46
@Mensch4

Selenium

Browsershot

...

Du wirst aber pro instanz mit 100mb RAM rechnen müssen.

1
Mensch4 
Fragesteller
 04.04.2022, 20:58
@MrCommandBlock

das heißt ich könnte nur etwa 45 Instanzen laufen lassen?

0
MrCommandBlock  04.04.2022, 23:02
@Mensch4

naja muss es denn gleichzeitig sein?

weißt du überhaupt was du genau willst?

Du willst doch sicherlich nicht gleichzeitig 40 Seiten "auslesen"

Und wenn doch, dann musst du eben warten und Queuen, oder bessere Hardware anschaffen.

JS ausführen geht nicht umsonst.

0

Selenium, oder wenn es um ecommerce geht, eScraper