Wie dynamische Webseiten auslesen?
Ich habe schon ein paar Sachen ausprobiert, z.b. requests mit beautifulsoup und den chromedriver, aber mit python und requests kann man keine Webseiten auslesen die dynamisch geladen werden und bei der chromedriver mit dem Browser erst die komplette Seite grafisch darstellt ist es viel zu langsam, was ist eine schnelle und effektive Lösung texte von internetseiten oder Kommentarsektionen auszulesen?
*Kommentartext
2 Antworten
bestenfalls nutzt man eine vorhandene API wie Youtube sie z.B. hat.
andernfalls wirst du nicht drumherum kommen einen "echten" browser im Headless laufen zu lassen. Das ist sehr ressourcenintensiv, aber mir ist keine andere Möglichkeit bekannt, zumal das JS ja auch interpretiert werden muss.
Serverseitige Node-Scripts laufen im prinziep auch einer kleinen Chromium version.
das heißt ich könnte nur etwa 45 Instanzen laufen lassen?
naja muss es denn gleichzeitig sein?
weißt du überhaupt was du genau willst?
Du willst doch sicherlich nicht gleichzeitig 40 Seiten "auslesen"
Und wenn doch, dann musst du eben warten und Queuen, oder bessere Hardware anschaffen.
JS ausführen geht nicht umsonst.
Selenium, oder wenn es um ecommerce geht, eScraper
Und welche ressourcensparenden automatisierbaren browser gibt es da?