Webseiten Scraper in Python?

Ich würde gerne einen WebScraper programmieren, jedoch bekomme ich es nicht hin. Ich würde gerne von einer Webseite die Frequenz von unserem Stromnetz auslesen, bekomme aber als Ausgabe nur "None". Hier ist mein Python-Code:

from bs4 import BeautifulSoup

import requests, time

url = f'https://www.apg.at/de/markt/Markttransparenz/Netzregelung/Netzfrequenz'

page = requests.get(url)

soup = BeautifulSoup(page.content, 'html.parser')

table = soup.find('h3', attrs={'class':'mb-0 text-danger ng-tns-c64-1'})

print(table)

Ich habe vor 2 Stunden mit Python angefangen, habe aber bereits gute Kenntnisse in C++ und Java etc. Hat jemand eine Idee, wie ich das Problem lösen kann oder hat jemand bereits was ähnliches programmiert?

LG

1 Antwort

regex9

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

Computer, Technik, programmieren

04.11.2021, 22:32

Das Problem bei deinem Fall ist, dass das Element zum einen nicht in diesem Dokument liegt, welches du aufrufst (es befindet sich stattdessen in einem iFrame) und zum anderen dynamisch generiert wird. Da das requests-Modul allerdings den ersten Response, den es erhält, entgegennimmt, wäre das Element beim Parsen für dich nie auffindbar.

Nimm stattdessen Selenium (ein Framework für automatisierte Tests von Webseiten). Damit hast du mehr Kontrolle und kannst bspw. in verschiedene iFrames wechseln (wie das geht, habe ich hier schon einmal gezeigt) sowie auf Inhalte warten, die dynamisch nachgeladen werden.

Ähnliche Beiträge

Wie kan nich das Kachel problem lösen?

import requests

from bs4 import BeautifulSoup

import csv

output_file = csv.writer(open('prem_table_bs.csv', 'w'))

output_file.writerow(['Position', 'Team', 'Played', 'Won', 'Drawn', 'Lost', 'For', 'Against', 'GD', 'Points'])

result = requests.get("https://www.bbc.co.uk/sport/football/tables")

src = result.content

soup = BeautifulSoup(src, 'html.parser')

table = soup.find_all("table")

league_table = table[0]

teams = league_table.find_all("tr")

for team in teams[1:21]:

stats = team.find_all("td")

position = stats[0].text

team_name = stats[2].text

played = stats[3].text

won = stats[4].text

drawn = stats[5].text

lost = stats[6].text

for_goals = stats[7].text

against_goals = stats[8].text

goal_diff = stats[9].text

points = stats[10].text

output_file.writerow([position, team_name, played, won, drawn, lost, for_goals, against_goals, goal_diff, points])

...zum Beitrag

Python wie löse 'NoneType' object is not subscriptable?

Hallo!

Ich schreibe ein kleines Pythonprogramm, das als Web Crawler fungieren soll.Leider erhalte ich in Zeile 36 ein Fehler:

  brand = make_rating_sp[0].img["title"].title()
TypeError: 'NoneType' object is not subscriptable

Leider, finde ich keine Lösung. Wie könnte ich diesen Fehler lösen? Danke im Voraus!

make_rating_sp[0].img is None.

from bs4 import BeautifulSoup as soup  # HTML data structure
from urllib.request import urlopen as uReq  # Web client

# URl to web scrap from.
# in this example we web scrap graphics cards from Newegg.com
page_url = "http://www.newegg.com/Product/ProductList.aspx?Submit=ENE&N=-1&IsNodeId=1&Description=GTX&bop=And&Page=1&PageSize=36&order=BESTMATCH"

# opens the connection and downloads html page from url
uClient = uReq(page_url)

# parses html into a soup data structure to traverse html
# as if it were a json data type.
page_soup = soup(uClient.read(), "html.parser")
uClient.close()

# finds each product from the store page
containers = page_soup.findAll("div", {"class": "item-container"})

# name the output file to write to local disk
out_filename = "graphics_cards.csv"
# header of csv file to be written
headers = "brand,product_name,shipping \n"

# opens file, and writes headers
f = open(out_filename, "w")
f.write(headers)

# loops over each product and grabs attributes about
# each product
for container in containers:
    # Finds all link tags "a" from within the first div.
    make_rating_sp = container.div.select("a")

    # Grabs the title from the image title attribute
    # Then does proper casing using .title()
    brand = make_rating_sp[0].img["title"].title()

    # Grabs the text within the second "(a)" tag from within
    # the list of queries.
    product_name = container.div.select("a")[2].text

    # Grabs the product shipping information by searching
    # all lists with the class "price-ship".
    # Then cleans the text of white space with strip()
    # Cleans the strip of "Shipping $" if it exists to just get number
    shipping = container.findAll("li", {"class": "price-ship"})[0].text.strip().replace("$", "").replace(" Shipping", "")

    # prints the dataset to console
    print("brand: " + brand + "\n")
    print("product_name: " + product_name + "\n")
    print("shipping: " + shipping + "\n")

    # writes the dataset to file
    f.write(brand + ", " + product_name.replace(",", "|") + ", " + shipping + "\n")

f.close()  # Close the file

...zum Beitrag

Wie dynamische Webseiten auslesen?

Ich habe schon ein paar Sachen ausprobiert, z.b. requests mit beautifulsoup und den chromedriver, aber mit python und requests kann man keine Webseiten auslesen die dynamisch geladen werden und bei der chromedriver mit dem Browser erst die komplette Seite grafisch darstellt ist es viel zu langsam, was ist eine schnelle und effektive Lösung texte von internetseiten oder Kommentarsektionen auszulesen?

...zum Beitrag

BeautifulSoup AttributeError (Python)?

Hi, was könnte diesen Fehler verursachen?

raise AttributeError(
AttributeError: ResultSet object has no attribute 'get'. You're probably treating a list of elements like a single element. Did you call find_all() when you meant to call find()?

Code:

rs=session.get('https://nicht-die-echte-url.com')
soup=BeautifulSoup(rs.text, 'lxml')	
session_key=soup.find_all('a').get('href')
print(session_key.split("sesskey=")[1])

...zum Beitrag

OpenWeatherMap Python?

import requests

API_KEY = "xyz"

city = "Berlin"

url = 'https://api.openweathermap.org/data/2.5/weather?q={city}&appid={API_KEY}&units=metric'

data = requests.get(url).json()

temp = ['main']['temp]-273.15

print('Temperatur: ' + temp )

Code gibt es so im Internet. Allerdings kommt bei mir folgender Error:

Traceback (most recent call last):

File "/xyz/wetter.py", line 9, in <module>

temp = data['main']['temp']-273.15

KeyError: 'main'

Irgendwelche Ideen an was das liegen kann?

...zum Beitrag

Wieso kann ich die Video URL nicht extrahieren?

Ich habe folgendes Programm für die Seite Vivo geschrieben, dies soll in erster Linie die url aus der Hauptseite extrahieren, da ich für den rest schon alles habe. Ich habe hierfür lxml benutzt, da bs4 keine xpaths unterstützt und ich keinen browser starten möchte also ist selenium auch raus. Das hier ist mein derzeitiger Code:

import requests

import lxml.html

mainurl = "https://vivo.sx/videoid"

html = requests.get(mainurl + "/")

doc = lxml.html.fromstring(html.content)

xpath1 = doc.xpath('//video/@src')

print(xpath1)

Ich bekomme aber nur "[]" zurück. wie kann ich mir den inhalt von //video/@src anzeigen lassen, da sich dort die videourl befindet.

Mfg Elias

...zum Beitrag

Crawler geht nicht weiter, wenn fertig mit einer URL?

Hallo zusammen,

ich arbeite gerade an einem Python-Crawler, der spezifisch für die Website beispielurl.de entwickelt wurde. Mein Ziel ist es, verschiedene Unterseiten zu crawlen, die jeweils unterschiedlichen Kategorien angehören, wie z.B. "Flaschenhersteller" und "Kartenhersteller". Der Crawler soll automatisch von einer Kategorie (z.B. beispielurl.de/Flaschenhersteller/page-1, beispielurl.de/Flaschenhersteller/page-2, usw.) zur nächsten wechseln (z.B. beispielurl.de/Kartenhersteller/page-1, beispielurl.de/Kartenhersteller/page-2, usw.), sobald alle Seiten der aktuellen Kategorie durchlaufen sind.

Leider funktioniert der Wechsel zwischen den Kategorien nicht wie erwartet. Der Crawler verarbeitet alle Seiten der ersten Kategorie korrekt, aber anstatt zur nächsten Kategorie zu wechseln, beginnt er wieder von vorn bei der ersten Kategorie, ohne die nachfolgenden Kategorien zu berücksichtigen.

Hier ist ein vereinfachter Ausschnitt meines Codes:

def process_page(self, url):
  soup = self.fetch_page_with_selenium(url)
  links = self.extract_PLZ_links(soup)

  for link in links:
    self.fetch_PLZ_details(link)

def run(self):
  try:
    for code in self.postal_codes:
      page_number = 1
      has_more_pages = True

      while has_more_pages:
        url = f"{self.base_url}/suche/-/{code}?page={page_number}"
        soup = self.fetch_page_with_selenium(url)
        links = self.extract_PLZ_links(soup)

        if links:
          for link in links:
            self.fetch_PLZ_details(link)
            page_number += 1
        else:
          has_more_pages = False
  finally:
    self.driver.quit()
    self.csv_handler.close_csv()

Hersteller = [Flaschenhersteller, Kartenhersteller, etc. ]
crawler = WebCrawler("https://beispielurl.de", Hersteller)
crawler.run()

Hat jemand eine Idee, warum der Crawler nicht zur nächsten Kategorie wechselt und wie ich dieses Problem beheben könnte? Ich bin für jeden Tipp dankbar!

...zum Beitrag

Python Webseite auslesen (BeautifulSoup, Requests)?

Ich versuche gerade mit Python eine Webseite auszulesen (https://www.srf.ch/meteo/wetter/Zurich/47.3797,8.5342?geolocationNameId=1192045f06b811b701d8d7fcfd9dec64) und habe dazu eine Frage:

Wie kann ich einen Code schreiben, der je nach dem welches Symbol hier (siehe Bild) angezeigt wird, einen anderen Wert ausgibt. Z.B. 1 für Sonne, 2 für Wolke usw.

Könnte jemand einen konkreten Code schicken (mit BeautifulSoup, Requests usw)

Danke schon einmal im Voraus

...zum Beitrag

Python requests findet Seite nicht?

Hi ich nutze requests um eine Suchanfrage auf einer Seite zu starten.
Wenn ich den Link über den Brower öffne finde ich den gesuchen inhalt.

Wenn ich nun den gleichen link über python requests aufsuche finde ich keinen Inhalt.
Ich bin absolut verzweifelt.

Link:
https://saddle-world-online.de/wp-json/wp/v2/media?search=ex_18-13_schwarz

Ich nutze folgenden Code:

import requests

url =  'https://saddle-world-online.de/wp-json/wp/v2/media?search=ex_18-13_schwarz'
response = requests.get(url)
result = response.json()

Ergebnis: []

...zum Beitrag

Python AD User Abfrage?

Hallo zusammen kann Python das und wenn ja wie ?

$searchTerm = Read-Host "Geben Sie den Benutzernamen oder Vornamen ein"
Import-Module ActiveDirectory
$user = Get-ADUser -Filter {SamAccountName -like $searchTerm -or GivenName -like $searchTerm} -Server portal.test.net
if ($user) {
  Write-Host "Benutzer gefunden:"
  $user | Format-Table -Property SamAccountName, GivenName, Surname, UserPrincipalName
  $user | Get-Member -MemberType Properties | Select-Object Name
} else {
  Write-Host "Kein Benutzer gefunden."
}

...zum Beitrag

Python: Wieso bekomme ich mit der requests-Bibliothek nicht die IPs der Proxies?

Hallo!

Ich habe folgenden Code:

import requests, json, random

with open("config/proxies.txt", "r") as generator:
     Proxies = []
     Proxies += [proxy.strip() for proxy in generator.readlines()]

while True:
    Proxy_Payload = {
         "http": 'http://%s' % random.choice(Proxies)
    }
    s = requests.Session()
    s.proxies = Proxy_Payload
    r = s.get("https://api.ipify.org/?format=json", proxies=Proxy_Payload)
    print(r.text)

https://api.ipify.org/?format=json zeigt die IP an, mit der ich die Webseite anfrage.

Aber nun habe ich das Problem, dass ich immer meine eigene IP zurückbekomme und nicht die IP von den Proxies, wie es eigentlich sein sollte.

Die Proxies sind von https://proxyscrape.com/, also kostenlos. Aber ich habe sie mit einem Proxy-Checker geprüft.

Wie kann ich das beheben?

...zum Beitrag

API Request geht nicht?

Ich verstehe nicht ganz warum meine Anfrage immer nur mit einer Standard-Antwort (paar random Lebensmittel) beantwortet wird. Kann jemand erfahrenes mir weiterhelfen?
Die Dokumentation hilft mir gerade gar nicht weiter.

https://openfoodfacts.github.io/openfoodfacts-server/api/ref-v2/#get-/api/v2/search

import requests, requests.utils
import os
product = input("Wie heißt das Produkt? ")
encoded_product = requests.utils.quote(product)
url = f"https://world.openfoodfacts.org/api/v2/search?product_name=fuze+tea&fields=product_name"

response = requests.get(url)

with open("response.json", "w") as file:
    file.write(response.text)

    
print(response.json())

...zum Beitrag

Wie sende ich Variablen von JavaScript nach Flask via jQuery?

Hallo,

ich bin in JavaScript/jQuery und auch Python/Flask noch ein ziemlicher Anfänger. Ich versuche gerade, einfach nur ein JSON-Objekt aus JavaScript in einem HTML-Template mit Flask anzuzeigen.

Hier mein Code:

Flask:

from flask import Flask,request, render_template

app = Flask(__name__)

@app.route("/")
def rofl():
  return render_template("test.html")

@app.route("/test", methods=['POST'])
def test():
  Namensliste = request.get_json(True)
  print(Namensliste)
  return render_template("rofl.html", Namensliste=Namensliste)

if __name__ == '__main__':
  app.run(port=5200)

test.html:

<head>
  <meta charset="UTF-8">
  <title>Title</title>
</head>
<body>
  <form action="#" method="post">
    <button type="button" onclick="JSONTest()"> Send UserInfo</button>
  </form>
</body>

rofl.html:

<head>
  <meta charset="UTF-8">
  <title>Titel</title>
</head>
<body>
  NamensListe: {{Namensliste}}
</body>

JavaScript-Datei:

var myJason = {
  "name1" : "Jens",
  "name2" : "Josef",
  "name3" : "Johannes"
}

function JSONTest() {
  var MyJason= JSON.stringify(myJason);
  console.log(MyJason)
  $.ajax({
    type: 'POST',
    url: '/test',
    data: MyJason,
    success: function(data) {
      console.log(data, "Rückmeldung1");
  }});
}

Wie mein Code eigentlich funktionieren soll ist: Ich rufe die Route "/" auf, drücke auf den Button: "JSONTest()" und meine Funktion sendet via jQuery mein JSON-Objekt an "/test". Dort wird das Objekt in Namensliste gespeichert und rofl.html mit der Namensliste darin aufgerufen.

Ich weiß, dass hier wahrscheinlich viele Grundlagenfehler drin sind, aber ich habe wirklich ewig lang gegooglet und finde einfach nicht, wie man es richtig macht.

Danke schon einmal für jede Idee.

...zum Beitrag

Python Script hört einfach auf?

Um Python zu lernen hab ich ein Skript geschrieben welches alle meine Urlaubs Fotos aus einem Ordner "scannt" und den Dateinamen in eine Datenbank schreibt. Der Code funktioniert soweit auch gut, aber nach ca. 1400 Fotos hört das Python script einfach auf, ohne Fehlermeldung. Ich hab auch schon den Garbage Collector integriert, kann mir einer weiterhelfen?

...zum Beitrag

Was möchtest Du wissen?

Deine Frage stellen