Python BeautifulSoup Website Crawler?

Hallo,

ich wollte mal nachfragen, ob hier jemand mit BeautifulSoup Erfahrung hat. Ich versuche den Inhalt einer Website zu crawlen. Das funktioniert auch. Bei manchen Seiten aber überhaupt nicht. Da scheint der page content einfach nicht zu existieren.

Woran könnte das liegen? Am Code kanns ja nicht liegen. Aber der Vollständigkeit halber, hier der Code:

page = requests.get(url)
soup = BeautifulSoup(page.content, "html.parser")
for tag in soup.find_all('title'):
    print("Tag found!")

Es ist sogar so, dass sich dann sogar die Anwendung beendet.

Folgendes wird in der Konsole ausgegeben:

Process finished with exit code -1073740791 (0xC0000409)

Ich schätze dass es bereits bei dem request ein Problem gibt. Könnten dass irgendwelche Sicherheitsmechanismen sein?

1 Antwort

Vom Beitragsersteller als hilfreich ausgezeichnet

regex9

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

Computer, Technik, programmieren

26.01.2022, 13:13

Lass dir den Response einmal ausgeben und schau, ob in ihm überhaupt die Elemente zu finden sind, die du suchst. Hierbei kannst du auch mit dem Seitenquelltext abgleichen, den du über deinen Webbrowser für die Webseite aufrufen kannst (hierbei ist nicht die Inspektoransicht der Webentwicklungstools gemeint, sondern explizit der Kontextmenüpunkt Seitenquelltext anzeigen).

Nicht alle Elemente werden stets mit dem ersten Response kreiert. Es könnten auch Inhalte via JavaScript nachgeladen werden (solche Inhalte werden in der Seitenquelltextansicht nicht angezeigt, dafür aber im Webinspektor). Wenn dies der Fall ist, solltest du statt BS4 ein Tool wie Selenium verwenden. Mit dem kannst du auf Inhalte warten.

Noch ein anderer Grund könnte vielleicht sein, dass der HTML Parser scheitert, weil das HTML der Seite invalid ist.

Nevron

Beitragsersteller

27.01.2022, 22:17

Danke dir.

Die Response hatte ich geprüft. Die war null, bzw tatsächlich nichts. Hatte die Response ausgegeben. Keinerlei Anzeige. Selbst im Debugger wurde nichts angezeigt. Nicht einmal null. Bei einer Seite, bei der es funktionierte, hatte ich Status 200 zurückbekommen. Am Ende lag am Javascript. Der Inhalt wurde nachgeladen. Ich habe auch festgestellt, dass es hier und da Probleme mit JINJA2 Templateverererbung gibt.

Ich hatte die Anwendung zuerst mit PyQT5 geschrieben. Hatte auch gelesen, dass wohl PyQT5 wohl hier und da Probleme mit BeautifulSoup hat. Hab dann mal aus Spaß, eine Flaskanwendung erstellt. Gleicher Code. Und siehe da, da wurden mir dann Exceptions ausgegeben.

Ähnliche Beiträge

Webseiten Scraper in Python?

Ich würde gerne einen WebScraper programmieren, jedoch bekomme ich es nicht hin. Ich würde gerne von einer Webseite die Frequenz von unserem Stromnetz auslesen, bekomme aber als Ausgabe nur "None". Hier ist mein Python-Code:

from bs4 import BeautifulSoup

import requests, time

url = f'https://www.apg.at/de/markt/Markttransparenz/Netzregelung/Netzfrequenz'

page = requests.get(url)

soup = BeautifulSoup(page.content, 'html.parser')

table = soup.find('h3', attrs={'class':'mb-0 text-danger ng-tns-c64-1'})

print(table)

Ich habe vor 2 Stunden mit Python angefangen, habe aber bereits gute Kenntnisse in C++ und Java etc. Hat jemand eine Idee, wie ich das Problem lösen kann oder hat jemand bereits was ähnliches programmiert?

LG

...zum Beitrag

BeautifulSoup AttributeError (Python)?

Hi, was könnte diesen Fehler verursachen?

raise AttributeError(
AttributeError: ResultSet object has no attribute 'get'. You're probably treating a list of elements like a single element. Did you call find_all() when you meant to call find()?

Code:

rs=session.get('https://nicht-die-echte-url.com')
soup=BeautifulSoup(rs.text, 'lxml')	
session_key=soup.find_all('a').get('href')
print(session_key.split("sesskey=")[1])

...zum Beitrag

An die Programmierer?

Wie lange würdet ihr eurer Meinung nach brauchen um so eine Seite wie Zalando zu programmieren und mit welchen Programmiersprachen?

...zum Beitrag

Wie kan nich das Kachel problem lösen?

import requests

from bs4 import BeautifulSoup

import csv

output_file = csv.writer(open('prem_table_bs.csv', 'w'))

output_file.writerow(['Position', 'Team', 'Played', 'Won', 'Drawn', 'Lost', 'For', 'Against', 'GD', 'Points'])

result = requests.get("https://www.bbc.co.uk/sport/football/tables")

src = result.content

soup = BeautifulSoup(src, 'html.parser')

table = soup.find_all("table")

league_table = table[0]

teams = league_table.find_all("tr")

for team in teams[1:21]:

stats = team.find_all("td")

position = stats[0].text

team_name = stats[2].text

played = stats[3].text

won = stats[4].text

drawn = stats[5].text

lost = stats[6].text

for_goals = stats[7].text

against_goals = stats[8].text

goal_diff = stats[9].text

points = stats[10].text

output_file.writerow([position, team_name, played, won, drawn, lost, for_goals, against_goals, goal_diff, points])

...zum Beitrag

Crawler geht nicht weiter, wenn fertig mit einer URL?

Hallo zusammen,

ich arbeite gerade an einem Python-Crawler, der spezifisch für die Website beispielurl.de entwickelt wurde. Mein Ziel ist es, verschiedene Unterseiten zu crawlen, die jeweils unterschiedlichen Kategorien angehören, wie z.B. "Flaschenhersteller" und "Kartenhersteller". Der Crawler soll automatisch von einer Kategorie (z.B. beispielurl.de/Flaschenhersteller/page-1, beispielurl.de/Flaschenhersteller/page-2, usw.) zur nächsten wechseln (z.B. beispielurl.de/Kartenhersteller/page-1, beispielurl.de/Kartenhersteller/page-2, usw.), sobald alle Seiten der aktuellen Kategorie durchlaufen sind.

Leider funktioniert der Wechsel zwischen den Kategorien nicht wie erwartet. Der Crawler verarbeitet alle Seiten der ersten Kategorie korrekt, aber anstatt zur nächsten Kategorie zu wechseln, beginnt er wieder von vorn bei der ersten Kategorie, ohne die nachfolgenden Kategorien zu berücksichtigen.

Hier ist ein vereinfachter Ausschnitt meines Codes:

def process_page(self, url):
  soup = self.fetch_page_with_selenium(url)
  links = self.extract_PLZ_links(soup)

  for link in links:
    self.fetch_PLZ_details(link)

def run(self):
  try:
    for code in self.postal_codes:
      page_number = 1
      has_more_pages = True

      while has_more_pages:
        url = f"{self.base_url}/suche/-/{code}?page={page_number}"
        soup = self.fetch_page_with_selenium(url)
        links = self.extract_PLZ_links(soup)

        if links:
          for link in links:
            self.fetch_PLZ_details(link)
            page_number += 1
        else:
          has_more_pages = False
  finally:
    self.driver.quit()
    self.csv_handler.close_csv()

Hersteller = [Flaschenhersteller, Kartenhersteller, etc. ]
crawler = WebCrawler("https://beispielurl.de", Hersteller)
crawler.run()

Hat jemand eine Idee, warum der Crawler nicht zur nächsten Kategorie wechselt und wie ich dieses Problem beheben könnte? Ich bin für jeden Tipp dankbar!

...zum Beitrag

Selfmade Fullstack lernen?

Hallo miteinander,

Ich hab angefangen über Codecademy mir das Programmieren (obwohl das Wort dafür etwas zu groß ist) auf HTML und CSS beigebracht.

Ich hab mich mit einer Softwareakademie in Verbindung gesetzt und bin auf die Schlussfolgerung gekommen, das jeder sich das auch von alleine beibringen kann.

Kann mir jemand alle Programme von A bis Z (also alles zum Programmieren, nicht nur die drei Elemente wie HTML CSS und Javascript) auflisten, die ein Software Entwickler drauf haben muss?

Wenn möglich dann bitte auch in der Reihenfolge in der man sie lernen sollte.

Und welche Programme bzw. Webseiten muss ich dafür nutzen, um alles zu lernen?

Ich möchte in den nächsten 2-3 Jahren neben meinem Beruf mir das alles beibringen, da ein Softwareentwickler sich nicht auf seine Qualifikationen auf dem Lebenslauf sondern eher auf sein eigenes Portfolio berufen muss bei Bewerbungsgesprächen.

Ich danke für die Antworten & die Hilfe im Voraus.

Da mir HTML und CSS zu lernen leicht fällt, denke ich das diese Richtung für mich richtig ist.

Liebe Grüße

...zum Beitrag

Python wie löse 'NoneType' object is not subscriptable?

Hallo!

Ich schreibe ein kleines Pythonprogramm, das als Web Crawler fungieren soll.Leider erhalte ich in Zeile 36 ein Fehler:

  brand = make_rating_sp[0].img["title"].title()
TypeError: 'NoneType' object is not subscriptable

Leider, finde ich keine Lösung. Wie könnte ich diesen Fehler lösen? Danke im Voraus!

make_rating_sp[0].img is None.

from bs4 import BeautifulSoup as soup  # HTML data structure
from urllib.request import urlopen as uReq  # Web client

# URl to web scrap from.
# in this example we web scrap graphics cards from Newegg.com
page_url = "http://www.newegg.com/Product/ProductList.aspx?Submit=ENE&N=-1&IsNodeId=1&Description=GTX&bop=And&Page=1&PageSize=36&order=BESTMATCH"

# opens the connection and downloads html page from url
uClient = uReq(page_url)

# parses html into a soup data structure to traverse html
# as if it were a json data type.
page_soup = soup(uClient.read(), "html.parser")
uClient.close()

# finds each product from the store page
containers = page_soup.findAll("div", {"class": "item-container"})

# name the output file to write to local disk
out_filename = "graphics_cards.csv"
# header of csv file to be written
headers = "brand,product_name,shipping \n"

# opens file, and writes headers
f = open(out_filename, "w")
f.write(headers)

# loops over each product and grabs attributes about
# each product
for container in containers:
    # Finds all link tags "a" from within the first div.
    make_rating_sp = container.div.select("a")

    # Grabs the title from the image title attribute
    # Then does proper casing using .title()
    brand = make_rating_sp[0].img["title"].title()

    # Grabs the text within the second "(a)" tag from within
    # the list of queries.
    product_name = container.div.select("a")[2].text

    # Grabs the product shipping information by searching
    # all lists with the class "price-ship".
    # Then cleans the text of white space with strip()
    # Cleans the strip of "Shipping $" if it exists to just get number
    shipping = container.findAll("li", {"class": "price-ship"})[0].text.strip().replace("$", "").replace(" Shipping", "")

    # prints the dataset to console
    print("brand: " + brand + "\n")
    print("product_name: " + product_name + "\n")
    print("shipping: " + shipping + "\n")

    # writes the dataset to file
    f.write(brand + ", " + product_name.replace(",", "|") + ", " + shipping + "\n")

f.close()  # Close the file

...zum Beitrag

Wie kann ich diese Navbar fixieren?

Hallo,

ich mache gerade meine erste Website und kenne mich noch sehr wenig mit HTML/CSS aus. Ich schaffe es leider nicht, dass meine Navigation beim runter scrollen oben fixiert bleibt. Wie kann man das ausschließlich mit HTML und CSS (also kein Javascript oder so) beheben?

Hier der HTML-Code:

<!DOCTYPE html>
<html>
<head>
  <meta charset="UTF-8">
  <title>Unser Shop</title>
  <link rel="stylesheet" href="styles.css" type="text/css">
</head>


<body>


<div class="topnav">
  <img src="test.png" alt="test" width="100" height="40" style="float:left; margin-right:25px;">
  <a class="active" href="index.html">Willkommen</a>
  <a href="products.html">Unsere Produkte</a>
  <a href="about-us.html">Über uns</a>
</div>


<div class="page">
<p> Willkommen! </p>
</div>




</body>
</html>

Und hier der CSS-Code:

body {
  background-color: green;
  margin: 0px;
}


/* Add a black background color to the top navigation */
.topnav {
  background-color: #333;
  overflow: hidden;
}


/* Style the links inside the navigation bar */
.topnav a {
  float: left;
  color: #f2f2f2;
  text-align: center;
  padding: 14px 16px;
  text-decoration: none;
  font-size: 17px;
}


/* Change the color of links on hover */
.topnav a:hover {
  background-color: #ddd;
  color: black;
}


/* Add a color to the active/current link */
.topnav a.active {
  background-color: #4CAF50;
  color: white;
}


.page {
  background-color: white;
  margin-right: 125px;
  margin-left: 125px;
  padding-bottom: 85%;
}

...zum Beitrag

Bootloader Unlock code Huawei?

Hi,

Ich brauche den Unlock Code für mein Honor 6x. Ich öffne also diese Website http://emui.huawei.com/en/ und gehe auf Downloads und dann auf Unlock Bootloader. Nach dem Log in Fenster komme ich nicht auf die Unlock Bootloader Page sondern wieder auf die oben genannte Startseite . Und so geht das die ganze Zeit im Kreis. Jemand ne Idee was da los ist ?

...zum Beitrag

Text unter Bild in HTML hinzufügen?

Ich habe ein Bild. Darunter habe ich ein Text platziert. Allerdings geht der Horizontal von links nach rechts, was es auch soll. Nur soll er da anfangen, wo auch das Bild beginnt und enden, wo das Bild endet. In den zwei Bildern könnt ihr erkennen, wie es es gerade habe und nicht will und wie ich es gerne haben würde.

<!DOCTYPE html>
<html>
<head>
    <title>Film- und Serienbeschreibungen</title>
  


  <style>
    img {
        display: block;
        margin: 0 auto;
        width: 1000px;
        border-radius: 10px;
    }


    body {
        text-align: center;
    }


    p {
        
    }
  </style>
</head>
  <body>
    <img src="mrrobotscene.jpg">
    <h1>Mr. Robot - Beschreibung</h1>
    <p>Mr. Robot ist eine US-amerikanische Fernsehserie, die von Sam Esmail entwickelt wurde. Die Serie handelt von Elliot Alderson, einem jungen Programmierer, der für eine Cyber-Sicherheitsfirma arbeitet und in seiner Freizeit zum Hacker wird. Elliot leidet unter sozialen Ängsten und Depressionen und verfällt in eine Art Schizophrenie, die von seinem imaginären Freund, Mr. Robot, ausgelöst wird</p>
    
  </body>
</html>

...zum Beitrag

Mit HTML <Button> Python Script ausführen?

Hallo! Ist es möglich, mit zum Beispiel einem Button, auf einer HTML Seite ein Python script auszuführen? Ich habe bereits im Internet danach gesucht, die dort gezeigten Dinge waren mir allerdings zu kompliziert. Geht es aus einfacher? (Vielleicht so: <button script="click.py">Klick Mich!</button>)

Ist das nur mit HTML umsetzbar?

Danke für jede Antwort!

...zum Beitrag

Wie erstelle ich eine simple HTML Website mit Github Pages?

Moin,

ich verstehs wirklich nicht. Habs jetzt online als auch mit dem Github Desktop Client versucht und ich kriegs nicht hin. Es gibt Videos von vor 3 Jahren die das erklären, dann die offizielle Erklärung von Github selbst und die Erklärung von ChatGPT und nichts scheint zu funktionieren.

Ich versuch mal zu erklären was ich versucht habe: Scheinbar muss ich meinen Benutzername als Name meines Repositories angeben und in diesem Format schreiben: username.github.io. Mein Username ist beispielsweise jetzt Johannes623, das heißt meine Repository soll johannes623.github.io heißen. Außerdem soll die Repository öffentlich sein und eine README-File enthalten. Soweit so gut.

Als nächstet aktiviert man Github Pages in den Einstellungen. Dort wählt man dann "Deploy from a branch" und dann "main und /root" als Branch aus. Jetzt geht man zurück zur README-Datei und fügt dort den Code der Website ein. Danach geht man zurück zur Github Pages Seite und schaut ob die Website unter der Domain erreichbar ist.

So wurde es mir erklärt. Problem ist nur, dass all das hier nicht funktioniert.

Kann mir jemand sehr simpel und strukturiert erklären, wie ich es hinbekomme eine Website zu erstellen? Und am besten noch dazu erklären, wie ich eine Custom Domain zu dieser Website hinzufügen kann? (Hab eine bei einem anderen Anbieter gekauft).

Vielen vielen Dank schonmal im Vorraus!!

...zum Beitrag

Beste AI zum Programmieren?

Hallo

Kennt von euch jemand eine AI welche gut zum Programmieren ist? Ich benötige eine AI welche mithilfe eines Bildes zb mit ein CSS code ausgeben kann mit welchem ich meine Webseite so gestalten kann sodass ws gleich wie auf dem Bild aussieht.

...zum Beitrag

Wie sollte ich mein Blog System für meine Website machen?

Ich mache momentan mit html, css und javascript eine Website mit einem Blog.

Wie sollte ich das System machen? Sollte ich keine Funktion machen um Beiträge zu erstellen und alles in einem Javascript system erstellen lassen, im Code direkt. Oder eine Page wo ich Beiträge erstellen kann, nur so falls es wichtig ist, es ist ein System mit mehreren Seiten.

Wie folgt auf gebaut: Hauptseite mit Kategorien -> In der Kategorie sind die Beiträge zur Kategorie.

Also sind noch 3 Seiten vor den Beiträgen.

...zum Beitrag

Was möchtest Du wissen?

Deine Frage stellen