Wie scrape ich das(Python-Selenium)?

Ich habe das Problem das ich den Text oder was auch immer das ist nicht gescrapt bekomme. Ich habe wirklich schon alles versucht. Der Text lässt sich auch nicht mit der Maus kopieren, noch ist er als String im HTML Code zu finden!

Den gemeinten Part den ich gerne gescrapt gehabt hätte ist unten markiert!

Die Seite wo ihr die das findet ist diese:(nicht gleiche Aufgabe aber gleiches Prinzip)

https://mathebattle.de/edu_randomtasks/training_show/480

Bild zum Beitrag

Vielen Dank für Die Antworten!

2 Antworten

Von Experte Hanibal545 bestätigt

Destranix

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

IT, programmieren, Informatik

24.09.2022, 11:24

Du hast Glück, dass das nicht einfach Code ist, der serverseitig in ein Bild umgewandelt wird, sondern stattdessen maschinenlesbar ist.

Es handelt sich um MathML, wie aus dem Sourcecode der Siete hervorgeht:

http://www.w3.org/1998/Math/MathML

Mit etwas Glück findest du ein Programm im Internet, dass es dir erlaubt, damit umzugehen, wie du es gerne möchtest.
Selber dafür einen Parser schreiben ist eher nicht anzuraten, das habe ich schon einmal versucht und das Ergebnis war nicht sonderlich schön. Das wäre auch mit einem Parser-Generator nicht sonderlich schön, da die Sprache Mengen und anderes Zeug enthält, dass sich pragramatisch nur bedingt umsetzen lässt.

Aber wenn du das einfach nru anderswo anzeigen möchtest, findet sich wahrscheinlich Software, die das kann, oder du kannst das evtl. direkt den Browser machen lassen, wie es dir Seite auch macht, denn offenbar (wusste ich vorher auch nicht), kannd er mit MathML umgehen.

Max1236

Beitragsersteller

24.09.2022, 12:27

Danke! Hat mir schon sehr weitergeholfen.

Ich werde mal schauen ob ich was finde was dann das MathML in einen Text umwandelt. Mal schauen ob klappt

Destranix

24.09.2022, 12:40

@Max1236

Also in Text wirst du das nur beschränkt umwandeln können, denn es ist ja kein Text, sondern eine Formel.

NackterGerd

24.09.2022, 11:56

das ich den Text oder was auch immer das ist nicht gescrapt bekomme.

Du musst doch wissen was du willst.

Text oder etwas anderes.

Was ist es denn?

Eine Bitmap ?

Wir können ja nicht wissen was du hast und was du genau willst.

Der Bezug zum Python in deiner Frage ist jedenfalls nicht klar

Max1236

Beitragsersteller

24.09.2022, 11:59

Dank der Antwort oben weiß ich jetzt schon mal das es MathML ist.

Das Ziel ist, diesen Term in eine Variable im Python Programm zwischen zu speichern. Allerdings weiß ich halt nicht wie ich da rangehen soll 😅

Destranix

24.09.2022, 12:41

@Max1236

Dann würde ich einfach das MathML als ganzes (oder ohne den Display-Teil, falls vorhanden) kopieren.

Was du dann damit anstellst hinge von der weiteren Verwendung ab.

Max1236

Beitragsersteller

24.09.2022, 12:53

@Destranix

Hab gerade den HTML Code durchgeschaut. Wo findest du das MathML den immer?

Destranix

24.09.2022, 12:57

@Max1236

Rechtcklich auf das Element und "Untersuchen". Ist bei mir unter ID "content" in einem Element mit Klasse "exercise_question".

Wohlgemerkt: Da nur manche Browser MathML unterstützen könnte ich mir vorstllen, dass das unter anderen Browsern nicht ausgeliefert wird. Unter Chrome verwendet das bei mir mjx statt MathML, entsprechend würde ich schauen, dass ich das so anfrage, dass ich MathML bekomme, wenn das nicht automatsich geschieht.

Max1236

Beitragsersteller

24.09.2022, 13:01

@Destranix

Okay, verstanden. Ich arbeite da ja mit Selenium. Wie kann ich jetzt das MathML kopieren(scrapen). Gibt es da eine extra Funktion?

Destranix

24.09.2022, 13:04

@Max1236

Müsste man genauer untersuchen, wann das Programm entscheidet, dir da mjx statt MathML zu geben.
Was du mal ausprobieren könntest wäre, den User-Agent zu faken, sprich einen anderen als den tatsächlichen an den Server zu schicken, um diesem vorzugauckeln, dass du Firefox nutzt.

Wenn das nichts bringt, dann wird das wohl clientseitig im Javascript-Code entschieden. Da müsste man dann schauen, wie man am besten die Seite täuscht.

Max1236

Beitragsersteller

24.09.2022, 13:07

@Destranix

Ich schau mal wie weit ich komme und schreibe dir im Notfall wenn nichts mehr klappt wenn das okay ist. Vielen Dank aber schon mal

Destranix

24.09.2022, 13:08

@Max1236

Ja, ist okay.

Ähnliche Beiträge

Python Zeilenumbruch?

Code:

i = 0
string = "hallo"
while i != 10:
    for letter in string:
        print(letter, end="")
    i += 1

Der output von diesem code ist:

hallohallohallohallohallohallohallohallohallohallo

Wie schaffe ich es das der output so ist:

hallo
hallo
hallo
hallo
...

Alles was ich probiert hab, kam der output nur Buchstabe für Buchstabe oder als fließ Text wie oben. Wie schaff ich es den output als zeilenumbruch zu haben?

...zum Beitrag

Python Selenium XPath nach Inhalt?

Hallo zusammen
Ich programmiere gerade einen Bot mit Python Selenium und möchte ein Element nach dessen Inhalt finden. Nun habe ich driver.find_element_by_xpath("//*[contains(text(), '1')]"). Nun sollte dieses Element angeklickt werden, doch es funktioniert nicht. Als error Meldunug kommt: 'list' object has no attribute 'click'.
Ich befürchte, dass nicht dieses div objekt ausgewählt wurde, welches ich wollte. Wie könnte ich das beheben?

...zum Beitrag

Wie Iframe identifizieren?

Hallo,

ich würde gerne mit Python Selenium auf web.de gehen und mich dort dann anmelden. Der Basis Code sieht bisher so aus:

from selenium import webdriver
import time
driver = webdriver.Chrome('C:/Users/.../Desktop/Python/chromedriver.exe')
driver.maximize_window()
driver.get('https://www.web.de/')

Das Problem dabei ist jetzt, dass das hier aufgeht: https://web.de/consent-management/ . Jetzt frage ich mich zunächst einmal, weshalb das jedes mal aufgeht, wenn ich den Code ausführe, aber nur ein einziges mal erschien, als ich das erste mal mit dem Gerät auf web.de war?!

Als nächstes wollte ich dann einfach den Button "Zustimmen und weiter" klicken lassen. Den Button habe ich durch:

button = driver.find_element_by_xpath('//button[text()=" Zustimmen und weiter "]')

gespeichert. .click() löst aber nichts aus. Jetzt habe ich gesehen, dass sich der button innerhalb eines iframes befindet. Die class des iframes lautet: 'permission-core-iframe' , innerhalb befindet sich dann noch mal ein iframe aber ohne id und class. Darin findet man dann zwei button unter anderem den für "Zustimmen". Wie komme ich denn jetzt zum eigentl. Login?

...zum Beitrag

Python: Wieso sind die beiden Strings nicht gleich?

Ich habe einen Webserver mit Python und Flask erstellt.

Der Chat funktioniert super, aber wenn ich versuche zu schauen, ob ein bestimmter Nutzer eine bestimmte Nachricht geschrieben hat, geht das nicht.

Hier ein Screenshot:

Wie ihr hier sehen könnt, sind die beiden Strings identisch. Es wird jedoch gesagt, dass sie es nicht sind.

Kann mir jemand sagen, was falsch ist?

...zum Beitrag

Was soll ich alles auf Fiverr anbieten (Jugendlicher, Programmierer)?

Hi.

Also ich würde ganz gerne etwas Geld verdienen, vor allem durch's Programmieren. Problem: Ich mache meine Mittlere Reife erst in 2 1/2 Jahren, da ich durch Corona und Inkomepetenz 2. mal eine Klasse wiederholen musste.

Mir wurde mal vorgeschlagen, mich auf Fiverr zu registrieren. Jetzt frage ich mich aber, was ich am besten anbieten sollte. Ich erzähl hier einfach mal, was ich schon so für Zeug gemacht habe, damit ihr wisst, was ich so kann.

Ich hab mit folgenden Dingen schon gearbeitet (also relativ intensiv):

Neuronale Netzwerke (relativ "neu") [Tensorflow, Python]
Minecraft Plugins [Spigot API, Java]
Webseiten (static und und dynamic) [HTML, CSS, JavaScript, Python/PHP/C++]
Automatisierungen (vor allem Webseiten) [Selenium, Python]
Scrapper [BeatifulSoup, Python]
Discord API (z.B. um Daten über User zu kriegen)
Discord Bots [Python und Java, von Scratch und mit Library]
MySQL Datenbanken [Python, C#]
SQLite Datenbanken [Python, C#, Java]
WinForms [C#]
WPF [C#]
REST API's (um genau zu sein eigene gemacht und die Discord API verwendet)
win32.dll [Python, C++, C#]
YouTubeDLL [Python]
Spotify API (z.B. zum Song wechseln, oder Song Daten anzufragen)

Als übersicht, ich "kann" folgende Programmiersprachen (ich weiß, HTML und CSS sind keine Programmiersprachen) [Sortiert nach Skill]:

Python
C#
Java
PHP
HTML/CSS/JavaScript <- Alles relativ gleich gut
C++ (Simple Sachen, wie Web Server)

Wenn man beachtet, was ich kann. Was würdet ihr mir zum anbieten, auf Fiverr, empfehlen?

Danke im vorraus und lg.

...zum Beitrag

Python PyQt5 - Windows?

Hallo.

Bin endlich mit meiner ersten richtigen (sinnvollen) Gui für die Arbeit fertig geworden.

Meine Frage hierzu lautet:

Wenn ich dieses kleine Programm in Windows ausführe startet zuerst die Eingabeaufforderung und danach die GUI die dann nicht aktiviert ist.

Nicht falsch verstehen. Sie funktioniert, aber man muss dieses Fenster erst mit der Maus anklicken um danach mit der Tastatur schreiben zu können.

Kann man die Eingabeaufforderung unsichtbar starten, damit dann gleich das Fenster aktiv ist?

Vielen Dank im Voraus

...zum Beitrag

Python - Strings kürzen?

Hallo,

ich arbeite gerade mit User Daten, die User können einen bestimmten Text eingeben und diesen möchte ich gerne kürzen.

Ich weiß es geht so:

string = "PHLMinions"
print(string[:-2])

Da die Inputs aber immer anders sind kann ich nie sagen wie viel weg muss.

Ich möchte z.B. wenn der Name 10 Spalten lang ist soll 2 vom Namen entfernt werden, wenn der Name 11 Spalten lang ist soll 3 entfernt werden, usw.

Wie ginge das?

Liebe Grüße

...zum Beitrag

Python Selenium auf Input klicken?

Hallo,

folgender Code:

<div class="block-receipt">
  <div class="div-block-8">
    <input type="file" size="20" name="receipt-3" id="receipt" class="input-file w-input" accept="image/*, application/pdf" required="" style="overflow: hidden;">
    <a href="#" class="receipt-button w-button"> hochladen</a>
    <div style="margin-top: 0px;margin-bottom: 0px;text-align: center;" class="text-block-3">
      <strong>(Maximal </strong>
    </div>
  </div>
</div>

Nun würde ich gerne mit Selenium automatisch auf das Element klicken lassen, damit sich das das "Dateiauswählfenster" öffnet. Ohne alles hinzuschreiben:

driver.find_elements_by_xpath("//*[contains(text(), 'Kassenbon hochladen')]").click()

Dies und viele weitere Versuche führen zur Fehlermeldung:

AttributeError: 'list' object has no attribute 'click'

und viele weitere.

Wie lautet denn ein funktionierender Code, um das Element klicken zu lassen?

Danke

...zum Beitrag

Warum klickt der Webdriver auf ein anderes Element?

Hallo,

heute mal wieder die KrünKraft Website:

Mein Python Selenium Skript soll auf folgender Seite: GrünKraft Zufriedenheit (gruenkraft-zufriedenheit.de) den Button PayPal-Konto drücken. Danach sollte sich dann ein input Feld auftun, welches dann ausgefüllt werden soll.

<div class="column-left w-col w-col-5">
<label class="radio-button-field-2 left w-radio">
<input type="radio" id="paypal" name="payout" value="paypal" data-name="payout" required="" class="w-form-formradioinput radio-button w-radio-input">
<span for="paypal" class="radio-button-label-2 w-form-label">PayPal-Konto</span>
</label>
</div>

Den Code für das Inputfeld lasse ich jetzt mal weg, da es wirklich nur ein Input Feld ist.

Mein erster Code:

from selenium import webdriver
import time
driver = webdriver.Chrome('C:/Users/.../Desktop/Python/chromedriver.exe')
driver.maximize_window()
driver.get('https://gruenkraft-zufriedenheit.de/')
element = driver.find_element_by_id("paypal")
time.sleep(4)
element.click()

Wenn ich den Code der Website richtig verstanden habe, dann muss man doch zuerst auf den gestylten Radiobutton drücken, damit das Inputfeld erscheint. Führe ich dann aber den oben gezeigten Code aus, dann kommt die Meldung: "Other element would receive the click" und zwar anscheinend das Textfeld darunter. Warum ist das so?

Ein Code der funktioniert ist folgender:

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.action_chains import ActionChains


driver = webdriver.Chrome()
driver.maximize_window()
driver.implicitly_wait(30)
driver.get("https://gruenkraft-zufriedenheit.de/")
wait = WebDriverWait(driver, 10)
driver.find_element_by_xpath("//span[text()='PayPal-Konto']").click()
wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, "input[name='paypal-email-2']"))).send_keys('some-email@gmail.com')

Da wird gewartet, bis das Element sichtbar wird( Was heiß das dann schon wieder? ) und offensichtlich wird nicht der Radiobutton, sondern das span Element angeklickt. Warum funktioniert das dann?

Danke

...zum Beitrag

MySQL: Problem beim Tabelle kopieren?

Ich habe eine Methode, welche eine Tabelle in eine andere Tabelle kopieren soll.

cn1 = new SqlConnection(cn_string);
cn1.Open();
string sqltext = "SET IDENTITY_INSERT Wochenplan ON;";
cmd = new SqlCommand(sqltext, cn1);
cmd.ExecuteNonQuery();
sqltext = "INSERT INTO Wochenplan ([Text]) SELECT [Text] FROM NächsteWoche;";
cmd = new SqlCommand(sqltext, cn1);
cmd.ExecuteNonQuery(); //Hier der Fehler 
sqltext = "SET IDENTITY_INSERT Wochenplan OFF;";
cmd = new SqlCommand(sqltext, cn1);
cmd.ExecuteNonQuery();

Zuvor wurde der Inhalt der Tabelle Wochenplan entfernt.

cn1 = new SqlConnection(cn_string);
cn1.Open();
string sqltext = "DELETE FROM Wochenplan";
cmd = new SqlCommand(sqltext, cn1);
cmd.ExecuteNonQuery();

Nun bekomme ich allerdings beim Ausführen in der Methode vom Kopieren einen Fehler in Zeile 10:

"Explicit value must be specified for identity column in table 'Wochenplan' either when IDENTITY_INSERT is set to ON or when a replication user is inserting into a NOT FOR REPLICATION identity column."

Wie behebe ich das Problem?

...zum Beitrag

Python String nach neuer Zeile splitten?

Kann man ganze Sätze in einer Liste speichern? Wenn ja wie?

input = input("eingabe: ")
"""der text der eingegeben wird:
ich mag äpfel
äpfel sind sehr lecker
apfelkuchen ist toll
"""

Und es das soll in einer liste gespeichert werden

liste = ["ich mag äpfel",

"äpfel sind lecker",

"apfelkuchen ist toll"]

...zum Beitrag

Webseiten Scraper in Python?

Ich würde gerne einen WebScraper programmieren, jedoch bekomme ich es nicht hin. Ich würde gerne von einer Webseite die Frequenz von unserem Stromnetz auslesen, bekomme aber als Ausgabe nur "None". Hier ist mein Python-Code:

from bs4 import BeautifulSoup

import requests, time

url = f'https://www.apg.at/de/markt/Markttransparenz/Netzregelung/Netzfrequenz'

page = requests.get(url)

soup = BeautifulSoup(page.content, 'html.parser')

table = soup.find('h3', attrs={'class':'mb-0 text-danger ng-tns-c64-1'})

print(table)

Ich habe vor 2 Stunden mit Python angefangen, habe aber bereits gute Kenntnisse in C++ und Java etc. Hat jemand eine Idee, wie ich das Problem lösen kann oder hat jemand bereits was ähnliches programmiert?

LG

...zum Beitrag

Kann Python eine bestimmte Zeile drucken?

Tag zusammen,

ich möchte in dem Programm Python eine geschriebene Zeile drucken, aber ich will nicht einfach nur das Ergebnis der Zeile, sondern Python soll den gesamten Code der entsprechenden Zeile mitdrucken, ohne dass ich den Text selbst kopieren muss.

Gibt es dafür einen Befehl, der mir das Ganze vereinfacht?

Bspw.:

a = 1
b = 2
c = a + b
print(c) --> 3

Ich will aber nicht die 3 drucken, sondern ich suche nach einen Befehl, der die geschriebe Zeile, also

c = a + b

druckt.

...zum Beitrag

Python Datei schreiben funktioniert nicht?

Hallo. Ich wollte von einem Python Programm eine Datei schreiben lassen und habe diesen Code verwendet:

def file_write(text):
    global file
    with open(file, 'a+') as file_:
        file_.write('\n' + str(text))

Wenn ich aber nun diese Funktion ausführen und ihr einen Parameter übergeben möchte, kommt eine Fehlermeldung, mit der ich nicht viel Anfangen kann: File

"<Dateipfad>", line 19, in file_write

with open(file, 'a+') as file_:

TypeError: expected str, bytes or os.PathLike object, not TextIOWrapper

ich übergebe doch einen String, was mache ich falsch?

...zum Beitrag

Was möchtest Du wissen?

Deine Frage stellen