Wieso kann ich die Video URL nicht extrahieren?

Ich habe folgendes Programm für die Seite Vivo geschrieben, dies soll in erster Linie die url aus der Hauptseite extrahieren, da ich für den rest schon alles habe. Ich habe hierfür lxml benutzt, da bs4 keine xpaths unterstützt und ich keinen browser starten möchte also ist selenium auch raus. Das hier ist mein derzeitiger Code:

import requests

import lxml.html

mainurl = "https://vivo.sx/videoid"

html = requests.get(mainurl + "/")

doc = lxml.html.fromstring(html.content)

xpath1 = doc.xpath('//video/@src')

print(xpath1)

Ich bekomme aber nur "[]" zurück. wie kann ich mir den inhalt von //video/@src anzeigen lassen, da sich dort die videourl befindet.

Mfg Elias

1 Antwort

regex9

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

Python

13.08.2020, 03:09

Die Inhalte werden doch bestimmt mit JavaScript erst später in die Seite geladen. Versuche es mit der requests-html-Bibliothek. Erst holst du dir den Response, dann renderst du diesen (wie das geht, wird auf der verlinkten Seite gezeigt) und parst daraufhin. XPath-Selektoren unterstützt die Bibliothek ebenso.

Ähnliche Beiträge

Python Selenium xpath ul / li?

Hallo Zusammen,

ich versuche aktuell über Selenium eine Website auszulesen. Zum Auslesen nutze ich Selenium xpath. Es geht um folgende Bespielseite: https://www.westernwelt.com/Cowboyhut-3X-von-Resistol-aus-Filz_1

Der von Chrome kopierte xpath lautet:
//*[@id="product-offer"]/div[2]/div/div[2]/div[2]/div/dl/dd[2]/div/div/div/ul/li[3]/a/span/span/span

Sobald in diesem Pfad ein ...ul/li/... vorkommt bekomme ich keine Ergebnisse mehr. Wo ist hier mein Denkfehler?

from selenium import webdriver
from selenium.webdriver.common.by import By#

url= 'https://www.westernwelt.com/Cowboyhut-3X-von-Resistol-aus-Filz_1'

driver = webdriver.Chrome()
driver.get(url)

xpath = '//*[@id="product-offer"]/div[2]/div/div[2]/div[2]/div/dl/dd[2]/div/div/div/ul/li[3]/a/span/span/span'
elements = driver.find_element(by=By.XPATH, value=xpath)

...zum Beitrag

Wie kan nich das Kachel problem lösen?

import requests

from bs4 import BeautifulSoup

import csv

output_file = csv.writer(open('prem_table_bs.csv', 'w'))

output_file.writerow(['Position', 'Team', 'Played', 'Won', 'Drawn', 'Lost', 'For', 'Against', 'GD', 'Points'])

result = requests.get("https://www.bbc.co.uk/sport/football/tables")

src = result.content

soup = BeautifulSoup(src, 'html.parser')

table = soup.find_all("table")

league_table = table[0]

teams = league_table.find_all("tr")

for team in teams[1:21]:

stats = team.find_all("td")

position = stats[0].text

team_name = stats[2].text

played = stats[3].text

won = stats[4].text

drawn = stats[5].text

lost = stats[6].text

for_goals = stats[7].text

against_goals = stats[8].text

goal_diff = stats[9].text

points = stats[10].text

output_file.writerow([position, team_name, played, won, drawn, lost, for_goals, against_goals, goal_diff, points])

...zum Beitrag

OpenWeatherMap Python?

import requests

API_KEY = "xyz"

city = "Berlin"

url = 'https://api.openweathermap.org/data/2.5/weather?q={city}&appid={API_KEY}&units=metric'

data = requests.get(url).json()

temp = ['main']['temp]-273.15

print('Temperatur: ' + temp )

Code gibt es so im Internet. Allerdings kommt bei mir folgender Error:

Traceback (most recent call last):

File "/xyz/wetter.py", line 9, in <module>

temp = data['main']['temp']-273.15

KeyError: 'main'

Irgendwelche Ideen an was das liegen kann?

...zum Beitrag

Videos bei Vivo mit Linux herunterladen?

Nachdem https://video-download.co/site/vivo.sx wohl nicht mehr funktioniert,
onlinevideoconverter.com, als auch youtube-dl (über das Terminal) keine vivo-Videos annehmen und
das Firefox Plug-in "Video Download Helper" immer nach ca. 30 % abbricht, suche ich einen neuen Weg um an Videos bei vivo zu kommen.
Wer hat mit Linux diesbezüglich Erfahrungen gemacht?
Mit dem Video Download Helper, direkt über Firefox, funktionierte es bis vor einem Monat eigentlich immer recht gut. Doch jetzt bricht es einfach immer wieder ab.
Ich benutze Linux Mint 18.3 Cinnamon (auf einem Acer Aspire E 15).
Die Datei an die ich seit Wochen versuche heranzukommen ist:
https://vivo.sx/7f5ce8b0ac
Vielen Dank!

...zum Beitrag

Python Selenium findet Button nicht?

Hi, ich habe ein Script geschrieben welches nacheinander auf verschiedene Buttons klickt und sich einloggt. Beim letzen Button kommt allerdings immer die Fehlermeldung, dieser sei nicht gefunden worden. Habe es sowohl mit Link_Text als auch mit ID versucht.

from selenium import webdriver
from selenium.webdriver.common.by import By
import selenium.webdriver.common
import selenium.webdriver.common.actions
from selenium.webdriver.support import expected_conditions as EC
from pynput.keyboard import Key, Controller
import time
from selenium.webdriver.support.wait import WebDriverWait
import win32clipboard

keyboard = Controller()

PATH = "C:\Program Files (x86)\chromedriver.exe"
driver = webdriver.Chrome(PATH)

driver.get("https://04101643.moodle.belwue.de/moodle/blocks/exa2fa/login/")
driver.maximize_window()

username = driver.find_element_by_id("username")
password = driver.find_element_by_id("password")

username.send_keys("---")  #Name und Passwort hab ich natürlich nur zum hochladen hier entfernt ;)
password.send_keys("---")

login = driver.find_element_by_id("loginbtn")
login.click()

time.sleep(5)

fach = driver.find_element_by_partial_link_text("Mathematik")
fach.click()

time.sleep(3)

bbb = driver.find_element_by_xpath('//img[contains(@src,"https://04101643.moodle.belwue.de/moodle/theme/image.php/boost/bigbluebuttonbn/1609841251/icon")]')
bbb.click()

time.sleep(3)

teilnehmen = driver.find_element_by_id("join_button_input")
teilnehmen.click()

time.sleep(5)

keyboard.press(Key.ctrl)
keyboard.press('l')
time.sleep(1)
keyboard.release(Key.ctrl)
keyboard.release('l')
time.sleep(1)
keyboard.press(Key.ctrl)
keyboard.press('c')
time.sleep(1)
keyboard.release(Key.ctrl)
keyboard.release('c')

win32clipboard.OpenClipboard()
page = win32clipboard.GetClipboardData()    #Muss man hier das Fenster wechseln?
win32clipboard.CloseClipboard()             #Hinweis beim Klicken auf den vorherigen Button wird der Link in einem neuen Tab geöffnet

driver.get(page)                                 #Hier geht es dann zu BigBlueButton (Videochat Seite) auf der der letzte Button gedrückt werden soll

time.sleep(1)

keyboard.press(Key.ctrl)
keyboard.press('w')
time.sleep(1)
keyboard.release(Key.ctrl)
keyboard.release('w')

time.sleep(3)

mode = driver.find_element_by_partial_link_text("Nur")  #Den hier findet es nicht (falls es jemand kennt: Ist der ,,Nur zuhören" Button von BigBlueButton, habe den Code leider nicht da
mode.click()

Für Hinweise oder Lösungen des Problems wäre ich sehr dankbar. Falls es Unklarheiten gibt, gerne einen Kommentar schreiben.

...zum Beitrag

Selenium WebDriver wird von Instagram erkannt?

Ich benutze Selenium um einen headless Chrome browser zu starten und dann auf eine Instagram video seite zu gehen um die url des quellvideos zu scrapen.

Das geht auch ohne Probleme. Aber sobald es zur url des kontos navigiert, wird Selenium sofort von Instagram erkannt und meine ip-adresse wird direkt blockiert.

Manipulation des user agents, Löschung der js signatur, deaktivierung experimenteller Optionen usw. helfen nicht. Außerdem bewegt sich der Scraper auf der Webseite langsam mit zufälligen delays, womit es eigentlich keine Anzeichen für einen Bot gibt.

Woran könnte es liegen?
Ist ein Proxy wirklich das einzige was hier noch hilft

...zum Beitrag

Wieso findet mein Programm die Cookies nicht(Java, Selenium)?

Hallo,ich arbeite grad an einem Programm und zwar an einem Automatischen Login weil ich das bald im Büro brauch deswegen benutzte ich aktuell als Testseite phase6.deIch greife auf die Website zu das ist kein Problem auch innerhalb dort kann ich alles steuern login ausführen auf buttons klicken etc. Doch das kann ich erst machen wenn die Cookies akzeptiert sind und mein Programm findet egal mit welchem Code die Cookies der Website nicht, wenn ich sie manuell anklicke geht der rest wieder ohne probleme, aber die Cookies machen mir zuschaffenKann mir da jemand helfen, was für Cookies das sind und wie ich darauf zugreife habe es schon mit dem xpath, cssSelector, name, id alles versucht import org.openqa.selenium.By;

Das ist mein aktueller Code(keine Cookie abfrage aktuell drin da ich testen wollte ob wenn ich manuell draufklicke dann buttons gefunden werden

import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.edge.EdgeDriver;
import org.openqa.selenium.*;

import java.util.Set;
import java.util.concurrent.TimeUnit;


public class EdgeLogin {
    public static void main(String[] args) {
        // Setze den Pfad zum Microsoft Edge WebDriver
        System.setProperty("webdriver.edge.driver", "C:\\Users\\A020451\\EigeneDateien\\EdgeLogin\\msedgedriver.exe");

        // Erzeuge eine neue Instanz des EdgeDriver
        WebDriver driver = new EdgeDriver();

        // Navigiere zur Phase6-Website
        driver.get("https://www.phase6.de");



        try {
            TimeUnit.SECONDS.sleep(5);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }



        // Maximiere das Browserfenster
        driver.manage().window().maximize();

        try {
            TimeUnit.SECONDS.sleep(1);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }


        driver.findElement(By.cssSelector(".p6-icon-login")).click();


    }
}

Das ist der HTML-Code von dem Button auf der main html seite

<button id="acceptAllCookies" class="btn btn-primary" onclick="setGdprCookieAll();closeThisModal()" xpath="1">
::before
<span class="icon_check hide"></span>
::after
</button>

...zum Beitrag

Webseiten Scraper in Python?

Ich würde gerne einen WebScraper programmieren, jedoch bekomme ich es nicht hin. Ich würde gerne von einer Webseite die Frequenz von unserem Stromnetz auslesen, bekomme aber als Ausgabe nur "None". Hier ist mein Python-Code:

from bs4 import BeautifulSoup

import requests, time

url = f'https://www.apg.at/de/markt/Markttransparenz/Netzregelung/Netzfrequenz'

page = requests.get(url)

soup = BeautifulSoup(page.content, 'html.parser')

table = soup.find('h3', attrs={'class':'mb-0 text-danger ng-tns-c64-1'})

print(table)

Ich habe vor 2 Stunden mit Python angefangen, habe aber bereits gute Kenntnisse in C++ und Java etc. Hat jemand eine Idee, wie ich das Problem lösen kann oder hat jemand bereits was ähnliches programmiert?

LG

...zum Beitrag

Geld nebenbei verdienen?

Mein großes Hobby ist programmieren (ich bin noch in der Schule), und nachdem ich meinem studierenden Bruder einen großen Teil seiner Arbeit durch einen Bot erleichtert habe, dachte ich, ich muss doch mit so etwas bestimmt ein wenig Geld verdienen können.
Ich denke der erste Gedanke wäre nebenbei Freelancing, aber ohne Abschluss wird das eher nichts, oder?
Danke für eure Hilfe

...zum Beitrag

API Request geht nicht?

Ich verstehe nicht ganz warum meine Anfrage immer nur mit einer Standard-Antwort (paar random Lebensmittel) beantwortet wird. Kann jemand erfahrenes mir weiterhelfen?
Die Dokumentation hilft mir gerade gar nicht weiter.

https://openfoodfacts.github.io/openfoodfacts-server/api/ref-v2/#get-/api/v2/search

import requests, requests.utils
import os
product = input("Wie heißt das Produkt? ")
encoded_product = requests.utils.quote(product)
url = f"https://world.openfoodfacts.org/api/v2/search?product_name=fuze+tea&fields=product_name"

response = requests.get(url)

with open("response.json", "w") as file:
    file.write(response.text)

    
print(response.json())

...zum Beitrag

Python wie löse 'NoneType' object is not subscriptable?

Hallo!

Ich schreibe ein kleines Pythonprogramm, das als Web Crawler fungieren soll.Leider erhalte ich in Zeile 36 ein Fehler:

  brand = make_rating_sp[0].img["title"].title()
TypeError: 'NoneType' object is not subscriptable

Leider, finde ich keine Lösung. Wie könnte ich diesen Fehler lösen? Danke im Voraus!

make_rating_sp[0].img is None.

from bs4 import BeautifulSoup as soup  # HTML data structure
from urllib.request import urlopen as uReq  # Web client

# URl to web scrap from.
# in this example we web scrap graphics cards from Newegg.com
page_url = "http://www.newegg.com/Product/ProductList.aspx?Submit=ENE&N=-1&IsNodeId=1&Description=GTX&bop=And&Page=1&PageSize=36&order=BESTMATCH"

# opens the connection and downloads html page from url
uClient = uReq(page_url)

# parses html into a soup data structure to traverse html
# as if it were a json data type.
page_soup = soup(uClient.read(), "html.parser")
uClient.close()

# finds each product from the store page
containers = page_soup.findAll("div", {"class": "item-container"})

# name the output file to write to local disk
out_filename = "graphics_cards.csv"
# header of csv file to be written
headers = "brand,product_name,shipping \n"

# opens file, and writes headers
f = open(out_filename, "w")
f.write(headers)

# loops over each product and grabs attributes about
# each product
for container in containers:
    # Finds all link tags "a" from within the first div.
    make_rating_sp = container.div.select("a")

    # Grabs the title from the image title attribute
    # Then does proper casing using .title()
    brand = make_rating_sp[0].img["title"].title()

    # Grabs the text within the second "(a)" tag from within
    # the list of queries.
    product_name = container.div.select("a")[2].text

    # Grabs the product shipping information by searching
    # all lists with the class "price-ship".
    # Then cleans the text of white space with strip()
    # Cleans the strip of "Shipping $" if it exists to just get number
    shipping = container.findAll("li", {"class": "price-ship"})[0].text.strip().replace("$", "").replace(" Shipping", "")

    # prints the dataset to console
    print("brand: " + brand + "\n")
    print("product_name: " + product_name + "\n")
    print("shipping: " + shipping + "\n")

    # writes the dataset to file
    f.write(brand + ", " + product_name.replace(",", "|") + ", " + shipping + "\n")

f.close()  # Close the file

...zum Beitrag

PermissionError: [WinError 5] Zugriff verweigert?

Hi ich weiß nicht wie ich das Problem lösen soll. Ich führe Python als Administrator aus. (Win 7)

Code:

from selenium import webdriver

import time

url = 'https://youtube.com/'

driver = webdriver.Chrome(r'C:\Users\Lars\Downloads\chromedriver_win32')

driver.get(url)

Fehler:

Traceback (most recent call last):

File "C:\Program Files (x86)\Python37-32\lib\site-packages\selenium\webdriver\common\service.py", line 76, in start

stdin=PIPE)

File "C:\Program Files (x86)\Python37-32\lib\subprocess.py", line 775, in __init__

restore_signals, start_new_session)

File "C:\Program Files (x86)\Python37-32\lib\subprocess.py", line 1178, in _execute_child

startupinfo)

PermissionError: [WinError 5] Zugriff verweigert

During handling of the above exception, another exception occurred:

Traceback (most recent call last):

File "C:\Users\Lars\Desktop\emails.py", line 5, in <module>

driver = webdriver.Chrome(r'C:\Users\Lars\Downloads\chromedriver_win32')

File "C:\Program Files (x86)\Python37-32\lib\site-packages\selenium\webdriver\chrome\webdriver.py", line 73, in __init__

self.service.start()

File "C:\Program Files (x86)\Python37-32\lib\site-packages\selenium\webdriver\common\service.py", line 88, in start

os.path.basename(self.path), self.start_error_message)

selenium.common.exceptions.WebDriverException: Message: 'chromedriver_win32' executable may have wrong permissions. Please see https://sites.google.com/a/chromium.org/chromedriver/home

...zum Beitrag

Video stream lädt nicht im chrome browser?

Hi
Hab ein kleines Problem, wenn ich Videos von streaminganbietern wie z.b Vivo etc abspielen will, lädt der Browser Chrome das Video nicht. Allerdings wenn ich die URL in edge beispielsweise einfüge funktioniert alles tadellos! Am Router liegt es daher nicht (keine Sperre etc.) Chrome wurde bereits neu installiert.
Youtube, Twitch etc geht alles!
An der Netzwerkgeschwindigkeit liegts auch nicht! Bandbreite 50k / meist 6.0 - 6.6 MB/s.

...zum Beitrag

DOCKER Fehlermeldung: TypeError: function() argument 'code' must be code, not str, was tun?

Hallo, ich mit einem YouTube video eine kleine FastApi App geschrieben. Dann habe ich sie als ein Docker gebaut. Wenn ich diesen nun starte bekomme ich die im Titel stehende Fehlermeldung. `Ich habe schon ganz Google nach einer Möglichkeit durchgesucht aber leider keine Lösung gefunden. Vll. hat ja einer von euch 'ne Idee.

DER CODE:

from fastapi import FastAPI
from app.model.test import Upscale

app = FastAPI()

class TextIn(Upscale):
    org_url: str


class TextOut(Upscale):
    url: str



@app.get("/")
def home():
    return {"health_check": "OK"}

@app.post("/post", response_model=TextOut)
def UpSc(payload: TextIn):
    textwrap = Upscale(payload.org_url)
    return {"url": "url"}

KOMPLETTER TRACEBACK: `

Traceback (most recent call last):
  File "/usr/local/lib/python3.9/site-packages/gunicorn/arbiter.py", line 589, in spawn_worker
    worker.init_process()
  File "/usr/local/lib/python3.9/site-packages/uvicorn/workers.py", line 66, in init_process
    super(UvicornWorker, self).init_process()
  File "/usr/local/lib/python3.9/site-packages/gunicorn/workers/base.py", line 134, in init_process
    self.load_wsgi()
  File "/usr/local/lib/python3.9/site-packages/gunicorn/workers/base.py", line 146, in load_wsgi
    self.wsgi = self.app.wsgi()
  File "/usr/local/lib/python3.9/site-packages/gunicorn/app/base.py", line 67, in wsgi
    self.callable = self.load()
  File "/usr/local/lib/python3.9/site-packages/gunicorn/app/wsgiapp.py", line 58, in load
    return self.load_wsgiapp()
  File "/usr/local/lib/python3.9/site-packages/gunicorn/app/wsgiapp.py", line 48, in load_wsgiapp
    return util.import_app(self.app_uri)
  File "/usr/local/lib/python3.9/site-packages/gunicorn/util.py", line 359, in import_app
    mod = importlib.import_module(module)
  File "/usr/local/lib/python3.9/importlib/__init__.py", line 127, in import_module
    return _bootstrap._gcd_import(name[level:], package, level)
  File "<frozen importlib._bootstrap>", line 1030, in _gcd_import
  File "<frozen importlib._bootstrap>", line 1007, in _find_and_load
  File "<frozen importlib._bootstrap>", line 986, in _find_and_load_unlocked
  File "<frozen importlib._bootstrap>", line 680, in _load_unlocked
  File "<frozen importlib._bootstrap_external>", line 850, in exec_module
  File "<frozen importlib._bootstrap>", line 228, in _call_with_frames_removed
  File "/app/app/main.py", line 6, in <module>
    class TextIn(Upscale):
TypeError: function() argument 'code' must be code, not str

in meinen requirements.txt steht:

fastapi
boto3
opencv-contrib-python-headless
opencv-python-headless
numpy

ich nutzte Python 3.9 habe es aber auch ohne Erfolg mit anderen Version probiert.

...zum Beitrag

Was möchtest Du wissen?

Deine Frage stellen