Python: .pdf aus https Umgebung herunterladen?

Hallo angenommen man hat eine https-Umgebung, etwa ein Intranet, welches damit läuft.

Angenommen man möchte nun via Python eine bestimmte url, etwa 'https:\\www.intranet\09.pdf' aufrufen.

Der Nutzer hat sich bei diesem Fall bereits einmal registriert/angemeldet.

Ich möchte die .pdf direkt herunterladen.

Wie gehe ich vor ?

Ich habe schon einige Lösungen ausrobiert aber irgendwie ging bisher keine der Lösungen.

2 Antworten

DasZitrone

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

Computer

19.12.2022, 15:17

Um eine PDF-Datei aus einer https-Umgebung herunterzuladen, können wir die Python-Bibliothek `requests` verwenden. Hier ist der Code dafür:

# Importiere die requests-Bibliothek
import requests


# Speichere die URL der PDF-Datei in einer Variablen
url = 'https://www.intranet/09.pdf'


# Sende eine HTTP GET-Anfrage an die URL und speichere die Antwort
response = requests.get(url)


# Öffne eine neue Datei mit dem Namen "09.pdf" im Write-Binary-Modus und schreibe den Inhalt der Antwort hinein
with open('09.pdf', 'wb') as f:
    f.write(response.content)

Wenn wir uns bereits bei der https-Umgebung registriert/angemeldet haben, sollte dieser Code in der Lage sein, die PDF-Datei erfolgreich herunterzuladen. Wenn wir jedoch auf eine geschützte Ressource zugreifen möchten, für die eine Authentifizierung erforderlich ist, müssen wir möglicherweise zusätzliche Schritte unternehmen, um uns beim Server zu authentifizieren. Dies könnte zum Beispiel das Hinzufügen von Cookies oder das Übermitteln von Anmeldeinformationen in den HTTP-Header der Anfrage umfassen.

----------------------------------------------------------------------------------------
Um sich zusätzlich bei einer https-Umgebung anzumelden und danach eine PDF-Datei herunterzuladen, ist hier eine überarbeitete Version des Codes:

 # Importiere die requests-Bibliothek
import requests


# Speichere die URL der Anmeldeseite und der PDF-Datei in Variablen
login_url = 'https://www.intranet/login'
pdf_url = 'https://www.intranet/09.pdf'


# Erstelle ein Dictionary mit den Anmeldeinformationen
login_data = {'username': 'myusername', 'password': 'mypassword'}


# Sende eine HTTP POST-Anfrage an die Anmelde-URL mit den Anmeldeinformationen
# und speichere die Antwort (diese enthält möglicherweise Cookies, die für die Authentifizierung benötigt werden)
login_response = requests.post(login_url, data=login_data)


# Sende eine HTTP GET-Anfrage an die URL der PDF-Datei und speichere die Antwort
pdf_response = requests.get(pdf_url, cookies=login_response.cookies)


# Öffne eine neue Datei mit dem Namen "09.pdf" im Write-Binary-Modus und schreibe den Inhalt der Antwort hinein
with open('09.pdf', 'wb') as f:
    f.write(pdf_response.content)

In diesem Beispiel senden wir zunächst eine HTTP POST-Anfrage an die Anmelde-URL mit unseren Anmeldeinformationen. Die Antwort enthält möglicherweise Cookies, die wir für die Authentifizierung bei zukünftigen Anfragen verwenden müssen. Wir speichern diese Cookies in einer Variablen und übergeben sie dann als Argument an die `cookies` -Option, wenn wir die HTTP GET-Anfrage an die URL der PDF-Datei senden. Auf diese Weise werden die Cookies mit der Anfrage übermittelt und der Server kann uns authentifizieren.

Woher ich das weiß:Studium / Ausbildung – Hochschulabschluss in Informatik (MSc)

maowb84

Fragesteller

20.12.2022, 07:10

Danke Teil 1 klappt leider schonmal nicht. Ich hatte früher auch schonmal etwa so versucht das Problem zu lösen; leider erfolglos. Teil 2 schau ich mir die Tage mal an, jedoch unsere URL die irgendwann so enden '[..bla....]04_(001)_MF.pdf?csf=1&web=1&e=H7g7yt' scheinen nicht eindeutig bezeichnet zu sein. versuche ich die MF.pdf dann anzuwählen passiert beim Ausführen meines Skriptes: rein gar nix (ich teste in einem größeren Projekt von mir, wo ich wenn etwas nich geht direkt im Ausgangsmenü lande).

maowb84

Fragesteller

20.12.2022, 07:13

@maowb84

Ich glaube es liegt an den URLs. Hatte sogar schonmal versucht das entsprechende DOkument via OneDrive über unser Intranet zu linken. Auch hier erfolglos -.-

elmex7

Nutzer, der sehr aktiv auf gutefrage ist

im Thema Webseite

20.12.2022, 14:11

Was sagen denn eventuelle Fehlermeldungen? Hat das "Intranet" vielleicht selbst signierte Zertifikate? Mal SSL verify ausgeschaltet?

Hey Leute,

ich habe eine Frage zu Python und BeautifulSoup. Mein Webcrawler funktioniert eigentlich ganz gut, nur wenn ich damit versuche, Video-URLs zu extrahieren, geht nichts.

def get_linked_urls(self, url, html):
  soup = BeautifulSoup(html, 'html.parser')
  for link in soup.find_all('a'):
    path = link.get('href')
    print(path)

    if path and path.startswith('/watch?'):
      path = urljoin(url, path)

    yield path

"commandMetadata": {
  "webCommandMetadata": {
    "url": "/watch?v=HmP_wGYw1_g\u0026list=PLu0ocO48LFms5WsI1ipaeanxqRjn2fC_5\u0026index=2",

Ich habe vergessen, dass JavaScript natürlich ausgeführt wird, also funktioniert es nicht, wenn ich die Elemente anspreche, die ich unter den untersuchten Elementen gefunden habe.

Hat jemand eine Idee, was ich an dem Code verändern müsste, damit der alle /watch-Links extrahiert und diese ausgibt?

Gut wäre, wenn man noch https://www.youtube.com hinzufügen könnte.

...zur Frage

Anyflip/FLIPHTML5 Flipbook als PDF herunterladen?

Ich versuche seit längerem dieses Flipbook:

https://musikedition.musikland-tirol.at/musikeditionneu/Stadlmayr/Eng_Stadlmayr_apparatusmusicus/

Als Pdf herunterzuladen und habe gefühlt jeden Converter oder ähnliches versucht komme aber nicht weiter. Bitte helft mir dabei :)

...zur Frage

Was soll ich alles auf Fiverr anbieten (Jugendlicher, Programmierer)?

Hi.

Also ich würde ganz gerne etwas Geld verdienen, vor allem durch's Programmieren. Problem: Ich mache meine Mittlere Reife erst in 2 1/2 Jahren, da ich durch Corona und Inkomepetenz 2. mal eine Klasse wiederholen musste.

Mir wurde mal vorgeschlagen, mich auf Fiverr zu registrieren. Jetzt frage ich mich aber, was ich am besten anbieten sollte. Ich erzähl hier einfach mal, was ich schon so für Zeug gemacht habe, damit ihr wisst, was ich so kann.

Ich hab mit folgenden Dingen schon gearbeitet (also relativ intensiv):

Neuronale Netzwerke (relativ "neu") [Tensorflow, Python]
Minecraft Plugins [Spigot API, Java]
Webseiten (static und und dynamic) [HTML, CSS, JavaScript, Python/PHP/C++]
Automatisierungen (vor allem Webseiten) [Selenium, Python]
Scrapper [BeatifulSoup, Python]
Discord API (z.B. um Daten über User zu kriegen)
Discord Bots [Python und Java, von Scratch und mit Library]
MySQL Datenbanken [Python, C#]
SQLite Datenbanken [Python, C#, Java]
WinForms [C#]
WPF [C#]
REST API's (um genau zu sein eigene gemacht und die Discord API verwendet)
win32.dll [Python, C++, C#]
YouTubeDLL [Python]
Spotify API (z.B. zum Song wechseln, oder Song Daten anzufragen)

Als übersicht, ich "kann" folgende Programmiersprachen (ich weiß, HTML und CSS sind keine Programmiersprachen) [Sortiert nach Skill]:

Python
C#
Java
PHP
HTML/CSS/JavaScript <- Alles relativ gleich gut
C++ (Simple Sachen, wie Web Server)

Wenn man beachtet, was ich kann. Was würdet ihr mir zum anbieten, auf Fiverr, empfehlen?

Danke im vorraus und lg.

...zur Frage

Python neun tab mit urlabfrage öffnen?

Moin.

Vorab Entschuldigung für den Grad nicht umfangreich fragen title.

also er hat Eine liste mit url die soll er abfragen. Und sobald Die url sich ändert soll er neue tab mit der neuen url aus der url list öffnen. habe auch schon einen code dazu aber komme nicht mehr weiter.
from urllib import response

from requests import get

import time

import webbrowser

url_list = ["https://www.google.com/", "https://www.youtube.com/",

"https://www.facebook.com/", "https://www.instagram.com/", "https://www.twitter.com/"]

webbrowser.open(url_list[0])

while True:

response = get(url_list[0])

print(response.status_code)

if response.status_code != 200:

url_list.pop(0)

if len(url_list) == 0:

break

webbrowser.open(url_list[0])

continue

time.sleep(30)

...zur Frage

Python requests findet Seite nicht?

Hi ich nutze requests um eine Suchanfrage auf einer Seite zu starten.
Wenn ich den Link über den Brower öffne finde ich den gesuchen inhalt.

Wenn ich nun den gleichen link über python requests aufsuche finde ich keinen Inhalt.
Ich bin absolut verzweifelt.

Link:
https://saddle-world-online.de/wp-json/wp/v2/media?search=ex_18-13_schwarz

Ich nutze folgenden Code:

import requests

url =  'https://saddle-world-online.de/wp-json/wp/v2/media?search=ex_18-13_schwarz'
response = requests.get(url)
result = response.json()

Ergebnis: []

...zur Frage

Welches CMS System nutzt YouTube?

Hi,

Ich würde gerne wissen, welches CMS System YouTube nutzt.

Ich hoffe meine Frage ergibt Sinn.

Danke im Voraus!

...zur Frage

Programmiert ihr auf einem Laptop oder Tower PC?

Hi.

Ich liebe es an einem richtigen Setup zu programmieren, zwei Monitore, Größe Tastatur und viel Platz. So find ich das ganze immer schön angenehm. Aber es gibt auch viele, die auf Laptops programmieren. Jetzt sind meine Fragen an euch:

- Auf was programmiert ihr?

- Wieso dort?

- Was (Sprachen)

Alter währe btw. auch ganz interessant, danke im vorraus.

...zur Frage

Kann man Python algorithmen in xCode (mit Swift) nutzen?

Hey, ist es möglich einen mit Python in Pycharm geschriebenen Algorithmus als Framework oder so in ein iOS Projekt einzubauen? Also angenommen man entwickelt einen revolutionären Algorithmus und möchte diesen dann über eine iOs App (evtl. auch Android) nutzen und so unter die Leute bringen. Geht das? Und wie funktioniert das in etwa?

Liebe Grüße und Vielen Dank im Vorraus!

...zur Frage

Warum wird mein Python Programm als Virus gekennzeichnet?

Jetzt haut er mir de Defender diese Meldung raus: Trojan:Win32/Sabsik.FL.A!ml
Aber das ist mein Skript und ist kein Trojaner.
Das schreckt ab und es wird keiner installieren. Es ist 100% kein Virus! Was soll also diese Meldung?

Hier der Link zu meinem Programm zum Herunterladen:
https://mega.nz/file/lPAAFYib#yaBxSYmZLmbREUHVWa2ll1ZbuTTWUouYTo8yDapuA0Q

Bitte Hilfe.

...zur Frage

Wie fange ich mit Programmieren lernen an?

...zur Frage

Der Start in die Programmierung, gute Tipps?

Moin Leute,

bin am Anfang meiner Reise in die Welt der Programmierung: Station: HTML und CSS - danach kommt Javascript.

Welche Sprachen nutzt ihr und für welche Art von Programmierung? Was haltet ihr von Go und Rust und wofür verwendet ihr diese Sprachen?

In welche Richtung es mich am Ende verschlägt, weiss ich noch nicht. Deshalb wäre es cool, wenn ihr mir die Fragen oben beantworten könntet.

Besten Dank und einen wundervollen Abend euch allen.

...zur Frage

Frage zu Selenium (Bot Entwicklung)?

Ich würde mich gerne zu einer Veranstaltung anmelden, wo es leider nur limitierte Plätze gibt. Bei den letzten Terminen war ich leider immer zu spät dran, weshalb ich fragen wollte, ob es möglich ist einen Bot zu programmieren der mich automatisch anmeldet, wenn eine neue Veranstaltung verfügbar ist. (Der Bot muss nur meinen Namen, Adresse & Telefonnummer auf der Webseite eingeben und das möglichst schnell.) Jetzt wollte ich fragen, ob das vielleicht mit Selenium möglich ist dass ich so einen Bot programmiere? Und falls ja wie lange das ungefähr dauern würde? Eher ein paar Tage oder Monate? (Ich kann bereits die Grundlagen in Java und C).

Würde mich sehr über eine Antwort freuen. :)

Liebe Grüße

Terroka

...zur Frage

Guter Anbieter für Domain und Web Hosting bei dem man mit HTML/CSS und JS selber seine Webseite erstellen kann?

Hallo kennt da jemand ein guter?
Es muss nur so einfach wie möglich sein aber ich will alles selber programmieren mit HTML CSS und JavaScript also sowas wie Wordpress oder ähnliches will ich gar nicht.

...zur Frage

Text unter Bild in HTML hinzufügen?

Ich habe ein Bild. Darunter habe ich ein Text platziert. Allerdings geht der Horizontal von links nach rechts, was es auch soll. Nur soll er da anfangen, wo auch das Bild beginnt und enden, wo das Bild endet. In den zwei Bildern könnt ihr erkennen, wie es es gerade habe und nicht will und wie ich es gerne haben würde.

<!DOCTYPE html>
<html>
<head>
    <title>Film- und Serienbeschreibungen</title>
  


  <style>
    img {
        display: block;
        margin: 0 auto;
        width: 1000px;
        border-radius: 10px;
    }


    body {
        text-align: center;
    }


    p {
        
    }
  </style>
</head>
  <body>
    <img src="mrrobotscene.jpg">
    <h1>Mr. Robot - Beschreibung</h1>
    <p>Mr. Robot ist eine US-amerikanische Fernsehserie, die von Sam Esmail entwickelt wurde. Die Serie handelt von Elliot Alderson, einem jungen Programmierer, der für eine Cyber-Sicherheitsfirma arbeitet und in seiner Freizeit zum Hacker wird. Elliot leidet unter sozialen Ängsten und Depressionen und verfällt in eine Art Schizophrenie, die von seinem imaginären Freund, Mr. Robot, ausgelöst wird</p>
    
  </body>
</html>

...zur Frage

Was möchtest Du wissen?

Deine Frage stellen