Website Quellcode mit bash auslesen?

Ich möchte mit einem bash-script den Quellcode einer Website auslesen, sodass ich als Ausgabe einen einzelnen Link (nur den Link) bekomme. Das Problem: der Link steht nicht allein in der Zeile Quellcode; sonst ginge ja einfach:

wget <a href="https://beliebige.website.de/">https://beliebige.website.de/</a> -O Datei.txt
grep [Link] Datei.txt

Leider wird dabei die ganze Zeile Quellcode ausgegeben. Wie kann ich nur einen speziellen Suchbegriff als Ausgabe bekommen? Möglich wäre auch, anzugeben, die wievielten Zeichen der Zeile (z.B. Zeichen 11-20) ausgegeben werden sollen.

Wie bewerkstellige ich das?

2 Antworten

TeeTier

02.09.2016, 07:15

Der "o" Schalter vom grep Kommando liefert dir "nur" den aktuellen Treffer, und nicht die Zeile.

Da grep aber keine Gruppen unterstützt, kannst du auch - falls du komplexere Dinge verarbeiten musst - zwei grep-Kommandos hintereinander hängen:

wget -qO- 'website.tld/pfad/datei.ext' | grep -oiP 'href="https?://[^"]+"' | grep -oiP 'https?://[^"]+'

Das "O-" leitet die heruntergeladene Datei auf die Standardausgabe um, also brauchst du keine temporäre Datei mehr. "-q" sagt wget einfach nur, dass du keine weiteren Ausgaben wünschst.

Das erste grep liefert alle href-Attribute, die eine absolute URL beginnend mit "http" oder "https" enthalten. Das zweite grep extrahiert den reinen Link.

(Falls du keine mächtigen Perl Regexen benötigst, kannst du auch auf die "-P" Option verzichten, und statt mehrere grep Kommandos durch Pipe, lieber mehrere Regexen durch "-e" verbinden!)

Viel Spaß! :)

nocheinnick

04.09.2016, 17:18

Ich würde es mit Stringoperatoren machen. Findest du hier:

http://tldp.org/LDP/abs/html/string-manipulation.html

entweder unter substring removal (mit Suchmuster wie "http:...") oder substring extraction (mit Positionsangaben).

Ähnliche Beiträge

Bash Script xlsx auslesen?

Hey,

ich habe folgendes Problem:

Ich möchte eine xlsx Datei auslesen, die datei ist so aufgebaut:

Unternehmen           Methode     Domain

Musterunternhemen     TLS         @beispiel.com

Den grep befehl zum suchen des Bereichs habe ich schon zum Teil.

grep -Po "[a-zA-Z0-9_-]*\.[a-z]{2,4}"

Doch fehlt mir noch die möglichkeit, dass nur die TLS ausgegeben werden.

Die Aufgabe: erstelle ein Bash Script welches nur die Domains ausließt, die die Methode TLS haben und diese dann ausgibt.

Das Notebook an dem ich die Aufgabe bekommen habe, hat kein zugriff aufs Internet. Es virtualiseirt eine Linux Mint worin ich arbeite.

Ich hoffe mir kann jemand helfen, komme gearde echt kein bisschen weiter.

...zum Beitrag

C# quellcode von einer Webseite auslesen?

Kann ich ein eine Windows Form, den quellcode einer Webseite auslesen?

...zum Beitrag

Batch Befehl Ausgabe in Variablen schreiben?

Ich möchte die Ausgabe von dem Befehl ipconfig als variable haben Quellcode:

@echo off

for /f "tokens=*" %%a in ('ipconfig') do set ausgabe=%%a

echo %ausgabe%

Dich ich kriege da der Befehl ipconfig eine mehrzeilige Ausgabe hat nur die letzte Zeile ausgegeben.

...zum Beitrag

Wie kann man bei Python .txt einlesen und bestimmte Zeilen ausgeben?

Hallo,

ich versuche mich an einen Python Script. Ich lese in das Script eine .txt wie folgt ein:

my_file=open("DATEI.txt")
file_contents=my_file.read()
print(file_contents)
my_file.close()

print(file_contents) zeigt mir dan natürlich auch die komplette .txt an.

Nun will ich aber nur Zeilen ausgeben, die einen besimmten Inhalt haben, zB. "Test123ABC" => Sollen nur die Zeilen ausgegeben werden, die auch "Test123ABC" enthalten.

Wie ist das den möglich - Ich bin noch recht neu in sachen Python?

LG. Manu

...zum Beitrag

Mit sed einen Teil einer Zeile ändern?

Folgendes Problem... ich versuche nun eine ganze Weile mit sed per bash script in einer Textdatei einen Teil einer Zeile zu ändern. Ich denke mal der Befehl
sed '/baz/s/foo/bar/g'
sollte das machen was ich möchte, tut es auch aber nur in der Ausgabe also STDOUT.
Wenn ich am Ende >> outputfile hinzufüge gibt es eine Fehlermeldung.
sed: -e Ausdruck #1, Zeichen 55: Unbekannte Option für `s'
Wie bekomme ich die Änderung nun in die ursrpüngliche Datei integriert?
Ich bin zwischenzeitlich schon auf awk ausgewichen aber leider auch erfolglos.
Jetzt bin ich ratlos und google liefert leider keine passenden Beispiele. :)

...zum Beitrag

Batch:komplette Zeile einer Text Datei einlesen?

Hallo, Ich habe schon in vielen Foren nachgeschaut. Habe zwar schon ein Programm Code für das auslesen einer bestimmten Zeile gefunden, es wird aber nur das erste Wort der angegebenen Zeile ausgelesen. Der Code sieht wie folgt aus: for /f %%a in ('more/e +%Zeilennr% ^< Datei.txt') do ( if not defined line set "line=%%a" ) Dieser Code liest aber wie schon gesagt nur das erste Wort der angegebenen Zeile aus. Kann Irgendjemand einen Programm Code posten, der die angegebene Zeile komplett ausliest und nicht nur das erste Wort? Vielen Dank!

...zum Beitrag

Shell/bash Programmierung Ubuntu Ausgabeumlenkung

Servus,

habe folgendes Problem:

Ich muss aus einer Dateit, deren Ausgabe folgendes beinhaltet:

ich brauche das was nach id ist, also in dem Fall unusedFunction, also mache ich:

awk -F\" '{print$6}' test.txt | grep -v '^$' > $value

das grep ist dazu da um die viele Leerzeichen zu löschen. Das Problem ist, dass hier :Mehrdeutige Umlenkung.

Kann mir sagen was das Problem ist? In eine datei umzulenken Funktioniert gut, weil dann steht unusedFunction, aber mit Variable klappt das nicht.

Danke für eure Hilfe

beste Grüße

...zum Beitrag

Wie viele Zeilen hat ein Programm (Quellcode)?

Ungewöhnliche frage, und wahrscheinlich nicht allgemein zu beantworten, aber wieviele Zeilen hat beispielsweise eine Website mit HTML/ CSS ..?

Vielleicht hat ja jemand ein Beispiel, bei dem er selbst eine Website programmiert hat, und hier etwas dazu sagen kann ?

...zum Beitrag

VisualBasic text von Website auslesen?

Hi, Ich habe es soweit geschafft:

Dim wc As New Net.WebClient TextBox1.Text = wc.DownloadString("http://lalala.com/wladkal.txt")

ABER, der Text ist in einer Reihe, alles auf auf einmal (sind mehrere Zeilen auf der Website) ich will aber bei jedem Knopfdruck die nächste Zeile.

...zum Beitrag

bash script: prüfen ob man in richtigem verzeichnis ist?

will das quasi so haben aber wie prüfe ich da links die ausgabe von pwd ? :

if [AUSGABE VON pwd == "/home/user3/ordner"]; then

...zum Beitrag

Bash: -bash: Zeile x: Syntax Fehler: Unerwartetes Dateiende.?

Hey Leute,

ich habe ein Script, welches von einem Debian System eine SSH Verbindung zu einem anderen System aufbaut. Wenn auf dem 2. System eine Datei existiert soll sie durch eine andere Datei ersetzt werden. Bei der zweiten if Abfrage ( if [ $? -ne 2 ] ) mäckert er rum: -bash: Zeile 5: Syntax Fehler: Unerwartetes Dateiende.

Weiß jemand, wo der Fehler ist? Sitze da jetzt schon Stunden dran und bin noch eher Anfänger... ^^

EDIT: Funktioniert jetzt! Hier das Script für die Leute, die es interessiert: http://hastebin.com/afikugarim.bash (Link zur nicht funktionierenden Version ist ganz unten)

...zum Beitrag

Bashskript Problem?

#!/bin/bash

echo "Typ des Betriebssystems = $OSTYPE"

# If-Schleife, die das Betriebssystem erkennt und den Pfad zum überwachten Ordner oder Datei festlegt

if [[ "$OSTYPE" == "linux-gnu"* ]]; then
    BASE_DIRECTORY="Linux-Ordner" 

elif [[ "$OSTYPE" == "darwin"* ]]; then
    BASE_DIRECTORY="/Users/name/Library/CloudStorage/GoogleDrive-eineemail@gmail.com/Meine Ablage/Uni/TestOrdner" 

elif [[ "$OSTYPE" == "win32" || "$OSTYPE" == "msys" || "$OSTYPE" == "cygwin" ]]; then
    BASE_DIRECTORY="/g/Meine Ablage/Uni/TestOrdner" 
    echo "Das Betriebssystem ist unbekannt."
    exit 1
fi

Ausgabe beim Ausführen des Skripts:

"Typ des Betriebssystems = msys

Das Betriebssystem ist unbekannt."

Die erste Zeile ist korrekt, aber die zweite Zeile sollte so nicht sein. Ich bin auf meinem WindowsPC und habe einen existenten Pfad eingefügt. Dennoch erkennt das Skript das Betriebssystem nicht.

...zum Beitrag

Mit Java eine Website auslesen?

Hallo, Ich suche eine Methode in Java, welche Texte von Internetseiten auslesen kann (z.B. von Zeile xx bis xy) und diese in einem String abspeichert. Das Programm soll aber nicht den Quelltext auslesen, sondern den "fertigen" Text.

...zum Beitrag

Wie kann ich bei Ubuntu die Farben der Ausgabe im Terminal einstellen /bin/bash?

Ich möchte das zum Beispiel die Textdateien in einer anderen Farbe ausgegeben werden als zum Beispiel die Skripte.

Wie einstellen ? über die GUI ging nicht

...zum Beitrag

Was möchtest Du wissen?

Deine Frage stellen