Python zwei TXT Dateien vergleichen und ergänzen?

Hallo,

ich habe zwei Textdateien, in denen untereinander Wörter stehen. Leider sind die beiden ziemlich vermischt. Wie bekomme ich es hin, dass ein Python Script alle Wörter aus Datei 2 in Datei 1 ergänzt, wenn das Wort noch nicht in dieser vorkommt?

4 Antworten

Noha1981

22.06.2017, 23:44

Hallo nochmal!
Im ersten Posting habe ich wahrscheinlich dein Problem falsch verstanden, lasse aber dennoch das Posting mal stehen.

Den Vergleich der zwei Arrays habe ich dir mal ausprogrammiert.

Dabei werden die Worte der Datei2 als Array Values durchlaufen Dabei wird geschaut ob dieser Wert in dem Datei1 Array bereits vorhanden ist, falls nicht wird das Wort aus Datei2 in dem Array der Datei1 ergänzt. Hierdurch vergrößert sich das Array der Datei1 um ein zu prüfendes Wort, welches nicht nochmals hineingeschrieben wird.

import array

Datei1Worte = ["apfel", "birne", "banane"];
Datei2Worte = ["apfel", "banane","erdbeere", "erdbeere", "pflaume"];

for elem in Datei2Worte:
    existElem = False;
    for el in Datei1Worte:
        print("Elem: "+ elem + " vergleicht " + el);
        if(elem == el):
            print("\t"+ el +" bereits vorhanden");
            #Element bereits vorhanden
            existElem = True;
            break;
    if(existElem == False):
        Datei1Worte.append(elem);
print(Datei1Worte);
print("-----");
print(Datei2Worte);

Löst dies dein Problem?

MfG

Norman Fober

romanmiller

Fragesteller

23.06.2017, 16:07

Hab es noch nicht probiert, aber du kannst ja mal meine Kommentare unter der anderen Antwort lesen. Trotzdem danke dafür :)

Noha1981

23.06.2017, 19:41

@romanmiller

Ok, es scheint Performance Probleme zu geben.
Die Größe der Datei sollte Python egal sein.
Mein obiges (Teil-)Skript besitzt eine Laufzeit von O(n*m) (ist immer der Worst-Case). Das heißt bei jeweils n,m=3000 Passwörtern haben wir bereits 9.000.000 Vergleiche. Ab dem 8-9 stelligen Bereich wird es für normale Computer schwerer.
Wenn du aber eh eine so große Datenmenge besitzt, würde ich dir eher die nutzung einer Datenbank empfehlen!
Hier sind die Suchen über Indizierung deutlich schneller!

MfG
Norman Fober

romanmiller

Fragesteller

24.06.2017, 14:14

Naja, vielleicht hast du Recht. Da müsste ich mich halt mal informieren, wie ich das mit Python dann manage. Danke :)

TeeTier

25.06.2017, 03:43

Oder so:

a = ["apfel", "birne", "banane"]
b = ["apfel", "banane", "erdbeere", "erdbeere", "pflaume"]

c = list(sorted(set(a + b)))
print('\n'.join(c))

TeeTier

25.06.2017, 03:50

Zusatz: Falls - wie in der Frage erwünscht - NUR die Wörter aus Datei 2 ans Ende von Datei 1 rangehängt werden sollen, die NICHT schon in Datei 1 existieren, dann einfach so:

a = ["apfel", "birne", "banane"]
b = ["apfel", "banane", "erdbeere", "erdbeere", "pflaume"]

a += list(set(b) - set(a))
print(a)

Danach enthält a:

['apfel', 'birne', 'banane', 'erdbeere', 'pflaume']

Wobei es keine Sortierung gibt, weder von den ursprünglichen Wörtern aus "a", noch von den angehängten aus Gruppe "b".

Naja, muss der Fragensteller selber wissen, was er sich aus den ganzen Anregungen zusammen bauen will. :)

Noha1981

25.06.2017, 16:28

@TeeTier

Jap, mit der Sortierung der vorigen Listen wäre ein Möglichkeit.
Sobald ein zu prüfender Wert größer des Suchwertes ist, kann die Suche als erfolglos abgebrochen werden und der Wert folglich angefügt werden.

Tbear44

09.03.2020, 16:01

Ich schreibe einfach noch meine Eigene Antwort zu.

file1 = open("file1.txt").read().split("\n")
file2 = open("file2.txt").read().split("\n")
addto = {"file1": [], "file2": []}

for item in file1:
    if not item in file2:
        addto["file2"].append(item)

for item in file2:
    if not item in file1:
        addto["file1"].append(item)

for n in range(1, 3):
with open("file%i.txt" % n, "w") as file:
    for item in addto["file%i" % n]:
        file.write("\n" + item)

#Code von Tbear44

Das funktioniert, auch wenn's bei SEHR großen Dateien bisschen dauert.

Woher ich das weiß:Hobby – Ich programmiere sehr gerne und häufig.

TeeTier

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

programmieren

25.06.2017, 03:18

Also mit anderen Worten: Du willst die Wörter aus Datei A und Datei B sortiert in einer Datei C (oder von mir aus auch wieder in einer der Eingangs-Dateien A oder B) vereinen?

So etwas vielleicht:

from codecs import open as co
import re

pattern = re.compile('\w+')

words = set()
for infile in ('a.txt', 'b.txt'):
  with co(infile, 'r', 'utf-8', 'strict') as fp:
    for line in fp:
      for match in pattern.finditer(line):
        words.add(match.group())

with co('words.txt', 'w', 'utf-8', 'strict') as fp:
  for word in sorted(words):
    fp.write(word + '\n')

Da ich nicht weiß, in welcher Form deine Dateien vorliegen, habe ich einfach einen regulären Ausdruck zum iterieren über die einzelnen Wörter genommen.

Falls also die Datei "a.txt" diesen Inhalt hat:

ab cd ef
gh ij kl mn

... und die Datei "b.txt" so einen Inhalt:

cd gh
ij mn
xy

... dann steht als Resultat in der Datei "words.txt" das hier:

ab
cd
ef
gh
ij
kl
mn
xy

Naja, viel Spaß damit! :)

PS: Das obige Beispiel setzt auf Python 3, aber in Python 2 ist es auch mit wenigen Anpassungen lauffähig. :)

TeeTier

25.06.2017, 03:34

PS: Natürlich sollte man bei einer so auffällig tiefen Verschachtelung der Ordnung zu Liebe Funktionen einführen, aber es ist ja sowieso nur ein Snippet, von daher ... ><

PPS: Im Übrigen ist eine ganz normale Unix Shell mit den gängigen Standardwerkzeugen für die meisten solcher einfachen Textdatei-Aufgaben deutlich besser geeignet, als Python!

Das ganze obige Python Snippet sähe als sh-Skript so aus:

grep -ohP '\w+' a.txt b.txt | sort -u >words.txt

Wesentlich kürzer, leistet aber exakt das Selbe! Auch wenn du Windows benutzt, solltest du dir vielleicht mal eine Unixoide Shell wie die Bash installieren, falls du öfter mal mit so ähnlichen Problemen, wie dem aus deiner Frage, zu kämpfen hast.

In vermutlich 95% aller Fälle kommst du bei kleinen und überschaubaren Problemen mit einem Shell-Skript bzw. einem Einzeiler schneller und besser ans Ziel, als mit Python, Ruby oder Perl. Ist zumindest bei mir so. Eine ausgewachsene Skriptsprache setze ich eigentlich nur dann ein, wenn es größer wird und "hübsch" sein muss. :)

Noha1981

22.06.2017, 22:56

Hallo Roman Miller!

Ohne es jetzt direkt auszuprogrammieren, abstrahiere ich dein Problem mal ein wenig.

Gegeben:

2 verschiedene Textdateien
wobei die AnzWorte(Datei1) <= AnzWorte(Datei2) ist
wobei Worte(Datei1) eine geordnete Teilmenge von Worte(Datei2) sind.

Algorithmus

lese per split() die Worte aus Datei1 und Datei2
speichere die Worte in einzelne Arrays (Dat1[Worte], Dat2[Worte])
Durchlaufe die Arrays und vergleiche Dat1[i] == Dat2[j]
Wenn 3 wahr ist, schreibe Dat1[i] in die neue Datei
Wenn 3 falsch ist, solange Dat2[j] != Dat1[i] schreibe Dat2[j] in die neue Datei
Wenn Dat1[i] EOF erreicht hat, füge den Rest von Dat2[j] an

Fazit:

Möglicher Weise hört es sich so abstrahiert etwas kompliziert an, aber wenn obige Vorraussetzungen (ich also dein Problem richtig verstanden habe) erfüllt sind, müsste es so gehen!

Ich hoffe, das ich dir helfen konnte!

MfG

Norman Fober

Und zwar habe ich gerade Probleme eine txt datei welche nur aus Zahlen besteht in python einzulesen und diese zu printen.

Kann mir da bitte Jemand helfen?

Bei Textdateien würde ich ja so vorgehen:

f = open("numbers.txt", encoding="utf-8")
int = f.read().
f.close()

...zur Frage

In Python 3 eine txt Datei bearbeiten und erstellen?

Wie kann ich in Python 3 eine .txt Datei erstellen und bearbeiten und eine schon existierende .txt Datei bearbeiten?

...zur Frage

In Python mitten in einem TXT-Dokument mehrere Zeilen einfügen?

Hallo, ich habe ein Script, welches bestimmte Werte in eine .txt schreibt. Nun will ich in der 10. Zeile die Zeitdauer für das Schreiben der Werte in die Datei einfügen (Zeitdauer bestimmen, ... schon fertig und als str vorhanden). Wie kann ich nun, ohne das Nachfolgende zu überschreiben, diese Zeilen einfügen?

...zur Frage

Python script lässt sich nicht starten?

Hall, mein Python script lässt sich über die IDE starten jedoch nicht mit doppelklick auf die Datei. Wieso?

...zur Frage

Ubuntu Python Script öffnen?

Hallo, ich würde gerne ein Python Script in einem andern Python Script öffnen...

Auf windows geht das ganz einfach mit:

os.system("datei.py")

Auf ubuntu wird die Datei jedoch so nicht gefunden bzw. die Konsole gibt aus das die Datei nicht gefunden wird.

Hat, wer eine schnelle Lösung dafür?

...zur Frage

Python TXT File erstellen?

Kann man in Python eine Datei erstellen in die das Programm dann auch was schreibt ? Also das wenn ich die bsp.py anklicke das dann eine hallo.txt erstellt wird

...zur Frage

Mit python txt Datei drucken Windows 10?

Ich möchte mit python eine txt Datei auf Windows 10 drucken.

...zur Frage

Batch-Datei Python script ausführen?

Um python-scripts mit einer Batch-Datei auszuführen, habe immer einfach eine Zeile in die Batch-Datei geschrieben

"C:\Python37\python.exe" "C:\Path\To\Script\my_script.py"

Nun möchte mit einer Batch-Datei allerdings ein Python-Modul mit dem m-Flag ausführen.

Der Python-Befehl in der cmd würde so aussehen

python -m my_package.main

Wie kann man das in einer Batch-Datei am besten lösen?

...zur Frage

Wie öffne/nutze ich ein bereits erstelltes Python-Script?

Habe eine Datei für Python heruntergeladen. Diese soll Lieder in mehrere Stems filtern und die Ergebnisse exportieren können als Musik-Dateien.

Leider weiß ich nicht wie ich dieses Script korrekt öffnen soll. Bei Doppelklick passiert nichts besonderes.

Gibt es eine Webseite oder ein Video, wo erläutert wird wie man ein Python-Script öffnet und das Script verwendet?

...zur Frage

Wie kann man bei Python .txt einlesen und bestimmte Zeilen ausgeben?

Hallo,

ich versuche mich an einen Python Script. Ich lese in das Script eine .txt wie folgt ein:

my_file=open("DATEI.txt")
file_contents=my_file.read()
print(file_contents)
my_file.close()

print(file_contents) zeigt mir dan natürlich auch die komplette .txt an.

Nun will ich aber nur Zeilen ausgeben, die einen besimmten Inhalt haben, zB. "Test123ABC" => Sollen nur die Zeilen ausgegeben werden, die auch "Test123ABC" enthalten.

Wie ist das den möglich - Ich bin noch recht neu in sachen Python?

LG. Manu

...zur Frage

Python Überprüfen ob Zeile in einer .txt Datei existiert?

Hey Leute,

Ich möchte in Python Prüfen, ob eine bestimmte Zeile in einer .txt Datei existiert.

Ich möchte z.B. prüfen ob Zeile 4 in "test.txt" existiert, also beschrieben ist.
Wenn ja, dann soll der Code weiter gehen, wenn nein, soll Python einen Text in die Zeile schreiben.

Im Internet habe ich leider nicht wirklich etwas gefunden. Vielleicht habe ich auch falsch gesucht. Hoffe mir kann da jemand weiterhelfen.

...zur Frage

Erstes Wort aus einer Datei filtern (Python)?

Hi :)

Wie filtert man das erste Wort aus einer Datei in python? Das script soll jede Zeile durch gehen und jeweils das erste Wort ausgeben.

Danke im voraus

...zur Frage

Python Bash?

Beispiel:

ich habe mir ein Python script geschrieben(in Arch) bei dem ich beim ausführen eine auswahl zwischen 1 = Update und 2 = Abbrechen habe

dazu habe ich mir eine Shell datei geschrieben die das python script dann öffnen und ausführen soll

jetzt zu meiner frage wie kann ich das so schreiben das mir das pythonscript die datei beim drücken der 1 öffnet und ausführt ?

...zur Frage

Python datei exportieren?

Hallo, ich versuche eine datei (zum test eine einfache test.txt datei) datei zu exportieren. Damit meine ich: Ich habe ein python programm mit dieser datei in eine ausführbare EXE compiled und nun möchte ich wenn man diese exe ausführt dass dann die txt datei mit den daten in einem beliebigen verzeichnis mit den exakt gleichen daten gespeichert wird.

...zur Frage

Was möchtest Du wissen?

Deine Frage stellen