Einzelne Zahlen aus txt-Dateien in Python einlesen?

Guten Tag.

Ich lerne zur Zeit Python an der Hochschule und arbeite mit Python 3.5. Bisher kam ich immer gut zurecht, doch nun haben wir eine Hausübung bekommen, die mir etwas Kopfzerbrechen bereitet.

Die Aufgabe ist folgende:

Lesen Sie aus der Datei unip-mini.dat.txt Zeile SQ die Länge aller Proteine in eine Liste. Plotten Sie die Liste als Histogramm mit 50 Balken.

Beispiel, wie so eine Zeile aussieht: SQ SEQUENCE 458 AA; 53921 MW; E46E5C85D7ACA139 CRC64;

Länge: 458

Wie man grundsätzlich Dateien in Python einliest, ist mir bekannt. Ich bin auch schon so weit, dass es nur diejenigen Zeilen einliest, die eben mit SQ beginnen. Allerdings möchte ich ja nur die Länge der Proteine in der Liste haben. Nun ist mein Problem, dass ich eben nicht weiß, wie ich es fertig stelle, dass lediglich die Länge in die Liste eingefügt wird.

Mein Code sieht bisher wie folgt aus:

    #!/usr/bin/python3

    import numpy as np
    import matplotlib.mlab as mlab
    import matplotlib.pyplot as plt

    def main():
        if os.path.isfile(sys.argv[1]) == False:
            print("Datei", sys.argv[1], "nicht gefunden")
            exit(0)
        with open(sys.argv[1]) as filetoread:
            lines = filetoread.readlines()
        seq = []

        for i in range(len(lines)):
            if(re.search('SQ   ', lines[i])):
                seq.append(lines[i])

        print(seq)


    if __name__ == "__main__":
        import sys
        import os
        import string
        main()

Könnte mir da vielleicht jemand helfen? Vielleicht gehe ich die Sache ja gerade auch einfach ganz falsch an und merke es nicht.

Mit freundlichen Grüßen

4 Antworten

Allekatrase

20.12.2015, 14:15

Sieh dir einmal Slicing an (https://docs.python.org/2/tutorial/introduction.html):

if(re.search('SQ   ', lines[i])):
                seq.append(lines[i][13:15])

Müsste jetzt, wenn ich die Syntax richtig hab, Zeichen 13-15 nehmen. Falls das nicht geht, müsstest du es eventuell vorher noch einmal in einer Variable speichern. Falls es nicht immer 3 Zeichen sind, müsstest du mit Verzweigungen, oder einer Suche arbeiten.

PrettyAna

Fragesteller

20.12.2015, 14:17

Vielen Dank, ich werde das mal versuchen.

TeeTier

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

programmieren

20.12.2015, 15:21

Die anderen Antworten sind teilweise ganz OK, aber ich möchte dich noch auf einige Punkte hinweisen, die du dir UNBEDINGT merken solltest, und die dir in Zukunft viel Ärger ersparen werden:

A) Deine Dateien liegen nicht immer nur im ASCII Format vor, und du solltest beim Lesen und Schreiben derselben auf jeden Fall die Textkodierung beachten.

B) Gerade in deinem Anwendungsfall der Bioinformatik, Biochemie, Molekularbiologie, etc. hast du es häufig mit Dateien zu tun, die richtig lang sind, evtl. sogar einige Terabyte groß. Deshalb vermeide es am besten, deine zeilenweise vorliegenden Daten vorab komplett in eine Liste einzulesen, und iteriere Zeile für Zeile darüber. Bei z. B. einer 10GB großen Datei benötigst du dann nicht mehr mindestens 10GB RAM, sondern nur noch wenige Kilobyte für den Zeilenpuffer.

C) Lerne unbedingt, was Reguläre Ausdrücke sind und wie man damit umgeht. In Python gibt es dafür das "re" Modul, und du kannst dir oftmals sehr viel Tipparbeit sparen, wenn du statt 50 Zeilen Pythoncode einfach eine halbe Zeile RegEx schreibst.

Da du dich ja schon ganz gut auszukennen scheinst, reduziere ich folgendes Beispiel mal auf die wichtigsten drei oben angesprochenen Punkte. Den Rest bekommst du selber hin:

import codecs, re

pat = re.compile('SQ\\s+\\w+\\s+(\\d+)', re.I)

with codecs.open('seq.dat', 'r', 'UTF-8', 'strict') as fh:
  for line in fh:
    match = pat.match(line)

    if match:
      length = int(match.group(1))

      print('Protein Länge: %d' % length)

Falls das für dich verwirrend aussieht: Das geht allen Anfängern bei RegEx so! Aber es ist wirklich sehr leicht zu verstehen! Und wie du aus dem obigen Snippet dein Histogram basteln kannst, findest du auf jeden Fall auch schon alleine raus. :)

Lies dir unbedingt die Dokumentation zu Modulen durch, die du nicht sofort verstehst und nimm dir unbedingt Zeit um Reguläre Ausdrücke zu lernen! Die darin investierte Zeit sparst du später 1000 fach wieder ein.

Viel Erfolg! :)

Schachpapa

20.12.2015, 14:17

Python ist eine der schönsten Prg Sprachen.

Ich würde split benutzen.

wenn in lines[i] die mit SQ beginnende Zeile stehlt machst du:

elements = lines[i].split()
anzahl = elements[-1]
seq.append(anzahl)

Das zerlegt dir die Zeile zunächst in durch whitespaces (lerrzeichen, tabs usw) getrennte Stück, von denen das letzte Stück das gesuchte ist. Müsste so gehen.

PrettyAna

Fragesteller

20.12.2015, 14:18

Auch dir schon mal danke für den Lösungsansatz.

Graueumel

21.12.2015, 18:34

Für das Einlesen von strukturierten Textdateien kannst Du auch das Python-Modul Pandas benutzen, genaugesagt die I/O-Funktionen davon: http://pandas.pydata.org/pandas-docs/stable/io.html (Viele Beispiele unten).

Damit lassen sich strukturierte Textdateien, wie z.B. CSV, auch mit Headerzeilen und allem was dazugehört einlesen; meist braucht es nur einen Einzeiler um alle Daten in den Speicher zu bekommen. Auch Excel-Dateien kann man damit lesen und schreiben.

Dieses Problem habe ich in Python immer wieder und ich will es jetzt verstehen zu lösen.

car = []
counter = 0
with open('data.txt', 'r') as f:
    lines = f.readlines()
    for line in lines:
        car[counter] = line.split(':')
        counter += 1
    f.close()

im data.txt sind technische Details zu Autos(BMW, 330i, 1998, etc)

ich will die datei in python einlesen und jede zeile im array car speichern, ich zähle mit counter.

ich bekomme in zeile 4, also bei:

 car[counter] = line.split(':')

die Fehlermeldung.

...zur Frage

Python fehler?

Hey Leute,

Ich habe echt keine Ahnung mehr,

wieso funktioniert das Skript nicht?

Wen ich die Datei öffne schließt es sich wieder.

import socket
import os
import PySimpleGUI as sg


sg.theme("DarkTeal2")
layout = [[sg.T("")], [sg.Text("Datei auswählen: "), sg.Input(key="-IN2-" ,change_submits=True), sg.FileBrowse(key="-IN-")],[sg.Button("Submit")]]


###Building Window
window = sg.Window('My File Browser', layout, size=(600,150))


file = values
host = "//ZENSIERT//"
sep = "#SEP#"
port = 1337
buffer = 1024


file_size = os.path.getsize(file)
if sep in file:
    print("WARNING! INVALID FILENAME!")
    exit(-1)
s = socket.socket()
s.connect((host, port))
s.send(f"{file}{sep}{file_size}".encode())


with open(file, "rb") as f:
    while True:
        file_bytes = f.read(buffer)
        if not file_bytes:
            break
        s.sendall(file_bytes)
s.close()

...zur Frage

Python ValueError: invalid literal for int() with base 10?

Wenn ich mein Programm ausführen will kommt diese Fehlermeldung:

Traceback (most recent call last):
 File "/home/jonathan/Dokumente/color.py", line 8, in <module>
  pi.set_PWM_dutycycle(22, int(red_brightness))
ValueError: invalid literal for int() with base 10: 'color.py'

Und der Code ist:

import pigpio
import sys 
red_brightness = sys.argv[0]
pi = pigpio.pi()
pi.set_PWM_dutycycle(22, int(red_brightness))
pi.stop()

...zur Frage

Python Socket Programmierung Error?

#Server
import socket
ip_input = input("Gib deine IP an: ")
ip_input = str(ip_input)
IP_SERVER = ip_input
DISCONNECT_MESSAGE = "!DISCONNECT"
def start():
  server = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
  server.bind( (IP_SERVER, 5050) )
  print("Server gestartet")
  server.listen()
  conn, addr = server.accept()
  print(f"Client with IP {conn} connected")
  while True:
    msg = server.recv(1024)
    msg.decode("utf-8")
    print(f"Message: {msg}")
    if msg == DISCONNECT_MESSAGE:
      server.close()
      conn.close()
if __name__ == "__main__":
  start()
#Client
import socket
def start():
  server = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
  server.connect( ("192.168.1.100", 5050) )
  while True:
    msg = str(input("Your Message: "))
    msg = msg.encode()
    server.send(msg)
    answer = server.recv(1024)
    answer = answer.decode("utf-8")
    print(f"Antwort: {answer}")
if __name__ == "__main__":
  start()
#Error

Gib deine IP an: 192.168.1.100

Server gestartet

Client with IP <socket.socket fd=372, family=AddressFamily.AF_INET, type=SocketKind.SOCK_STREAM, proto=0, laddr=('192.168.1.100', 5050), raddr=('192.168.1.100', 60324)> connected

Traceback (most recent call last):

File "c:\Users\User\OneDrive\Python\Server_2.py", line 26, in <module>

start()

File "c:\Users\User\OneDrive\Python\Server_2.py", line 17, in start

msg = server.recv(1024)

OSError: [WinError 10057] Eine Anforderung zum Senden oder Empfangen von Daten wurde verhindert, da der Socket nicht verbunden ist und (beim Senden über einen Datagrammsocket mit einem sendto-Aufruf) keine Adresse angegeben wurde

...zur Frage

Wie kann man im Qt Designer den Code einfach zu Python umwandeln?

Hallo.

Also ich brauche Hilfe. Ich würde gern Windows Forms über Python statt mit C# programmieren, weil Python kann bis unendlich viel rechnen als C# und daraus möchte ich einen super Taschenrechner programmieren.

Ich verwende den Qt Designer und versuche denn Code umzuwandeln. Ich habe im Internet geschaut und diesen Code eingegeben:

from PyQt5 import uic, QtWidgets
import sys
 
class Ui(QtWidgets.QDialog):
    def __init__(self):
        super(Ui, self).__init__()
        uic.loadUi('Test.ui', self)
        self.show()
 
if __name__ == '__main__':
    app = QtWidgets.QApplication(sys.argv)
    window = Ui()
    sys.exit(app.exec_())

Ja und wenn ich das dann ausführe, spuckt er diese Fehlermeldung aus:

Traceback (most recent call last):
  File "C:/Users/PrinzPersia/Documents/Test.py", line 12, in <module>
    window = Ui()
  File "C:/Users/PrinzPersia/Documents/Test.py", line 7, in __init__
    uic.loadUi('Test.ui', self)
  File "C:\Users\PrinzPersia\AppData\Local\Programs\Python\Python35-32\lib\site-packages\PyQt5\uic__init__.py", line 226, in loadUi
    return DynamicUILoader(package).loadUi(uifile, baseinstance, resource_suffix)
  File "C:\Users\PrinzPersia\AppData\Local\Programs\Python\Python35-32\lib\site-packages\PyQt5\uic\Loader\loader.py", line 72, in loadUi
    return self.parse(filename, resource_suffix, basedir)
  File "C:\Users\PrinzPersia\AppData\Local\Programs\Python\Python35-32\lib\site-packages\PyQt5\uic\uiparser.py", line 992, in parse
    document = parse(filename)
  File "C:\Users\PrinzPersia\AppData\Local\Programs\Python\Python35-32\lib\xml\etree\ElementTree.py", line 1183, in parse
    tree.parse(source, parser)
  File "C:\Users\PrinzPersia\AppData\Local\Programs\Python\Python35-32\lib\xml\etree\ElementTree.py", line 583, in parse
    source = open(source, "rb")
FileNotFoundError: [Errno 2] No such file or directory: 'Test.ui'

Wisst ihr, woran es liegt? Ich kenne mich im Qt Designer gar nicht gut aus und Videotutorials anschauen ist wegen der niedrigen Bildschirmauflösung sehr anstrengend.

...zur Frage

Python wörter zählen aus importierten Text?

Hey, wie zähle ich in Python in einem Text die vorhandenen wörter?

Die Datei beispiel.txt besteht aus einem großen englischen Text, allerdings zählt der mit diesem Code nicht die wörter.. wo liegt genau der Fehler?

Bin noch anfänger, also verstehe noch keine komplizierten Codes :P

with open('beispiel.txt', 'r') as file:
    for line in file:
        woerter= line.split()
        
count = 0
for wort in woerter:
    if wort == 'a':
        wort = wort.lower()
        count += 1
        
    
print("Anzahl des Wortes 'a' sind", count)

...zur Frage

Warum kommt dieser Error?

Hi,

Warum kommt dieser Error bei dem Code?

import socket



def start():
    host = socket.gethostname(socket.gethostbyname)
    port = 5555
    s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    s.bind((port, host))


if __name__ == "__main__":
    start()

Error:
Traceback (most recent call last):
  File "c:\Users\Tobias\OneDrive\Python\Server.py", line 12, in <module>
    start()
  File "c:\Users\Tobias\OneDrive\Python\Server.py", line 6, in start
    host = socket.gethostbyname(socket.gethostname)
TypeError: gethostbyname() argument 1 must be str, bytes or bytearray, not builtin_function_or_method

...zur Frage

Verbesserungsvorschläge für mein Python Skript: Polindrome finden?

Hey,

ich habe heute ein kleines Python Skript geschrieben, um Polindrome in einer Textdatei zu erkennen. Polindrome sind Wörter, die rückwärts geschrieben genau den gleichen Sinn ergeben wie vorwärts geschrieben.

#!/bin/python3
#Polindrome-Woerter in Textdatei erkennen
import string

#Funktion zum Erkennen von Polindromen
def check_polindrome(word):
    reverse = ''
    removable = ['\n', '\t', '\r']
    for c in removable: # Zeug entfernen
        word = word.replace(c, '')
    for c in string.punctuation: #Sonderzeichen entfernen
        word = word.replace(c, '')
    for c in string.whitespace: #Leerzeichen entfernen, da sonst falsche Ergebnisse entstehen
        word = word.replace(c, '')
    if word in string.punctuation or word in string.whitespace: #Leer- und Sonderzeichen abfangen
        return False
    if word.isdigit() == True: #Zahlen abfangen, da z.B. 121 rueckwaerts auch 121 ergibt
        return False
    for i in range(len(word)-1, 0-1, -1): #Wort rueckwaerts zusammen basteln
        reverse = reverse + word[i]
    if reverse.lower() == word.lower(): #Rueckwaerts-Wort mit vorwaerts-Wort vergleichen
        return True
    else:
        return False

#Den Benutzer eine Textdatei oeffnen lassen
file = input('Path to file: ')
polindrome = []

try:
    with open(file, 'r') as f:
        lines = f.readlines()
except FileNotFoundError:
    print('File not found!')
    exit(0)

#Einzelne Woerter im Text der Funktion check_polindrome uebergeben
for i in range(0, len(lines)):
    lines[i] = lines[i].split(' ')
    for word in lines[i]:
        if check_polindrome(word) == True:
            polindrome.append(word)
        else:
            continue

#Ergebnis anzeigen
print(len(polindrome), ' found!\n')
for i in range(len(polindrome)):
    print(polindrome[i].replace('\n', '')) #\n in Wort entfernen, da sonst zu viele Leerzeichen bei Output

Die Projektidee habe ich von: https://www.gutefrage.net/frage/python-projekt-ideen#answer-357880884

Wie man rückwärts über eine Zeichenkette rotiert, habe ich von: https://stackoverflow.com/questions/7961499/best-way-to-loop-over-a-python-string-backwards

Hat jemand Verbesserungsvorschläge für meinen Code?
Ein kleines Feedback bitte

...zur Frage

Warum will er in meinem Python code entry und entry nicht vergleichen?

import json
from typing import List, Any


def bubbleSort(result):
    n = len(result)

dicts = {}
with open('Schachnovelle.txt', 'r') as f:
   for line in f:
       for word in line.split():
          if word in dicts:
             dicts[word] += 1
          else:
             dicts[word] = 1

x = dicts.values()
#print(x)


class entry:
  word: str
  amount: int


sorted_values = []
for name in dicts:
    item = entry()
    item.word = name
    item.amount = dicts[name]
    sorted_values.append(item)

temp = 0
trade = True
while trade:
    trade = False
    for n in range(len(sorted_values)-1):
        if sorted_values[n] > sorted_values[n+1]:
            temp = sorted_values[n]
            sorted_values[n] = sorted_values[n+1]
            sorted_values[n+1] = temp
            trade = True


print(sorted_values)

...zur Frage

Python: Balkendiagramm beim Sortieren?

Hallo,

ich wollte ein Sortierverfahren programmieren und bei jedem Durchlauf durch das Array soll ein Balkendiagramm erzeugt werden.

Die sortierten Zahlen sollen rot sein und die unsortierten blau.

Bisher habe ich es geschafft, dass die sortierte Liste als Balkendiagramm angezeigt wird. Mein Programm sieht so aus:

def Sortierverfahren_Bubblesort(Liste):
  n = len(Liste)
  for i in range(n):
    for x in range(0, n - i - 1):
      if Liste[x] > Liste[x + 1]:
        Liste[x], Liste[x + 1] = Liste[x + 1], Liste[x]

Sortierverfahren_Bubblesort(Liste)
print("Sortierte Liste: ", Liste)

#Balkendiagramm
import matplotlib.pyplot as plt
import numpy as np

bar_width = 0.5
index = np.arange(len(Liste))
plt.bar(index, Liste, bar_width, color="blue")
plt.xticks(index, range(len(Liste)))
print("Balkendiagramm: ")
plt.show()

Es wäre cool, wenn mir jemand die Lösung dazu sagen würde.

...zur Frage

Python Datei (über NodeJS) von ReactApp ausführen?

Hallöchen,
ich hab herausgefunden wie man eine Python Datei von NodeJS aus starten kann.
Lokal, mit "node startconvert.js", würde das funktionieren. "spawn" exisitert jedoch bei einer WebApp nicht in dem Sinne und erkennt es nicht als Funktion. Gibt es irgendwie eine ähnliche Möglichkeit zu sagen, führe "die Datei" mit "dem Argument" aus?

Hier der Code mit dem es funktioniert hat.

NodeJS (startconvert.js)
const formdata = "Forumlardaten";
const spawn = require('child_process').spawn;
const process = spawn('python', ['runconvert.py', formdata]);
process.stdout.on('data', data => {
    console.log(data.toString());
});
_______
Python (runconvert.py)
import sys
f = open("file.txt", "w")
f.write("Hier die " + sys.argv[1])
f.close()

...zur Frage

Wie ist dieser verbesserte Python Code zu Palindromen?

Verbesserter Code mit Hilfe der Antwort von alfredo153

#!/bin/python3
#Palindrome-Woerter in Textdatei erkennen
import string

#Funktion zum Erkennen von Palindromen
def check_palindrome(word):
    reverse = ''
    removable = string.punctuation + string.whitespace + string.digits
    for c in removable: #Sonderzeichen entfernen
        word = word.replace(c, '')
    if word in string.punctuation or word in string.whitespace: #Sonderzeichen abfangen
        return False
    for c in word[::-1]: #Wort rueckwaerts zusammen basteln
        reverse = reverse + c
    if reverse.lower() == word.lower(): #Rueckwaerts-Wort mit vorwaerts-Wort vergleichen
        return True
    else:
        return False

#Den Benutzer eine Textdatei oeffnen lassen
file = input('Path to file: ')
palindrome = []

try:
    with open(file, 'r') as f:
        lines = f.readlines()
except FileNotFoundError:
    print('File not found!')
    exit(0)

#Einzelne Woerter im Text der Funktion check_palindrome uebergeben
for line in lines:
    line = line.split(' ')
    for word in line:
        if check_palindrome(word):
            palindrome.append(word)
        else:
            continue

#Ergebnis anzeigen
print(len(palindrome), ' found!\n')
for i in range(len(palindrome)):
    print(palindrome[i].replace('\n', '')) #\n in Wort entfernen, da sonst zu viele Leerzeichen bei Output

...zur Frage

For-Schleife wird nicht ausgeführt, warum?

Guten Tag, ich lerne gerade so ein bisschen Programme zu schreiben und hab hier so ne kleine Übung. Schwer ist sie eig. nicht, doch aus irgendeinem Grund werden meine For-Schleifen die ganze Zeit übersprungen. Wenn ich die zahl1 und zahl2 nicht sortiere klappen die schleifen ganz gut, aber dann kommt es auf die Person an, die die Zahlen eingibt.

Was machen die For-Schleifen?

A: Sie geben eine Multiplikationstabelle aus.

Frage: Warum werden diese nun einfach vom Programm übersprungen?

Sprache/Umgebung: Python 3.8/Thonny

Code:

import sys

zahl1= 4 #int(sys.argv[1])

zahl2=14 #int(sys.argv[2])

if zahl1 < zahl2:

fill= zahl1

print(zahl1,"\t",zahl2,"\t",fill)

zahl1 = zahl2

print(zahl1,"\t",zahl2,"\t",fill)

zahl2= fill

print(zahl1,"\t",zahl2,"\t",fill)

print(zahl1,zahl2)

for l in range(zahl1,zahl2+1):

if(l==zahl1):

print("\t",end=" ")

print(l,"\t",end=" ")

if(l==zahl2):

print("\n")

for j in range(zahl1,zahl2+1):

for i in range(zahl1,zahl2+1):

if(i==zahl1):

print(j,"\t",j*j,"\t",end=" ")

else:

print(j*i,"\t",end=" ")

if(i==zahl2):

print("\n")

...zur Frage

Python Imports überschreiben sich?

Ich habe einen etwas komischen Fehler ich brauche für mein Python Projekt einmal Tkinter und eine Datei die im gleichen Verzeichnis liegt also importiere ich diese beide ich habe zuerst Tkinter und dann meine Datei importiert also:

Import tkinter as tk

Import "meine Datei" as "Abkürzung für meine Datei"

nur sobald ich eine Funktion von Tkinter benutzen will existiert diese angeblich nicht bzw. in meinem Fall ist es die Funktion PhotoImage sobald ich allerdings denn Import meiner Datei entferne funktioniert alles perfekt

...zur Frage

Was möchtest Du wissen?

Deine Frage stellen