Wie kann ich Zeichenkodierung einer Datei in utf-8 umwaldeln?

Ich habe eine CSV-Datei, die ich mit Pandas bearbeiten möchte. Der Dateiinhalt enthält Sonderzeichen, die fehlerhaft angezeigt werden. Ich habe versucht, die Datei im UTF-8-Format zu speichern, indem ich sie in einem Editor öffne und unter dieser Codierung abspeichere. Leider hat das nicht geholfen. Die Sonderzeichen werden nur korrekt angezeigt, wenn ich den Inhalt in einem neuen Editor kopiere und dann im UTF-8-Format speichere. Dieser manuelle Prozess ist jedoch für große Dateien unpraktisch. Gibt es eine einfache Methode, dies zu automatisieren? Außerdem suche ich nach einer geeigneten Formel für Pandas, um mit solchen Dateien umzugehen. Kannst du mir dabei helfen?

2 Antworten

jo135

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

Programmiersprache, Python

19.12.2023, 20:16

iconv kann das (und noch mehr): https://manpages.debian.org/bookworm/manpages/iconv.1.en.html

Außerdem suche ich nach einer geeigneten Formel für Pandas, um mit solchen Dateien umzugehen.

Was meinst du konkret? Du kannst Pandas auch explizit das erwartete Encoding der Datei angeben:

https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

tide1109

19.12.2023, 20:53

Du kannst Pandas auch das Encoding mitgeben. Dann kannst du direkt z.B. UTF-16 Dateien einlesen.

Doku zum read_csv(). Hier gibt es den Paramter "encoding".

Gültige Encodings sind dort in der Doku verlinkt.

Ähnliche Beiträge

Windows 11 Message Box wird nicht richtig angezeigt?

Immer wenn ich eine msgbox mit einer .vbs Datei erstelle, wird die msgbox im alten Design (alte Buttons und alte Icons) dargestellt und Umlaute werden falsch dargestellt, obwohl die UTF-8 Codierung beim speichern ausgewählt wurde. Hier ein Screenshot:

...zum Beitrag

Windows Live Mail zeigt Text falsch an, Codierung defekt?

Hallo,

ich weis ich bin da ein Dinosaurier, aber ich nutze seit Jahren Windows Live Mail (2012 - vorher die vorhergehenden Versionen). Seit ein paar Tagen (kann ich viele Mails nicht richtig lesen) . Immer sind die Umlaute in kryptischen Sonderzeichen zu sehen. Beispiel:

Bin auf FB auf ein Post von Ralf BÃ¶llhoff gestoÃŸen.

Arte TV hat eine Doku Ã¼ber Neil Young ausgestrahlt.

Könnte es sein dass durch ein Reinigungstool wie von Ashampoo oder CCleaner ein paar Schriftarten gekillt wurden. Ich habe bei fast allen Mails bemerkt, dass dort auch Umlaute mit Sonderzeichen erscheinen. Ändere ich die Codierung in Unicode UTF-8. dann ist der Umlaut wieder da.

Wenn die Codierung auf UTF-8 steht (bei einer anderen als der gerade neu codierten Mail) dann muss ich erst auf eine andere Codierung wechseln und wieder zurück auf UTF-8. Dann ist alles lesbar. Auch bei der Einstellung auf nur Text funzt es nicht.

Wenn ich dass nur irgendwie dauerhaft einrichten könnte, dass Unicod (UTF-8) eingestellt ist. Ich muss bei jeder Mail auf das Codierungssymbol klicken und auf Unicod (UTF-8) klicken um die Mail ordentlich angezeigt zu bekommen, das nervt. Nur Text ist mir zu schlicht.

Ich habe schon Thunderbird getestet. Das gefällt mir gar nicht. Ich bleibe lieber bei Live Mail.

Hat da jemand einen Plan von Euch.

Danke.

...zum Beitrag

Plugin 'AutoCodepage v1.2.7' für 'notepad++ v8.7.4' funktioniert nicht?

Hallo, in einer Batchdatei leite ich mit dir > Datei.oem850 den Verzeichnis-Inhalt in eine Datei um.

In AutoCodepage habe ich die Einstellungen so vorgenommen, wie in den Internet-Beispielen dargestellt. Lade ich die erstellte Datei Datei.oem850 in notepad++, wird nicht die Codierung OEM 850 aktiviert. In der Statuszeile steht weiterhin UTF-8. Ich kann OEM 850 manuell aktivieren, aber dann brauche ich ja AutoCodepage nicht mehr. Hast Du einen Tip für mich, wo hier das Problem liegt? Gruß Hein

...zum Beitrag

Windows | JSONL Datei - OpenfoodFacts Datenbank?

Guten Abend zusammen.

Ich hätte da mal so eine kleine Frage an euch Profis:

Ich habe hier eine Produkt Datenbank Datei von OpenfoodFacts in einem "JSONL" Format welches ich ich nicht mit einem normalen Editor öffnen kann. Ich würde mir diese Datei (37,0 GB) gerne anschauen wollen.

Wenn ich bei Google nach einem JSONL Editor suche finde ich dazu keinen. Nur diese JSON-Editoren. Weiss einer wie oder womit ich diese Datei anschauen oder vielleicht in ein anderes ansehbares Format konvertieren kann?

Vielen Dank im Voraus!

Mit freundlichen Grüßen: Robin | TechBrain. :)

...zum Beitrag

Wenn ich im Windows Editor etwas speicher, ändert sich die Codierung?

Wenn ich in den Windows Editor "1JJJ1GGA0001AHH0001ABF0AAH1AHD0AAH1ABC0AAJ1AHB0AAJ1ABA0ABB1AGJ0ABB1AAI0ABD1AGH0ABD1AAH0ABD1AGG0ABE1AAG0ABF1AGF0ABE1AAG0ABF1AGF0ADF1AGF0ADE1AGG0ADE1AGH0ADC1AGI0ADB1AGI0ADD1AGG0ADF1AGE0ADH1AGC0ADJ1AGA0AEB1AFI0AED1AFH0AED1AFG0AEF1AFF0AEF1AFE0AEH1AFD0AEH1AFC0AEJ1AFB0AEJ1AFB0AEJ1AFA0AFB1AEJ0AFB1AEJ0AFB1AEJ0AFB1AEJ0AFB1AEJ0AFB1AEJ0AFB1AEJ0AFB1AEJ0AFB1AEJ0AFB1AEJ0AFB1AEJ0AFB1AEJ0AFB1AFA0AEJ1AFB0AEJ1AFB0AEJ1AFC0AEH1AFD0AEH1AFE0AEF1AFF0AEF1AFG0AED1AFH0AED1AFI0AEB1AGA0ADJ1AGC0ADH1AGE0ADF1AGG0ADD1AGI0ADB1AHB0ACH1AHF0ACD1AHJ0ABJ1AIE0ABD1JJJ1JJJ" eingebe und neu öffne, sehe ich nur Chinesische Schriftzeichen, warum ist das so?

...zum Beitrag

C# wie schreibt man Dateien Hexadezimal?

Hallo,

Wie schreibe ich in C# Dateien Hexadezimal?

Also wenn ich z.B folgendes speichern möchte:

0xb8 0x2a 0x00 0x00 0x00
0xc3

Das dann in der Datei das gleiche Steht und keine Leeren Bytes davor oder danach.

Also das wenn ich mir die Datei im Hex-Editor angucke genau der gleiche Inhalt steht.

Danke für eine Antwort

TheCPP

...zum Beitrag

Binäer zahlen in Daten schreiben?

Hallo ich wollte fragen wie ich in Python binäre zahlen in eine datei schreibe weil ich will ein eigenes format erfinden.

z.b. es soll in die Datei 1010010010101001010 geschrieben werden.

wie mach ich das?

...zum Beitrag

Arch Linux Sonderzeichen?

Mir ist aufgefallen das mir viele Sonderzeichen nicht angezeigt werden in meinem Terminal sieht es ca. so aus:

während es eigentlich so aussieht:

Ich habe mich weiter informiert und

Unicode Zeichen von 80-90 werden nicht wirklich dargestellt und einige andere Sachen auch ich habe überall UTF-8

Ich bitte um Hilfe

...zum Beitrag

Python: Sonderzeichen in Strings ausschließen?

Hallo, ich bin noch recht neu Python am lernen daher tut es mir leid wenn ich die Begrifflichkeiten noch nicht so drauf habe.

Ich habe gerade versucht eine Datei auszugeben was auch geklappt hat. Jedoch möchte ich die Sonderzeichen ausschließen. Das Problem war dann aber, dass auch Wörter mit Bindestrichen nicht mehr angezeigt wurden. Ich versuche im Prinzip ale Sonderzeichen (Klammern, Punkte, ...) zu löschen.

#Output
HANS-BAUM.
[FIRMEN-Logo]
MÜNCHEN.
Verlag

Mein Programm:

with open('test.txt', encoding="utf-8") as f: 
    for line in f:
        for word in line.split():
           print(word)

...zum Beitrag

wie kann man rtd dateien in txt dateien konvertieren?

ich habe einen text mit einem text editor aus dem app store geschrieben

https://www.4shared.com/s/fk_GShaDYku

doch nach der reise kam die überraschung: die datei wird im ascii editor als hieroglyphensalat angezeigt. das rtd format muss nicht immer etwas mit autocad zu tun haben, und mit google oder duckduckgo bin ich nicht weiter gekommen.

vielleicht bewahre ich andere davor, den falschen text editor, der texte als rtd speichert, herunterzuladen. eine gescheite copy paste app habe ich auch nicht gefunden.

...zum Beitrag

Outlook akzeptiert csv-Datei nicht?

Hallöchen, ich dachte schon, ich hätte das Problem gelöst...
Ich habe eine Liste E-mail-Adressen aus einer odt-Datei als txt-Datei abgespeichert und diese dann in eine Calc-Tabelle kopiert. Von dort habe ich sie als csv abgespeichert. Doch leider hat der Outlook die CSV-Datei nicht akzeptiert.

Ich erhielt folgende Fehlermeldung:

Das Format der Datei ist nicht korrekt. Stellen Sie sicher, dass die Datei im Outlook-CSV-Format exportiert wurde.

Nun habe ich unter Abspeichern in der Calc-Tabelle kein anderes csv gefunden...

Ich habe die Datei nun in Excel 2007-365 abgespeichert, aber von dort gibt es auch kein extra Outlook-CSV...

...zum Beitrag

Adobe Photoshop PNG speichern?

Seit einigen Tagen, wird hier nicht mehr angezeigt, die Datei bspw. als .png zu speichern. Glaube andere Formate sind auch weg :(( Wieso wo sind die hin

...zum Beitrag

Wie kann ich Dateien aus dem Rockstar Editor abspielen [.vid Dateien abspielen]?

Hallo,

Dateien aus dem R* Editor sind als .vid Dateien abgespeichert. Wie kann ich diese auserhalb des R* Editors angucken oder zu einem gängigeren Format umwandeln und dann angucken?

...zum Beitrag

Kann man am Dateiinhalt erkennen, ob eine DXF-Datei 2D oder 3D Daten enthält?

Ich habe eine DXF-Datei erhalten bin mir aber unsicher, ob diese lediglich 2 D-Daten oder etwa 3D-Daten enthält. Kann man das an einem Markup etc. erkennen, wenn man diese Datei im Editor öffnet?

Bzw. wie würdet ihr herausfinden, ob 2D oder 3D?

...zum Beitrag

Was möchtest Du wissen?

Deine Frage stellen