Wie kann ich Zeichenkodierung einer Datei in utf-8 umwaldeln?
Ich habe eine CSV-Datei, die ich mit Pandas bearbeiten möchte. Der Dateiinhalt enthält Sonderzeichen, die fehlerhaft angezeigt werden. Ich habe versucht, die Datei im UTF-8-Format zu speichern, indem ich sie in einem Editor öffne und unter dieser Codierung abspeichere. Leider hat das nicht geholfen. Die Sonderzeichen werden nur korrekt angezeigt, wenn ich den Inhalt in einem neuen Editor kopiere und dann im UTF-8-Format speichere. Dieser manuelle Prozess ist jedoch für große Dateien unpraktisch. Gibt es eine einfache Methode, dies zu automatisieren? Außerdem suche ich nach einer geeigneten Formel für Pandas, um mit solchen Dateien umzugehen. Kannst du mir dabei helfen?
2 Antworten
iconv kann das (und noch mehr): https://manpages.debian.org/bookworm/manpages/iconv.1.en.html
Außerdem suche ich nach einer geeigneten Formel für Pandas, um mit solchen Dateien umzugehen.
Was meinst du konkret? Du kannst Pandas auch explizit das erwartete Encoding der Datei angeben:
https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html