Eine Software, die Ton in Schrift umwandeln kann?

3 Antworten

Vom Fragesteller als hilfreich ausgezeichnet

Das, wonach Du suchst, ist alles andere als einfach, aber nicht unmöglich:

https://github.com/openai/whisper
Ist von OpenAI und kostenlos, läuft mit Python.

Wir haben es letztens genutzt, um ein Transkript von einem 8h KickOff Meeting zu erstellen. Hat sehr gut funktioniert, kleine Fehler, aber das Großteil wurde richtig erkannt.

ABER:
Du musst es auf jeden Fall mit der Grafikkarte zum Laufen bekommen, die kann bei dem Thema viel mehr leisten, als die CPU. Außerdem braucht die GPU viel VRAM, je mehr VRAM sie hat, desto größer kann das Model sein. Und Du solltest ein großes Model nehmen, das macht viel aus. Außerdem ist es wahrscheinlich unter Linux einfacher, als unter Windows.
Ich hab's mit meiner RX 6900 unter Windows nicht zum Laufen bekommen, ein Kollege mit einer NVIDIA GPU unter Linux aber schon. Ich weiß nicht, ob's an AMD vs. NVIDIA lag, oder an Windows vs. Linux, oder ob ich einfach was falsch gemacht habe.

Mit der CPU ist es extrem viel langsamer. Bei meinem Kollegen hat's auf der GPU ein paar Stunden gedauert, die 8h Aufnahme durchzugehen. Bei mir auf der durchaus sehr starken CPU mit bei weitem genug RAM ist er nach ein paar Stunden auf einen Fehler gelaufen und hat praktisch keinen relevanten Fortschritt gemacht. War also ein Reinfall.

Es gibt Spracherkennungssoftware (Speech2Text) ... damit sollte das funktionieren.

Welche davon jetzt gut ist, kann ich nicht beurteilen, weil ich keine verwende! :)

Kannst ja mal ausprobieren, ob es nicht sogar mit der Windows-Spracherkennung funktioniert. Diese sollte auch eine Diktierfunktion haben.

Dann einfach das Mikrofon an den Lautsprecher halten oder die Audio-Quelle umstellen.

Woher ich das weiß:Hobby – Programmierer, EDV, ... seit den 80er :)