Fhem / Spracherkennung / OpenAI?
Ich würde gern von vielen Tablets das Microfon als Stream an meinen FHEM server schicken, das ganze in echtzeit transkripieren und via GPT API in FHEM befehle konvertieren lassen.
GPT soll also natürliche Sprache zusammen mit der Rauminformation (über den jeweiligen Audiostream) interpretieren zu einem FHEM befehl.
System soll so aufgebaut sein:
Lokale KI emfpängt Audiostream und sucht nach Stichwort "Hallo Computer", transkripiert den rest und schickt die Anfrage "Schalte das Licht am Schreibtisch an" an GPT, dieses übersetzt es dann in einen fhem command (zusammen mit der Info das die Frage aus Raum Z stammt welches man über den Audiostream ermittelt).
Kurzum... ne intelegentere Alexa. Hat jemand gute Infos über bestehende Projekte in der Richtung?