KI gestützte App?
Liebe Coummunity,
ich überlege ein Konzept für eine App, die Menschen dabei helfen soll, praktische, alltägliche Prozesse selbstgesteuert durchzuführen – mit Unterstützung einer intelligenten, interaktiven KI.
Der Fokus liegt darauf, dass die KI wie ein erfahrener Begleiter fungiert und auf Sprach- und Bildinput reagieren kann.
Gibt es aus eurer Sicht bereits funktionierende Ansätze in diesem Bereich – oder Hürden, die man dabei unbedingt bedenken sollte?
Ich freue mich auf Eure Ansätze und Beiträge, vielen Dank!
3 Antworten
Derlei gibt es schon längst in unterschiedlichen Varianten und Versionen. Im Grunde alles was sich mit Agenten über RAG und/oder MCP umsetzen lässt. Ein Bespiel und relativ populär wäre n8n, was man in deinem Fall als Backend einsetzen könnte. Der Rest ist eigentlich nur die bunte Verpackung in Form eines Clients mit schickem UI.
Was ebenfalls in diese Richtung geht und als App mit lokalen LLMs genutzt werden kann, wäre Jan, Goose sowie Cherry Studio. Als LLM dann ein schlankes Jan-Nano, SmallThinker oder etwas größer z.B: mit Deepseek-R1, Qwen 3 oder Gemma 3. Wenn deine Anwendung also nicht besonders hervorsticht, ist sie nur eine von Dutzenden.
Zu guter Letzt mischen auch noch System eigene Dienste mit, die auch durch immer mehr Funktionen und Features angereichert werden. Das solltest du ebenfalls mit berücksichtigen. Gleiches gilt für alle rechtlichen Belange in Bezug auf Datenschutz. Sehr direkt und nicht durch die Blume gesagt: Am Anfang kleinere Brötchen backen.
Es gibt tatsächlich schon einige funktionierende Ansätze in dem Bereich, vor allem im Zusammenhang mit virtuellen Assistenten und sogenannten “Companion-Apps”, die Sprache und Bildinput verarbeiten können.
Ein paar Beispiele/Technologien, die du dir anschauen könntest:
- ChatGPT / GPT-4o: Kann Sprache verarbeiten und in manchen Apps auch auf Kamera-Input reagieren (z. B. über OCR oder Bildanalyse).
- Google Gemini: Multimodale KI, die Text, Bild und Audio kombinieren kann.
Typische Hürden:
- Datenschutz & Privatsphäre, gerade bei Bild- und Audioaufnahmen.
- Hoher Rechenaufwand für Echtzeit-Analyse, wenn du das komplett auf dem Gerät machen willst.
- Akzeptanz der Nutzer: Eine KI, die “alles sieht und hört”, kann schnell auf Skepsis stoßen.
Mein Tipp: Vielleicht erstmal mit einem klar eingegrenzten Use-Case starten, z. B. eine App, die alltägliche Aufgaben organisiert oder beim Lernen unterstützt, bevor du direkt alles kombinierst.
Bin gespannt, was du daraus machst!
LG
Kommt auf deinen Prompt halt an, alles was sie können soll, muss in ihm auch genau beschrieben werden!