Wo bekomme ich eine DSGVO-konforme API als Alternative zu OpenAI?
Es darf gerne etwas teurer sein als die API-Verwendung von OpenAI, sollte allerdings nicht das 50-fache sein.
3 Antworten
Wenn es DSGVO-konform sein soll und dir dabei wirklich sicher sein möchtest, dass keine Daten an dritte abfließen (können), wäre es mit am sinnvollsten derlei Dinge auf einem eigenen Server zu hosten. Allerdings hängt es auch vom Verwendungszweck, ob sich das Betreiben resp. Anmieten eines eigenen Servers für dich überhaupt lohnt.
Darüberhinaus gibt es auch Anbieter wie Aleph Alpha oder Spherex. Es wäre sinnvoll zu erfahren, wofür eine solche API genutzt werden soll. Gibt es dabei um irgendeine Dienstleistung, ein eigenes Produkt oder um eine völlig andere Nutzung? Zu guter Letzt fällt mir noch HuggingFace ein, mir da jetzt aber nicht absolut sicher bin.
Ich kann mir vorstellen, dass ein eigener Server wieder neue Büchsen der Pandora in Bezug auf rechtliche Vorgaben öffnet. Oder liege ich da völlig falsch?
Der Kontext hilft weiter und in deinem Fall kommen andere Lösungsansätze infrage. Ich weiß nicht wie es bzgl. deiner Hardware und Rechenleistung aussieht, allerdings mehr in Richtung lokaler LLMs und derlei schauen würde.
Ich habe u.a. Ollama mit OpenWebUI über Docker am laufen und vieles über hinterlegte Prompts abarbeiten kann. Wenn du noch einen Schritt weitergehen möchtest, wäre z.B. mit n8n zwecks AI-Automatisierung deutlich mehr möglich.
Das Gute bei allen genannten Technologien ist, das deine Daten nicht an dritte weitergegeben werden. Alles läuft lokal auf deinem Computer, auf einem Home-Server oder alternativ auf einem eigenen Server, den du dir außerhalb anmietest.
Selbst wenn du nur Ollama verwendest, damit „out-of-the-box” dank API darauf zugreifen kannst. Ich habe es beispielsweise in Obsidian integriert und damit schnell, einfach und komfortable meine ganzen Notizen durchsuchen kann.
Über Kurzbefehle kann ich mir einen Zusammenfassung erstellen, eine E-Mail mit Inhalt füllen oder mit anderen Daten arbeiten. Selbst als Code-Assistent immer parat und wie gesagt, alles läuft lokal ohne das Daten mein Netzwerk verlassen.
Dankeschön. Bei uns haben wir auf der Arbeit ziemlich alte Rechner. Kennst du lokale LLMs, für die das kein Problem darstellen würde? (Es ist ein alter i5, 8 GB RAM, keine Grafikkarte.)
Es gibt kleinere LLMs wie phi, welche relativ kompakt und optimiert sind, damit sie auch auf schwächerer Hardware genutzt werden können. Ich würde jedoch mindestens 16 GB RAM einplanen, damit alles gescheit laufen kann.
Was für dich/euch vielleicht eine Option sein könnte, wäre der Kauf eines etwas neueren ThinkClient oder ähnliches. Alternativ wenigstens den RAM auf 16 GB oder mehr erweitern und dann selber testen, welche LLMs akzeptable darauf laufen.
Ansonsten halt wirklich einen (V-)Server für ~50 € im Monat mietest und darüber dann mit deutlich mehr Leistung derlei LLMs nutzt. Über OpenWebUI auch mit Profilen arbeiten kannst, so wie du es auch von anderen Webdiensten kennst.
Die Daten bleiben trotzdem weiterhin bei dir. Der wesentliche Unterschied besteht halt darin, dass es nicht lokal sondern auf deinem/euren Server läuft. Alles andere bleibt eigentlich wie gehabt, außer dass es halt über einen externen Server läuft.
Ich danke dir vielmals für deine Lösungsansätze. Mal schauen, wie ich das aufziehe. Bei uns im Unternehmen darf immer alles nichts kosten. Ich schaue mir das mal an, mein nächster Arbeitgeber bietet mir vielleicht 16 GB ;)
Kein Ding, gern geschehen.
Bei uns im Unternehmen darf immer alles nichts kosten.
Wer kennt's nicht, dieses ständige Jammern. ;) Ich wünsche dir viel Erfolg beim Verhandeln, um es deinem Arbeitgeber irgendwie Schmackhaft zu machen. Er kann ja sogar Geld sparen, wenn die Kosten fürs Abo wegfallen würden.
Wie dem auch sei, viel Erfolg dabei. Du kannst ja später mal ein Feedback geben, ob und wie es gelöst wurde. Bei weiteren Fragen, einfach nochmal nachhaken.
Soweit ich weiß, sagt OpenAI zumindest, dass sie Daten nicht von Paid-Usern fürs Training verwenden. Würde meine Hand dafür aber nicht ins Feuer legen, selbst wenn sie es gesagt haben.
Europäische Wettbewerber zu OpenAI gibt es dank EU-Verordnungen wie dem AI Act quasi nahezu keine und wird es auch in absehbarer Zukunft nicht geben. Wenn du persönliche Daten wie E-Mails verarbeitest, bleibt dir daher realistisch nichts anderes übrig, als ein LLM auf eigener Infrastruktur zu betreiben.
Für die Verarbeitung von und Antwort auf E-Mails könnte Phi von Microsoft oder vergleichbare kleine LLMs (~2,7 Milliarden Parameter) allerdings zu klein sein. Ich glaube nicht, dass da was Vernünftiges raus kommt, insbesondere wenn du GPT-4o oder GPT-4 als Vergleich heranziehst. Wenn ihr mit der Ausgabequalität von GPT-4o mini klar kommen würdet, wäre Llama 3.1 70b von Meta qualitativ sehr ähnlich, aber open-source und damit auf eigener Hardware zu betreiben (bspw. mit Ollama). Da reicht allerdings kein alter Office-PC aus. Meta empfiehlt mindestens eine 8-Kern-CPU, 32 GB RAM und eine GPU auf Qualitätsniveau mindestens der Nvidia 3000er Serie. Geringfügig kleinere Systeme gehen auch, die Antworten werden dann halt nur ziemlich lange auf sich warten lassen.
Es gibt einige Anbieter, die die großen Open-Source-Modelle für dich hosten und auf welche du dann auch per API mit nutzungsbasierter Abrechnung zugreifen kannst (quasi dasselbe wie OpenAI), bspw. Replicate. Damit müsste man keine eigene Hardware anschaffen. Mir fällt da aber spontan leider auch kein europäischer Anbieter ein.
Du hast hier Llama 3.2 mit 1b und 3b vergessen, die ebenso relativ gut abschneiden und auch auf schwächerer Hardware relativ gut laufen. Da kommt man auch ggf. auch mit 16 GB RAM und ohne dedizierte GPU zurecht.
Alternativ Llama 3.1 8b anstelle der 70b und man sich ggf. auf HuggingFace mal anschauen müsste, wie es dort bzgl. der Daten ausschaut. Und statt der 32 GB RAM und dedizierten GPU, wäre u.U. ein MacMini M1 und neuer eine Option.
Wobei ich die erwähnten Modelle auch schon testweise auf einem ThinkClient laufen hatte. Dir damit nicht widerspreche und optimal mehr Leistung gut wäre. Es funktioniert dennoch im kleineren Rahmen auch ohne 8 Kerne, GPU usw.
Einen dedizierter Server mit einem 14 Kernen und 64 GB RAM kostet im Monat auch „nur” um die 50 €. Wenn darauf nicht ein dutzend Mitarbeiter zugreifen und es einem genügt, könnte man sich damit behelfen und alles selber hosten.
LG medmonk
Ich glaube ehrlich gesagt nicht, dass 3b- oder gar 1b-Modelle (die ja eigentlich hauptsächlich für Edge- / On-Device-Anwendungen dienen) für den von ihm beschriebenen Anwendungsfall (E-Mail-Antworten formulieren) ausreichen. Gerade dann, wenn es darum geht, dass das Modell bei einer entsprechend langen Eingabe noch eine Ausgabe in einem strukturiertem Format ausspucken soll.
Ich habe das mal testweise mit Llama 3.1 8b Instruct q8_0 und einer m.M.n. durchschnittlich langen E-Mail getestet. Trotz Aufforderung, nur die Antwort auf die E-Mail in Plaintext auszuspucken, fing das Modell mit „Certainly! [...] Here's an appropriate answer to the provided e-mail:“ an. Kommt halt drauf an, wie die Antwort am Ende weiter verarbeitet wird. Llama 3.1 70b Instruct hatte da hingegen kein Problem mit.
Vielleicht wäre das aber mit Finetuning optimierbar, dann wären diese sehr kleinen Modelle ggf. eine Überlegung wert.
Aber die Apple Silicion Geräte sind da aber auf jeden Fall eine gute Empfehlung – nutzen wir bei uns auch anstelle von Maschinen mit dedizierten GPUs.
Danke für deine Antwort. GPT-4o mini reicht für meine Zwecke vollkommen aus. Ist Phi wirklich so viel schlechter?
Phi 3.5 mini erreicht im MMLU Benchmark (ein ziemlich breitgefasster Benchmark, der das Weltwissen und Sprachverständnis von LLMs misst) einen Wert von 55,4% (von max. 100%). GPT-4o mini erreicht hingegen einen Wert von 82%. Das ist schon ein ziemlich extremer Unterschied. Die Qualität eines Sprachmodells korreliert ziemlich stark mit der Anzahl der Parameter. Je mehr Parameter, desto besser, aber desto höher auch die Systemanforderungen. Phi 3.5 mini hat 3,8 Mrd. Parameter (ich ging in meiner Antwort ursprünglich von 2,7 aus, hat aber doch etwas mehr), bei GPT-4o mini ist die Anzahl nicht bekannt, es sind aber definitiv weit mehr. Llama 3.1 70b (mit 70 Mrd. Parametern) erreicht in MMLU einen Wert von 86%, ist dahingehend objektiv also sogar noch besser als GPT-4o mini.
Die Messmethoden unterscheiden sich hier und da etwas (few-shot / multi-shot / CoT), also alles mit einer Prise Salz nehmen. Aber grundsätzlich gibt das einen guten Überblick darüber, wie diese Modelle untereinander abschneiden.
Ein Kompromiss könnte evtl. noch Llama 3.1 8b (8 Mrd. Parameter) sein, welches einen Wert von 73% erreicht. Da sollte aber wie gesagt zumindest eine 3000er GPU verbaut sein.
Grundsätzlich musst du aber eben selbst ausprobieren, was für euren Anwendungsfall Sinn macht. Kann auch sein, dass ein Small Language Modell wie Llama 3.1 8b oder gar noch kleiner wie Phi mini für euren Use Case gut funktionieren. Dank Ollama lässt sich das lokal relativ einfach testen, solang die eigene Maschine eben genug „Saft“ hat.
Ein großes Dankeschön an euch beide! Ich benötige die KI hauptsächlich, um automatisiert auf E-Mails zu antworten und per Shortcut eine Rechtschreibanpassung durchzuführen. Ich kann mir vorstellen, dass eines der weniger leistungsstarken Modelle dafür ausreichen könnte. Leider haben wir bei der Arbeit nur Schrottrechner, bei denen nicht viel möglich ist. ;)
"Es wäre sinnvoll zu erfahren, wofür eine solche API genutzt werden soll."
Ich möchte damit meine E-Mail-Antworten vorformulieren lassen. Mit dem API-Key von OpenAI funktioniert das in den meisten Fällen gut. Allerdings denke ich nicht, dass das den Spielregeln der DSGVO entspricht.
Ein anderer Anwendungsfall ist die Rechtschreibüberarbeitung auf Knopfdruck.
Hierzu habe ich dieses Skript auf meine Bedürfnisse angepasst: https://github.com/ecornell/ai-tools-ahk
Danke für deine Antworten. Hilft der Kontext?