Open Source LLMs?
Welche sehr Resourcenschonenden Open Source LLMs gibt es, die auf einem normalem CPU laufen können? Sie sollten so sein, dass sie Fragen beantworten können.
Danke im Voraus!
2 Antworten
In 32GB RAM kriegst du z.B.
- Qwen2.5-32B-Instruct in Q4_K_L (optional Qwen2.5-0.5B-Instruct in Q4_0 für speculative decoding)
- Mistral-Small-24B-Instruct-2501 in Q6_K
Ich nutze gerne koboldcpp um das auszuführen. Kannst so um die 2T/s erwarten.
Das ist sehr wenig. Damit geht nur sowas wie https://huggingface.co/bartowski/Qwen2.5-3B-Instruct-GGUF in Q4_K_S
Wobei du wahrscheinlich auch noch SWAP frei hast, d.h. wenn du den mit nutzt ginge auch https://huggingface.co/bartowski/Qwen2.5-7B-Instruct-GGUF
Kannst du mal ausprobieren. Ansonsten wird mit dem Server sehr viel mehr möglich sein.
Richtige Open Source Modelle, die auch was können gibt es meines wissens nicht. Aber es gibt "frei" verfügbare Modelle wie llama, deepseek, gemma, phi, ...
Du kannst mit Ollama einige Modelle ausprobieren und gucken welche zu deiner Rechenleistung passen bzw. wie viel TPS dir reichen.
Ich habe zum Beispiel ein 405b Modell zum auswerten von sehr großen Logs genutzt. Mein KI Server hat aber nicht ansatzweise genug VRAM und muss deswegen den normalen RAM nutzen. Das macht das ganze sehr langsam aber wenn ich 30min auf ne Antwort warten muss juckt mich das bei solchen Aufgaben nicht. Für normale Nachfragen bzw. arbeiten direkt mit KI ist das natürlich Schwachsinn. Da nehme ich kleinere Modelle.
Danke! Könntest du mir vieleicht aber sagen, welche spezifischen Modelle es da gibt?
Bei Ollama? Steht doch auf deren Seite:
https://ollama.com/search
Oder schönere Auflistung:
https://github.com/ollama/ollama
Also auf meinem Mac nur 8, ich hab noch einen server gemietet, da guck ich mal...