OpenWebUI und Ollama – Lokale LLMs ausführen

von Mike Leitner Aug. 24, 2024 | 10 Kommentare

Large Language Models (LLMs) sind derzeit überall zu finden. Mit riesigen Datenmengen trainiert, können sie menschliche Sprache verstehen und generieren. Dabei gibt es immer mehr LLMs die größer und besser werden. Die bekanntesten sind derzeit GPT-4o, Claude 3.5 Sonnet und Gemini 1.5.

Die Stärke der LLMs liegt in ihrer Fähigkeit, Zusammenhänge zu erkennen und kontextbezogen zu antworten. Dazu nutzen sie komplexe neuronale Netzwerke und Aufmerksamkeitsmechanismen, um Intentionen zu erfassen und Antworten mit ihrem erlernten Wissen zu verarbeiten. Die großen LLMs haben aber auch Nachteile: Datenschutzbedenken, mögliche Verzerrungen in den Trainingsdaten und die Tendenz, gelegentlich falsche Informationen zu produzieren. Eine mögliche Lösung für diese Probleme sind lokale LLMs wie LLama 3.1 (Meta), Gemma2 (Google).

Bei lokalen LLMs ist meist auch eine spezielle Metrik bekannt: die Anzahl der Parameter. In einem LLM bestimmen Gewichte, wie stark Eingaben (z. B. Wörter) bestimmte Muster aktivieren. Sie regeln, wie stark ein Neuron (hier ein mathematischer Knotenpunkt) ein anderes beeinflusst. Biases verschieben die Aktivierungsschwelle eines Neurons, sodass das Modell auch ohne spezifische Eingaben aktiviert werden kann. Zusammen formen Gewichte und Biases die „Entscheidungen“ des Modells. Je mehr Parameter (Gewichte und Biases) vorhanden sind, desto feiner kann das Modell Details erkennen und komplexe Zusammenhänge verarbeiten, was seine Genauigkeit und Sprachfähigkeiten verbessert. Aber es braucht auch dementsprechend mehr Speicher. Llama 3.1 8B braucht ungefähr 16 GB VRAM. 405B braucht dabei bereits 860 GB VRAM.

Der einfachste Weg ist Ollama mit OpenWebUI. Es gibt auch andere Möglichkeiten, wie LM Studio und Jan.ai. Dennoch liefert OpenWebUI zusammen mit Ollama die besten Ergebnisse, besonders für Benutzer einer Nvidia GPU. Hier kommen wir zum größten Problem für lokale LLMs: Sie benötigen viel RAM oder VRAM. 16GB für die GPU-Version und 32 GB für die CPU-Version. Das hängt aber auch sehr von der Parametergröße des Modells ab. Meine Empfehlung: Derzeit ist es am sinnvollsten, LLMs auf der GPU auszuführen, sie laufen dort in der Regel deutlich schneller, da GPUs mehr parallele Operationen ausführen können. Apple M1-M3 können auch verwendet werden, die untenstehende Anleitung funktioniert größtenteils auch damit (Ollama muss selbst installiert werden). Wenn man hier viel RAM hat (64 GB+), läuft Llama 3.1 70B sogar schneller als auf einer RTX 4090.

Wie installiere ich jetzt OpenWebUI und Ollama (GPU-Support) unter Windows?

Zuerst installiert ihr das WSL (Windows Subsystem für Linux) mit dem Befehl „wsl -update“ im Terminal.
Danach installiert ihr die für euer System passende Version von Docker Desktop von https://docker.com und öffnet sie nach der Installation (ihr müsst euer System mindestens einmal neustarten).
Im Terminal könnt ihr nun folgenden Befehl eingeben: „docker run -d -p 3000:8080 –gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data –name open-webui –restart always ghcr.io/open-webui/open-webui:ollama“. Überprüft den Befehl auch über diesen Link, um sicherzugehen.
Nachdem der Prozess abgeschlossen ist, solltet ihr in „Docker Desktop“ einen Container namens „open-webui“ mit dem Status „Running“ haben.
Nun geht ihr auf localhost:3000 und erstellt einen Account. Die Mailadresse ist dabei nicht wichtig und wird nur als Benutzername benötigt.
Ihr seht jetzt ein ChatGPT ähnliches Interface, wählt von hier aus das Modell oben links, hier ist kein Tor installiert. Am besten startet ihr mit „llama3.1“ und klickt dann auf „Pull llama3.1 from ollama.com“.
Fertig. Eine Liste von möglichen Modellen findet ihr auf ollama.com/models

OpenWebUI bietet viele erweiterte Funktionen wie Websuche, Erinnerungen, aber auch OpenAI-API-Unterstützung. Es können eigene Modelle und API-Schnittstellen hinzugefügt werden. Ollama muss auch nicht lokal installiert werden. Es gibt auch Tools, um Paperless-NX zu integrieren oder WolframAlpha. So lässt sich sogar der eigene Datensatz zu Hause als Kontext einbinden. Wichtig ist noch zu erwähnen, dass die Größe des RAM oder VRAM entscheidend ist. Wenn das Modell sehr langsam ist oder euer PC unbenutzbar wird, ist das Modell wahrscheinlich zu groß und ihr solltet das nächst kleinere wählen. Llama 3.1 405B (405 Milliarden Parameter) ist lokal noch unrealistisch. Wer das Modell trotzdem laufen lassen will, kann es mithilfe von OpenRouter.ai oder ähnlichen Diensten einbinden. Das kostet zusätzliches Geld und läuft natürlich auch nicht mehr lokal.

Apple 2024 13" MacBook Air Laptop mit M3 Chip: 13,6" Liquid Retina Display, 8 GB gemeinsamer Arbeitsspeicher, 256...

Apple 2023 Mac mini Desktopcomputer mit M2 Chip, 8 GB RAM, 256 GB SSD Speicher, Gigabit Ethernet. Funktioniert mit...

Angebot

Apple 2022 Apple TV 4K Wi‑Fi mit 64 GB Speicher (3. Generation)

4K Dolby Vision und HDR10+ für brillante Bildqualität; Dolby Atmos für dreidimensionalen Sound wie im...

−15% 142,90 EUR

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Mike Leitner

Als ehrenamtlicher First-Level-Support und quasi Apple-Jünger, der gerne seine Lebenszeit in Tech-Blogs verbrennt, stehe ich auch gerne für hitzige Diskussionen zur Verfügung.

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

Harry says:
24. August 2024 um 17:07 Uhr

Ich habe im letzten Winter mal bisschen mit „lokaler KI“ herumexperimentiert, da kann man schon lustige Sachen machen. Aber wirklich Produktiv-Praxistauglich ist da nicht viel. Und man braucht wirklich krasse Hardware oder viel Geduld. Sehr viel Geduld. Am Ende hatte ich „Abends starten, morgens sehen, was heraus gekommen ist“ bei einigen Sachen. Das macht dann keinen Spaß, aber mehrere Tausend Euro ausgeben für einen Super-High-End-Mega-PC für eine Spielerei wollte ich dann auch irgendwie nicht. Es stand eh der Frühling vor der Tür, lieber mal wieder ein schönes Fahrrad für den Fuhrpark gekauft. 🙂
Slow mo says:
24. August 2024 um 18:49 Uhr

Für eine lokale Workstation-Installation ist jan.ai für meine Begriffe besser geeignet und für Unerfahrene wesentlich leichter installierbar. OpenWebUI hingegen für self hosted Lösungen.
Tom says:
24. August 2024 um 19:40 Uhr

Läuft gut auf einem Mac Mini mit M1 und 16GB Ram. Verwende mit richtig guten Ergebnissen das Lama 3.1 in der Version 8B Q8. Viel Spaß beim ausprobieren.
- Heiko says:
  29. August 2024 um 10:01 Uhr
  
  Kommst du mit der Hardware auch auf eine Eval rate von ca. 12 token/s? Benchmark von https://ollamark.aaartist.dev/
Moewe says:
25. August 2024 um 07:06 Uhr

Sehr spannend. Mich interessiert, wie Du ein lokales Modell mit Paperless oder anderen Produktivapps nutzt. Besten Dank.
- Peter says:
  25. August 2024 um 10:44 Uhr
  
  Ja, das würde mich ebenfalls interessieren.
  - Mike Leitner says:
    26. August 2024 um 13:55 Uhr
    
    Mach ich dann mal extra 🙂 bei openwebui gibt es aber Plugins, und da sind die enthalten.
Ron says:
25. August 2024 um 13:25 Uhr

Es läuft ebenfalls das neue Hermes-Modell per OpenWebUI; ausprobiert auf einem M1 / 64 GB.
Wikibear says:
25. August 2024 um 18:39 Uhr

Warum nicht AnythingLLM… Da gehen sogar lokale Dokumente.
- Mike Leitner says:
  26. August 2024 um 13:56 Uhr
  
  Letztendlich gibt es noch viel mehr Software, das war jetzt mal eine von vielen.

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht. Es besteht kein Recht auf die Veröffentlichung eines Kommentars.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Kommentar-Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.

OpenWebUI und Ollama – Lokale LLMs ausführen

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Neueste Beiträge

10 Kommentare

Umfrage des Monats

Diese Woche beliebt