Lokale KI einrichten: Ollama, Open WebUI und AnythingLLM
KI auf eigener Hardware zu betreiben ist mittlerweile wirklich praktikabel geworden. Ihre Daten bleiben lokal, die Inferenz kostet nach der Einrichtung nichts pro Token, und das Modell laeuft nach dem Download vollstaendig offline. Die Einrichtung dauert etwa eine Stunde, vielleicht zwei, wenn Docker-Netzwerkprobleme auftreten. Die Tools, die das ermoeglichen -- Ollama fuer die Inferenz, Open WebUI oder AnythingLLM als Oberflaeche -- werden alle aktiv gepflegt und laufen problemlos auf Consumer-Hardware.
Dieser Leitfaden behandelt Hardwareanforderungen nach Leistungsstufe, den vollstaendigen Installationsprozess, die Modellauswahl nach Aufgabentyp und ab welchem Punkt ein persoenliches Setup nicht mehr ausreicht.
Warum sich die Einrichtung einer lokalen KI lohnt#
Ihre Daten verlassen nie Ihren Rechner#
Lokale Inferenz bedeutet: Die Prompts, die Sie senden, und die Antworten, die Sie erhalten, bleiben auf Ihrer Hardware. Keine Nutzungsbedingungen, keine Opt-out-Einstellungen, kein Training mit Ihren Daten -- weil Ihre Daten den Rechner nie verlassen. Fuer alle, die mit Kundeninformationen, proprietaerer Forschung oder internen Dokumenten arbeiten, ist das der wichtigste Grund fuer den Aufwand.
44 % der Unternehmen nennen Datenschutz und Sicherheit als groesste Huerde bei der Einfuehrung von LLMs (Kong Enterprise AI Report / Hostinger LLM Statistics, 2025). Lokale Inferenz ist die direkte Loesung fuer genau dieses Problem.
Keine API-Kosten: Inferenz im grossen Umfang ohne Token-basierte Abrechnung#
API-Kosten summieren sich. Die Verarbeitung grosser Dokumentenstapel, Inferenz im Entwicklungsworkflow oder wiederholte Analyseaufgaben mit einem Modell koennen bei Token-basierter Abrechnung teuer werden. Mit einem lokalen Setup betragen die Grenzkosten pro Anfrage nach der anfaenglichen Hardwareinvestition null.
Funktioniert vollstaendig offline, sobald Modelle heruntergeladen sind#
Sobald Sie ein Modell mit Ollama heruntergeladen haben, laeuft es ohne Internetzugang. Das ist relevant fuer Air-Gapped-Umgebungen, unterwegs und ueberall dort, wo die Netzwerkverbindung unzuverlaessig ist. Waehrend der Inferenz sind keine API-Aufrufe erforderlich.
Die Hardware-Huerde ist gesunken: Was Sie 2026 tatsaechlich brauchen#
Effiziente Quantisierungsformate, die Unified-Memory-Architektur von Apple Silicon und zunehmend leistungsfaehige kleine Modelle haben nuetzliche lokale KI-Inferenz auf Hardware ermoeglicht, die die meisten Entwickler und IT-Verantwortlichen bereits besitzen. Ein MacBook Pro von 2022, ein Desktop mit 32 GB RAM oder ein Rechner mit einer Mittelklasse-GPU genuegen fuer 7B-Modellinferenz in Produktionsqualitaet.
Hardwareanforderungen#
Minimales Setup (nur CPU): 8-Kern-CPU, 16 GB RAM, 50 GB SSD#
Inferenz nur ueber die CPU ist langsamer, funktioniert aber. Eine moderne 8-Kern-CPU mit 16 GB RAM kann ein 7B-Modell in Q4-Quantisierung ausfuehren -- typischerweise 5-15 Token pro Sekunde. Das ist in Echtzeit lesbar. Fuer Dokumentenanalyse, Einzelaufgaben und Workflows, die ein paar Sekunden pro Antwort tolerieren, ist das ausreichend.
Die 50-GB-SSD-Schaetzung deckt die Ollama-Installation, ein paar 7B-Modelle in Q4 (jeweils etwa 4-5 GB) sowie Open WebUI oder AnythingLLM ab.
Empfohlenes Setup (GPU-beschleunigt): 8 GB+ VRAM, 32 GB RAM#
Eine dedizierte GPU mit 8 GB+ VRAM liefert 40-50 Token pro Sekunde bei 7B-Modellen. Das ist eine 3- bis 8-fache Durchsatzverbesserung gegenueber CPU-only beim selben Modell (Arsturn Hardware Guide / LocalLLM.in, 2026). Antworten fuehlen sich sofort an statt verzoegert.
Mit 32 GB System-RAM und einer GPU mit 8 GB VRAM koennen Sie ein 7B-Modell mit vollstaendigem GPU-Offload ausfuehren und haben noch genuegend Spielraum fuer Betriebssystem, Browser und andere Anwendungen.
Apple Silicon: Warum M-Series-Macs besonders effizient fuer lokale Inferenz sind#
Apple-Silicon-Macs verwenden Unified Memory: Derselbe RAM-Pool ist sowohl fuer die CPU als auch die GPU zugaenglich, ohne Datentransfer-Penalty. Ein M3 MacBook Pro mit 24 GB Unified Memory kann viele dedizierte GPU-Setups mit weniger VRAM uebertreffen.
Ein 7B-Modell in Q4-Quantisierung benoetigt etwa 4-5 GB RAM (Ollama VRAM Guide / LocalLLM.in, 2026). Ein M3 Max mit 64 GB kann 13B- oder sogar 30B-Modelle ausfuehren, ohne dass der Speicher knapp wird, und die Leistung ist besser, als man von einem Laptop erwarten wuerde. Fuer Entwickler, die lokale KI unterwegs nutzen moechten, ist Apple Silicon derzeit die praktischste Option pro investiertem Euro.
NVIDIA-GPU-Stufen und was sie jeweils ermoeglichen#
| GPU | VRAM | Wofuer gut geeignet |
|---|---|---|
| RTX 3060 / 4060 | 8-12 GB | 7B-Modelle, vollstaendiger GPU-Offload |
| RTX 3080 / 4070 | 10-12 GB | 7B-13B-Modelle je nach Quantisierung |
| RTX 3090 / 4090 | 24 GB | 13B-34B-Modelle, schnelle Inferenz |
| A100 / H100 (Rechenzentrum) | 40-80 GB | 70B+-Modelle in voller Praezision |
Fuer Consumer-GPU-Empfehlungen im Jahr 2026 bietet die RTX 4060 Ti (16 GB) das beste Preis-VRAM-Verhaeltnis in der Mittelklasse.
Eine praktische Faustregel: 4-5 GB RAM pro 7B-Modell bei Q4-Quantisierung#
- 7B-Modell bei Q4: ~4-5 GB
- 13B-Modell bei Q4: ~8-9 GB
- 34B-Modell bei Q4: ~20 GB
- 70B-Modell bei Q4: ~40 GB
Diese Zahlen sagen Ihnen, ob ein Modell in Ihren GPU-VRAM fuer vollstaendigen GPU-Offload (schnell) passt oder ob es teilweisen GPU- + CPU-Inferenz nutzen muss (langsamer). Wenn das Modell nicht vollstaendig in den VRAM passt, faellt Ollama elegant auf CPU-Inferenz fuer den Ueberlauf zurueck.
Schritt 1: Ollama installieren#
Ollama ueberschritt Anfang 2026 die Marke von 162.000 GitHub-Sternen, gegenueber 28.900 im Q1 2024 (GitHub / Runa Capital ROSS Index, 2024-2026). Es ist die Standard-Inferenz-Engine fuer lokales Modell-Deployment und die Grundlage, auf der sowohl Open WebUI als auch AnythingLLM aufbauen.
Installation: macOS, Linux und Windows (WSL2)#
macOS:
curl -fsSL https://ollama.com/install.sh | shAlternativ koennen Sie die macOS-App von ollama.com fuer eine GUI-Installation herunterladen. Die App installiert die CLI automatisch.
Linux:
curl -fsSL https://ollama.com/install.sh | shWindows: Laden Sie das Installationsprogramm von ollama.com herunter. WSL2 wird empfohlen, wenn Sie Open WebUI oder AnythingLLM ueber Docker neben Ollama ausfuehren moechten. Die native Windows-Installation ist fuer die alleinige Nutzung von Ollama ausreichend.
Erstes Modell herunterladen#
ollama pull llama3.2 # Metas Llama 3.2 (3B) -- schnell, Allzweck
ollama pull phi4-mini # Microsofts Phi-4 Mini (3.8B) -- stark beim Schlussfolgern
ollama pull gemma3 # Googles Gemma 3 (4B) -- effiziente MehrsprachigkeitFuer eine Erstinstallation sind llama3.2 oder phi4-mini solide Optionen. Nach dem Download testen Sie:
ollama run llama3.2Sie sollten einen Prompt sehen. Geben Sie eine Nachricht ein und druecken Sie Enter. Wenn Sie eine Antwort erhalten, funktioniert die Inferenzschicht.
Quantisierungsstufen verstehen: Q4_K_M als Standard-Ausgangspunkt#
Quantisierung reduziert die Modellpraezision, um Dateigroesse und Speicherbedarf zu verringern. Der Kompromiss ist eine geringe Einbusse bei der Ausgabequalitaet.
Q8 liegt nahe an voller Praezision -- hoechste Qualitaet, groesster Speicherbedarf. Verwenden Sie es, wenn Sie genuegend VRAM haben. Q4_K_M ist der Standard-Kompromiss: 4-Bit-Quantisierung mit K-Means-Optimierung, geringe Groesse, gute Qualitaet und der Standard fuer die meisten Anwendungsfaelle. Q2 und Q3 verursachen merkliche Qualitaetsverluste und lohnen sich nur bei stark eingeschraenkter Hardware.
Bei ollama pull ist der Standard-Download in der Regel Q4_K_M. Beginnen Sie mit dem Standard. Experimentieren Sie nur dann mit Q8, wenn Sie Qualitaetsprobleme bemerken und genuegend VRAM-Spielraum haben.
Ihre Oberflaeche waehlen: Open WebUI vs. AnythingLLM#
Open WebUI: Ideal fuer Entwickler, Power-User und Mehrmodell-Wechsel#
Open WebUI ist eine umfassende Chat-Oberflaeche fuer Ollama und API-kompatible Modellanbieter. Es funktioniert wie eine ausgefeilte Chat-Anwendung: Modellwechsel, Chatverlauf, Dokumenten-Upload fuer kontextbezogene Fragen, Multi-User-Unterstuetzung. Ueber 126.000 GitHub-Sterne Anfang 2026 (GitHub / OpenAlternative, 2026) -- damit ist es die am weitesten verbreitete lokale KI-Oberflaeche.
Verwenden Sie Open WebUI, wenn Sie:
- Zwischen mehreren lokal installierten Modellen in derselben Oberflaeche wechseln moechten
- Eine Chat-Oberflaeche wuenschen, die wie Claude.ai oder ChatGPT funktioniert, aber gegen Ihre lokalen Modelle laeuft
- Der primaere Nutzer sind und direkte Kontrolle ueber Einstellungen und Modellparameter haben moechten
- Zugang fuer eine kleine Anzahl weiterer Nutzer bereitstellen moechten (Multi-User-Authentifizierung ist integriert)
AnythingLLM: Ideal fuer Teams, Dokumenten-Q&A und Workspace-Organisation#
AnythingLLM ist um Workspaces herum organisiert -- jeder mit eigenem Dokumentenkorpus, eigener LLM-Konfiguration und eigenem Gespraechsverlauf. Das ist nuetzlich, wenn Sie mehrere Wissensbereiche verwalten und diese nicht miteinander vermischen moechten. Beispiel: ein Workspace fuer Kundendokumente, ein anderer fuer Ihre Codebasis.
55.794 GitHub-Sterne Anfang 2026 (GitHub / OpenAlternative, 2026). Weniger als Open WebUI, aber AnythingLLM hat einen deutlichen Vorsprung bei team- und dokumentenorientierten Deployments.
Verwenden Sie AnythingLLM, wenn Sie:
- PDFs hochladen und Fragen zu deren Inhalt stellen moechten
- Ein Setup fuer ein kleines Team einrichten, das separate Dokumentensammlungen pro Nutzer oder Projekt benoetigt
- Workspace-Isolierung zwischen verschiedenen Wissensbereichen wuenschen
- Eine Desktop-App gegenueber einer Weboberflaeche bevorzugen
Wann beide sinnvoll sind: verschiedene Aufgaben, verschiedene Tools#
Ehrlich gesagt brauchen die meisten Nutzer nicht beides. Aber Open WebUI fuer allgemeinen Chat und AnythingLLM fuer einen spezifischen Dokumentenkorpus parallel zu betreiben, ist eine sinnvolle Aufteilung. Beide verbinden sich mit demselben Ollama-Backend, es entsteht also keine Dopplung auf der Inferenzseite.
Welches Tool zuerst installieren#
Wenn Ihr primaerer Bedarf allgemeiner lokaler KI-Chat ist: Beginnen Sie mit Open WebUI.
Wenn Ihr primaerer Bedarf Dokumenten-Q&A gegen bestimmte Dateien ist: Beginnen Sie mit der Desktop-App von AnythingLLM.
Wenn Sie unsicher sind: Open WebUI hat den kuerzeren Einrichtungsweg und deckt mehr Anwendungsfaelle ab.
Schritt 2a: Open WebUI installieren#
Docker-Installation (empfohlen fuer die meisten Nutzer)#
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:mainDamit laeuft Open WebUI auf Port 3000. Zugriff ueber http://localhost:3000.
Wenn Sie einen Mac verwenden und Docker in einer VM laeuft (Docker Desktop), ersetzen Sie host.docker.internal:host-gateway durch Ihre tatsaechliche Host-IP. Die Standard-host-gateway-Konfiguration leitet moeglicherweise nicht korrekt zu Ihrer Ollama-Instanz weiter.
Open WebUI mit Ihrer lokalen Ollama-Instanz verbinden#
Beim ersten Start fragt Open WebUI nach einer Ollama-Basis-URL. Geben Sie http://localhost:11434 ein (der Standard-Port von Ollama). Open WebUI ruft die Liste der verfuegbaren Modelle automatisch ab.
Falls Open WebUI in Docker laeuft und Ollama unter localhost nicht erreichen kann, versuchen Sie http://host.docker.internal:11434 (macOS/Windows Docker Desktop) oder http://172.17.0.1:11434 (Linux Docker Bridge).
Dokumenten-Upload und RAG fuer lokale Dateien aktivieren#
Open WebUI enthaelt ein integriertes RAG-System (Retrieval-Augmented Generation). Laden Sie Dokumente ueber das Bueroklammer-Symbol in der Chat-Oberflaeche hoch und stellen Sie Fragen dazu. Fuer schnelle Fragen zu einem einzelnen Dokument ist das ausreichend. Fuer produktive Dokumenten-Workflows, bei denen Sie organisierte Sammlungen ueber mehrere Dateien hinweg benoetigen, bietet das Workspace-Modell von AnythingLLM mehr Struktur.
Multi-User-Zugang und einfache Authentifizierung einrichten#
Beim ersten Start fordert Open WebUI Sie auf, ein Administratorkonto zu erstellen. Weitere Nutzer koennen sich ueber dieselbe URL registrieren. Um die Registrierung auf eingeladene Nutzer zu beschraenken, navigieren Sie zu Admin Panel > Settings > General und deaktivieren Sie die Registrierung neuer Nutzer.
Schritt 2b: AnythingLLM installieren#
Desktop-App vs. Server: Was Sie verwenden sollten#
Die Desktop-App ist eine eigenstaendige Electron-Anwendung. Installieren Sie sie wie jede Desktop-Anwendung. Am besten geeignet fuer den Einzelgebrauch: eine Person, ein Rechner, kein Docker, keine Konfigurationsdateien.
Die Server-Version ist ein Docker-basiertes Deployment, besser geeignet fuer kleine Teams, die von verschiedenen Rechnern aus Zugang benoetigen. Erfordert einen Server oder einen dauerhaft laufenden Rechner.
Fuer eine Erstinstallation ist die Desktop-App der schnellste Weg.
AnythingLLM mit Ollama als LLM-Anbieter verbinden#
Beim ersten Start fragt AnythingLLM nach einem LLM-Anbieter. Waehlen Sie "Ollama", geben Sie http://localhost:11434 als Basis-URL ein und waehlen Sie Ihr Modell aus dem Dropdown-Menue. AnythingLLM nutzt Ollama fuer die gesamte Inferenz.
Workspaces erstellen und Dokumente fuer Q&A hochladen#
Erstellen Sie einen Workspace (klicken Sie auf "+ New Workspace"), vergeben Sie einen Namen und laden Sie Dokumente ueber die Drag-and-Drop-Oberflaeche hoch. AnythingLLM zerteilt die Dokumente in Abschnitte, erstellt Embeddings und speichert die Vektoren in seiner lokalen Datenbank. Stellen Sie Fragen in der Chat-Oberflaeche: Der Agent ruft relevante Abschnitte ab und konstruiert eine Antwort aus Ihren Dokumenten.
Fuer grosse Dokumentensammlungen ist das Workspace-Konzept deutlich uebersichtlicher als die dokumentenbezogenen Uploads pro Chat bei Open WebUI.
Vektorspeicher einrichten: LanceDB (Standard), ChromaDB oder Weaviate#
AnythingLLM verwendet standardmaessig LanceDB -- eine eingebettete Vektordatenbank, die keine zusaetzliche Einrichtung erfordert. Fuer die meisten Nutzer ist der Standard ausreichend.
Fuer groessere Dokumentenkorpora oder Teams, die gemeinsamen Vektorspeicher benoetigen, unterstuetzt AnythingLLM ChromaDB und Weaviate als alternative Backends. Konfiguration erfolgt unter Settings > Vector Database.
Modellauswahl: Was auf Ihrer Hardware laeuft#
Unter 16 GB RAM: Phi-4 Mini (3.8B), Gemma 3 4B, Llama 3.2 3B#
Diese Modelle laufen auf eingeschraenkter Hardware mit brauchbarer Geschwindigkeit. Phi-4 Mini leistet bei Reasoning-Aufgaben mehr, als seine Groesse vermuten laesst. Gemma 3 4B eignet sich gut fuer mehrsprachige Aufgaben. Llama 3.2 3B ist das schnellste der drei und am besten getestet.
16-32 GB RAM: Llama 3.1 8B, Mistral 7B, DeepSeek-R1 7B#
In diese Kategorie fallen die meisten Entwickler- und IT-Setups. Llama 3.1 8B ist ein sicherer Allzweck-Standard. Mistral 7B ist merklich besser beim Programmieren. DeepSeek-R1 7B ist die richtige Wahl, wenn Sie an Reasoning- oder Logikaufgaben arbeiten.
32 GB+ RAM oder 16 GB+ VRAM: Llama 3.3 70B (Q4), Qwen2.5 32B#
Auf dieser Stufe koennen Sie Modelle ausfuehren, die bei vielen Benchmarks mit Frontier-API-Modellen mithalten. Llama 3.3 70B in Q4-Quantisierung benoetigt 32 GB+ RAM und ist ohne eine GPU mit 24 GB+ VRAM langsam, aber die Ausgabequalitaet liegt in einer ganz anderen Liga als bei den 7B-Modellen. Qwen2.5 32B ist die staerkere Wahl fuer mehrsprachige Aufgaben oder Programmierung.
Modellempfehlungen nach Aufgabentyp#
| Aufgabe | Empfohlenes Modell |
|---|---|
| Allgemeiner Chat und Q&A | Llama 3.1 8B oder Llama 3.3 70B |
| Code-Generierung | Mistral 7B oder DeepSeek-R1 7B |
| Dokumentenanalyse / RAG | Llama 3.1 8B oder Phi-4 Mini |
| Reasoning / Logik | DeepSeek-R1 7B oder Phi-4 |
| Mehrsprachig | Gemma 3 4B oder Qwen2.5 |
So messen Sie die Leistung: Token pro Sekunde als praktischer Massstab#
Token pro Sekunde (tok/s) ist die Kennzahl, die im Alltag zaehlt. Unter 5 tok/s fuehlt sich traege an. 15-25 tok/s sind komfortabel. Ueber 40 tok/s bemerken Sie die Textgenerierung nicht mehr.
Testen Sie ein Modell nach dem Download:
ollama run llama3.1 "Summarize the history of the Roman Empire in 200 words."Beobachten Sie die nach dem Durchlauf angezeigte Token-Generierungsgeschwindigkeit. Liegt sie unter Ihrem nutzbaren Schwellenwert, probieren Sie ein kleineres Modell oder eine niedrigere Quantisierungsstufe.
Wo DIY-lokale-KI an ihre Grenzen stoesst#
Teamzugang: Ein lokales Modell fuer mehrere Nutzer freizugeben erfordert Infrastruktur#
Eine lokale Ollama-Instanz auf einem Rechner funktioniert fuer eine Person. Sie fuer ein Team freizugeben bedeutet: Netzwerkzugang konfigurieren, gleichzeitige Verbindungen verwalten, Authentifizierung einrichten und Ressourcenkonflikte handhaben, wenn mehrere Nutzer gleichzeitig Inferenz ausfuehren. Das ist machbar, aber es ist kein persoenliches Setup mehr.
55 % der Unternehmens-KI-Inferenz wird inzwischen vor Ort oder an der Edge ausgefuehrt, gegenueber 12 % im Jahr 2023 (dasroot.net / IDC data, 2026). Die dafuer benoetigte Infrastruktur ist erheblich komplexer als eine persoenliche Ollama-Installation.
Compliance: HIPAA und DSGVO erfordern dokumentierte Kontrollen jenseits einer persoenlichen Installation#
Ein persoenliches Ollama-Setup auf Ihrem Laptop ist kein HIPAA-konformes Deployment. Egal, wie lokal es ist. Compliance erfordert dokumentierte Zugriffskontrollen, Audit-Logging, Konfiguration der Verschluesselung ruhender Daten und den Nachweis durchgesetzter Richtlinien. Eine persoenliche Installation bietet nichts davon.
RAG im grossen Massstab: Grosse Dokumentenkorpora benoetigen eine dedizierte Vektorinfrastruktur#
Fuer persoenliche Dokumenten-Q&A mit einigen Dutzend Dokumenten funktioniert AnythingLLMs integriertes LanceDB gut. Fuer ein Unternehmen mit Tausenden von Dokumenten -- oder wenn die Qualitaet der Suchergebnisse tatsaechlich geschaeftsrelevante Entscheidungen beeinflusst -- benoetigen Sie eine dedizierte Vektorinfrastruktur: saubere Chunking-Pipelines, Auswahl des Embedding-Modells, Indexierungsstrategien und Retrieval-Tuning. Das Standard-Setup ist dafuer nicht konzipiert.
Zuverlaessigkeit: Lokale Hardware bietet nicht die Verfuegbarkeit und Redundanz eines verwalteten Deployments#
Ein persoenliches Setup auf einer Workstation faellt aus, wenn der Rechner neu startet, der Strom ausfaellt oder jemand den Laptop zuklappt. Fuer Workflows, die konstante Verfuegbarkeit erfordern, brauchen Sie Infrastruktur -- keinen persoenlichen Rechner.
Wann der Wechsel zu einem verwalteten Deployment sinnvoll ist#
Ein persoenliches Ollama-Setup ist der richtige Ausgangspunkt: fuer Einzelpersonen, die lokale KI evaluieren, Entwickler, die gegen lokale Modelle entwickeln, oder Teams in der fruehen Erkundungsphase, bevor sie wissen, was sie brauchen.
Wenn die Anforderungen wachsen -- mehrere Nutzer, Compliance, Integration in Geschaeftstools, zuverlaessige Verfuegbarkeit -- schafft ein Single-Machine-Setup mehr Probleme, als es loest.
Silverthread Labs baut verwaltete Deployments auf Infrastruktur, die Sie kontrollieren: GPU-Server, Modell-Serving, Zugangsmanagement, RAG-Pipelines und Integration in Ihre vorhandenen Tools -- ohne dass die Daten dorthin gelangen, wo Sie sie nicht haben moechten. Zur Serviceseite fuer Self-Hosted AI oder kontaktieren Sie uns direkt, um die Anforderungen Ihres Teams zu besprechen.
Haeufig gestellte Fragen#
Wie fuehre ich ein KI-Modell lokal auf meinem eigenen Rechner aus?
Installieren Sie Ollama von ollama.com, fuehren Sie ollama pull llama3.2 aus, um ein Modell herunterzuladen, und starten Sie dann mit ollama run llama3.2 eine Sitzung. Fuer eine Weboberflaeche installieren Sie Open WebUI ueber Docker und verbinden es mit Ihrer Ollama-Instanz unter http://localhost:11434.
Wie viel RAM brauche ich, um ein 7B-Modell lokal auszufuehren?
16 GB sind das praktische Minimum. Bei Q4-Quantisierung belegt ein 7B-Modell etwa 4-5 GB RAM, was auf einem 16-GB-System genuegend Spielraum fuer Betriebssystem und andere Anwendungen laesst. Unter 16 GB verwenden Sie ein kleineres Modell: Phi-4 Mini (3.8B) oder Llama 3.2 (3B).
Ist es kostenlos, KI lokal mit Ollama auszufuehren?
Die Ollama-Software und alle ueber sie verfuegbaren Open-Weight-Modelle sind kostenlos. Sie bezahlen fuer die Hardware -- einen Rechner, der die RAM- und optional GPU-Anforderungen erfuellt. Keine API-Kosten, keine Abogebuehren, keine Kosten pro Abfrage.
Was ist der Unterschied zwischen Open WebUI und AnythingLLM?
Open WebUI ist eine universelle Chat-Oberflaeche: ausgereift, modellflexibel, gut fuer den taeglichen Chat und Q&A. AnythingLLM ist um Dokumenten-Workspaces herum aufgebaut und damit die bessere Wahl fuer Dokumenten-Q&A und Teams, die verschiedene Wissensbereiche getrennt halten muessen. Beide nutzen Ollama als Inferenz-Backend.
Kann ich lokale KI ohne Internetverbindung nutzen?
Ja. Sobald Ollama installiert und die Modelle heruntergeladen sind, laeuft der gesamte Stack vollstaendig offline. Keine API-Aufrufe waehrend der Inferenz. Eine Internetverbindung ist nur beim Herunterladen neuer Modelle erforderlich.
Was ist Q4-Quantisierung und sollte ich sie verwenden?
Q4_K_M ist 4-Bit-Quantisierung mit K-Means-Optimierung. Sie reduziert die Dateigroesse im Vergleich zur vollen Praezision ungefaehr um die Haelfte, bei einem geringen Qualitaetskompromiss. Fuer die meisten Aufgaben im Alltag ist der Qualitaetsunterschied nicht spuerbar. Beginnen Sie mit Q4_K_M. Wechseln Sie nur dann zu Q8, wenn Sie spezifische Qualitaetsprobleme bemerken und genuegend VRAM zur Verfuegung haben.
