Self-Hosted AI vs. Cloud: Was ist die richtige Wahl für Ihr Unternehmen?
Die Frage lautet nicht, was besser ist. Die Frage ist, was zu Ihrer konkreten Situation passt: zu Ihrem Workload, Ihrem Compliance-Risiko und dazu, ob Sie Ingenieure haben, die das Ganze tatsächlich betreiben können. Self-Hosted AI und Cloud-KI sind keine konkurrierenden Philosophien. Es sind unterschiedliche Werkzeuge mit unterschiedlichen Kompromissen, und die richtige Antwort hängt fast ausschließlich davon ab, was Sie entwickeln und für wen.
Dieser Leitfaden behandelt die tatsächlichen Abwägungen: Kostenstruktur, Compliance-Anforderungen, betrieblicher Aufwand und die Kriterien, die bei Produktiv-Deployments wirklich zählen. Kein Beifall für die eine oder andere Seite.
Die Kurzantwort: Es hängt von drei Faktoren ab#
Die meisten Diskussionen zu Self-Hosted vs. Cloud verstecken die Entscheidungskriterien tief im Artikel. Hier stehen sie gleich am Anfang.
Ihre Compliance-Anforderungen#
Wenn Sie im Gesundheitswesen, im Rechtswesen oder in der Finanzbranche tätig sind und Ihre Workloads regulierte Daten betreffen -- Patientenakten, Mandantenkommunikation, Finanztransaktionen -- kann Ihr Compliance-Framework die Entscheidung für Sie treffen, noch bevor die Kostenrechnung überhaupt relevant wird.
Cloud-APIs können einige Anforderungen über Business Associate Agreements (BAAs) und Datenschutznachträge erfüllen, aber nicht alle. HIPAA verlangt, dass elektronisch geschützte Gesundheitsinformationen (ePHI) niemals eine kontrollierte Umgebung verlassen. Ein Urteil des Southern District of New York aus dem Jahr 2026 stellte fest, dass Dokumente, die mit kommerziellen generativen KI-Tools erstellt und einem Anwalt mitgeteilt wurden, nicht dem Anwaltsprivileg (Attorney-Client Privilege) unterliegen, da die Kommunikation über öffentliche KI-Plattformen die erforderlichen Vertraulichkeitselemente nicht erfüllt (Debevoise Data Blog, Februar 2026). Für Juristen wird damit eine Architekturfrage zur Frage des rechtlichen Risikos -- eine Frage, die Sie vermutlich beantwortet haben möchten, bevor Sie irgendetwas entwickeln.
Self-Hosting ist in diesen Kontexten keine Option. Es ist die Voraussetzung für Compliance.
Ihr Token-Volumen und Nutzungsmuster#
Cloud-KI ist bei geringem und unregelmäßigem Volumen günstiger. Self-Hosted AI ist bei hohem und berechenbarem Volumen günstiger. Der Break-Even variiert je nach Modell und Hardware, aber ein konsistentes Muster zeigt sich: Organisationen, die weniger als 5-10 Millionen Tokens pro Monat verarbeiten, sind fast immer mit Cloud-APIs besser bedient. Organisationen, die 100 Millionen oder mehr Tokens pro Monat verarbeiten -- insbesondere mit planbaren Workloads -- können jährliche Einsparungen von 5 bis 50 Millionen Dollar erzielen, indem sie ihre Inferenz-Infrastruktur selbst betreiben (IDC, 2025).
Ihre betriebliche Kapazität#
Self-Hosting ist kein Plug-and-Play. Es erfordert echte Ingenieurarbeit für Deployment, Absicherung und Wartung. Ein Produktiv-Deployment umfasst Modellauswahl, Hardware-Dimensionierung, Konfiguration der Inferenz-Engine, Security-Hardening, Monitoring und laufendes Update-Management -- und das ist, bevor irgendetwas ausfällt. Wenn diese Kapazität intern nicht vorhanden ist, übersteigt der betriebliche Aufwand des Self-Hostings oft die Kosteneinsparungen, zumindest im ersten Jahr.
Was "Self-Hosted AI" tatsächlich bedeutet#
Self-Hosted AI bedeutet, ein Sprachmodell vollständig innerhalb der eigenen Infrastruktur zu betreiben: auf eigener Hardware, auf Servern unter Ihrer Kontrolle, innerhalb Ihres Netzwerkperimeters. Keine Daten verlassen Ihre Umgebung. Kein Dritter verarbeitet Ihre Prompts oder Completions.
On-Premise vs. Private Cloud vs. Hybrid#
Es gibt drei gängige Deployment-Modelle:
- On-Premise: Modelle laufen auf physischer Hardware in Ihrer Einrichtung. Maximale Kontrolle, keine Abhängigkeit von externer Cloud-Infrastruktur. Erfordert Vorabinvestitionen in Hardware und physische Wartung.
- Private Cloud: Modelle laufen auf Cloud-Infrastruktur (AWS, Azure, GCP), die exklusiv für Ihre Organisation bereitgestellt wird. Sie erhalten Elastizität ohne geteilte Mandantschaft. Die Daten liegen auf Cloud-Infrastruktur, werden aber nicht mit anderen Kunden vermischt.
- Hybrid: Sensible Workloads laufen On-Premise oder in einer Private Cloud. Allgemeine Workloads laufen über verwaltete Cloud-APIs. Die meisten ausgereiften Produktiv-Deployments landen hier nach einigen Iterationen.
Was Self-Hosting löst, was ein BAA oder VPN nicht löst#
Diese Unterscheidung ist für Compliance-Arbeit entscheidend: Ein Business Associate Agreement mit einem Cloud-KI-Anbieter ist nicht dasselbe wie Self-Hosting. Ein BAA definiert, wer verantwortlich ist, wenn etwas schiefgeht. Es verhindert nicht, dass die Daten über die Infrastruktur des Anbieters übertragen oder dort verarbeitet werden.
Wenn Ihre Anforderung lautet, dass Daten niemals Ihre Umgebung verlassen -- nicht nur, dass ein Vertrag existiert, falls sie es doch tun -- reicht ein BAA nicht aus. Self-Hosting ist die architektonische Anforderung.
Die Tools, die Self-Hosting praktikabel machen: Ollama, vLLM, Open WebUI#
Das Open-Source-Tooling für Self-Hosted AI hat sich in den letzten zwei Jahren erheblich weiterentwickelt. Drei Tools sind in breitem Produktiveinsatz:
- Ollama: Am besten für Einzelnutzer- und Kleinteam-Deployments geeignet. Einfache Einrichtung, betreibt leistungsfähige Modelle auf einem Laptop oder einer kleinen Workstation.
- vLLM: Hochdurchsatz-Inferenz-Engine für den Produktivbetrieb. Die richtige Wahl für Multi-User- oder High-Volume-Deployments.
- Open WebUI: Benutzeroberfläche mit Zugriffskontrollen, Konversationshistorie und Modellverwaltung.
Ein privates LLM zu deployen ist heute ein Engineering-Projekt, kein Forschungsprojekt. Das ist eine bedeutende Veränderung gegenüber dem Stand von 2023.
Was "Cloud-KI" tatsächlich bedeutet#
Cloud-KI bezeichnet typischerweise den Zugriff auf Sprachmodelle über verwaltete APIs: Sie senden eine Anfrage, erhalten eine Antwort und zahlen pro Token. Drei Stufen lohnt es sich zu unterscheiden.
Vollständig verwaltete Cloud-APIs (OpenAI, Anthropic, Google Vertex)#
Der schnellste Weg in die Produktion. Keine Infrastruktur zu verwalten, sofortiger Zugang zu Frontier-Modellen, einfache Abrechnung pro Token. Daten werden auf geteilter Infrastruktur verarbeitet. Die meisten Anbieter haben Enterprise-Vereinbarungen und Datenschutznachträge, aber die Daten werden über deren Systeme übertragen und verarbeitet.
Private Cloud-Endpoints (AWS Bedrock, Azure OpenAI): nah dran, aber nicht dasselbe#
Eine Mittelstufe. Sie greifen über die Infrastruktur eines großen Cloud-Anbieters innerhalb Ihrer bestehenden Cloud-Umgebung auf Modelle zu, mit stärkerer Isolation als bei öffentlichen APIs. Die Daten liegen jedoch weiterhin auf der Infrastruktur des Anbieters. Die Hardware gehört nicht Ihnen, und die Bedingungen des Anbieters gelten.
Was die Nutzungsbedingungen tatsächlich über Ihre Daten aussagen#
Die meisten Enterprise-Cloud-KI-Vereinbarungen verbieten ausdrücklich das Training mit Kundendaten. Aber "kein Training" ist etwas anderes als "keine Speicherung" oder "keine Verarbeitung". Sensible Daten machen seit 2025 34,8 % der Eingaben von Mitarbeitenden in KI-Tools aus -- gegenüber 11 % im Jahr 2023 (LeanLaw / Branchenforschung, 2025). Lesen Sie die Datenschutznachträge sorgfältig. Gehen Sie nicht davon aus, dass Cloud-KI für Ihren Anwendungsfall compliant ist.
Wann Self-Hosted AI gewinnt#
Compliance-Anforderungen, die Cloud-APIs nicht erfüllen können#
Gesundheitsdienstleister, deren Workloads ePHI betreffen, Anwaltskanzleien, die vertrauliche Mandantendaten verarbeiten, und Finanzdienstleister unter SEC Regulation S-P und FINRA Rule 3110 haben Compliance-Anforderungen, die nicht erfüllt werden können, indem Daten über die Infrastruktur eines Dritten geleitet werden -- unabhängig von den Vertragsbedingungen.
44 % der Unternehmen nennen Datenschutz und Sicherheit als größtes Hindernis bei der LLM-Einführung (Kong Enterprise AI Report, 2025). Für diese Organisationen ist Self-Hosting keine Präferenz. Es ist die Voraussetzung.
Hochvolumige, planbare Workloads, bei denen die Kostenrechnung kippt#
Self-Hosted-Infrastruktur amortisiert sich schnell, wenn die Inferenzlast hoch und konstant ist. Organisationen, die monatlich 100 Millionen+ Tokens verarbeiten, können jährlich 5 bis 50 Millionen Dollar im Vergleich zur Cloud-API-Preisgestaltung im großen Maßstab einsparen (IDC, 2025). Der Break-Even für die meisten Konfigurationen liegt je nach Modellgröße und Hardware zwischen 5 und 60 Millionen Tokens pro Monat.
Die GPU-Preise sind seit 2024 um 40-60 % gefallen (Northflank AI Hosting Report, 2026). Das Hardware-Argument für Self-Hosting ist heute stärker als noch vor 18 Monaten -- und es verbessert sich weiter.
Schutz proprietärer Daten und geistigen Eigentums#
Wenn Ihr KI-System auf proprietäre interne Daten trainiert wird oder darauf zugreift -- Kundendaten, interne Dokumentation, geschäftskritische Workflows -- können Sie über die regulatorische Compliance hinaus geschäftliche Gründe haben, diese Daten nicht über externe Infrastruktur laufen zu lassen. Self-Hosting hält sie architekturbedingt innerhalb Ihrer Umgebung.
Wann Cloud-KI gewinnt#
Frühphasen- und volumensvariable Workloads#
Wenn Sie Ihr erstes KI-Feature entwickeln, einen Pilotbetrieb durchführen oder eine unvorhersehbare Nutzung haben, die sprunghaft steigt und fällt, sind Cloud-APIs fast immer der richtige Startpunkt. Keine Vorabkosten für Hardware, keine Infrastruktur zu warten, sofortiger Zugang zu leistungsfähigen Modellen. Das ist kein Zugeständnis. Es ist die korrekte technische Entscheidung in dieser Phase.
Zugang zu Frontier-Modellen ohne Infrastrukturaufbau#
Die leistungsfähigsten Modelle sind ausschließlich über Cloud-APIs verfügbar. Open-Source-Modelle haben den Abstand für viele Aufgaben deutlich verringert -- Llama 4, Mistral und Qwen erzielen gute Ergebnisse in breiten Benchmarks -- aber für Aufgaben, bei denen die Leistungsfähigkeit von Frontier-Modellen entscheidend ist, ist die Cloud heute Ihr einziger Weg.
Geschwindigkeit bis zur Produktion#
Eine Cloud-API-Integration kann in Tagen live gehen. Ein Self-Hosted-Deployment dauert mindestens Wochen: Hardware-Beschaffung oder Cloud-Provisionierung, Modellbewertung, Infrastruktur-Setup, Security-Hardening, Zugriffskontrollen und Dokumentation. Wenn die Time-to-Production der limitierende Faktor ist, gewinnt die Cloud.
Der tatsächliche Kostenvergleich#
Der Kostenvergleich zwischen Self-Hosted und Cloud-KI hat drei Komponenten, die in den meisten Analysen falsch dargestellt werden.
Cloud-API-Kostenstruktur: Tokenbasierte Abrechnung im großen Maßstab#
Pay-per-Token-Preise sind bei geringem Volumen kalkulierbar und bei hohem Volumen teuer. Bei 10 Millionen Tokens pro Monat sind typische Cloud-API-Kosten überschaubar. Bei einer Milliarde Tokens pro Monat verschiebt sich die Rechnung erheblich. Organisationen mit großen KI-Workloads stoßen regelmäßig auf fünfstellige monatliche API-Rechnungen, die nicht eingeplant waren, als das Projekt noch klein begann.
Self-Hosted-Kostenstruktur: Vorabinvestitionen in Hardware + laufender Betrieb#
Die tatsächlichen Kosten:
- Hardware oder Cloud-GPU-Miete
- Initiale Deployment- und Konfigurations-Engineering (typischerweise 2-4 Wochen Arbeitszeit eines Senior Engineers für ein Produktiv-Deployment)
- Laufender Betrieb (10-20 Stunden DevOps-Zeit pro Monat)
Ein ordentliches Produktiv-Deployment reicht von 15.000-25.000 Dollar für ein einzelnes On-Premise-Modell-Setup bis zu 40.000-80.000 Dollar für ein Multi-Modell-, Multi-User-Enterprise-Deployment mit Compliance-Dokumentation. Der am häufigsten unterschätzte Kostenpunkt ist das Modell-Update-Management. Jedes größere Modell-Update erfordert 1-2 Wochen Engineering-Zeit und verursacht jährlich etwa 17.000-46.000 Dollar an Personalkosten bei Senior-Engineer-Sätzen (AI Pricing Master, 2026). Die meisten Teams erfahren das erst nach dem ersten großen Update-Zyklus.
Der Break-Even: Ab welchem Volumen wird Self-Hosting günstiger#
Die meisten Konfigurationen erreichen den Break-Even zwischen 5 und 60 Millionen Tokens pro Monat. Ab 60 Millionen+ Tokens pro Monat mit einem 70B-Modell ist Self-Hosting typischerweise günstiger als Cloud-API-Preise -- oft deutlich günstiger. Unter 5 Millionen Tokens pro Monat sind Cloud-APIs fast immer günstiger, wenn man alle Self-Hosting-Kosten einrechnet.
| Faktor | Self-Hosted | Cloud-KI |
|---|---|---|
| Datenschutz | Vollständig -- Daten verlassen nie Ihr Netzwerk | Abhängig von Anbieter und Vertrag |
| HIPAA-Compliance | Architekturbedingt erreichbar | Erfordert BAA; deckt möglicherweise nicht alle Anforderungen ab |
| DSGVO-Compliance | Daten verbleiben in Ihrer Jurisdiktion | Abhängig von den Datenresidenz-Optionen des Anbieters |
| Vorabkosten | 15.000-80.000 $+ Deployment | Keine |
| Laufende Kosten im großen Maßstab | Niedrig (Hardware amortisiert sich) | Hoch bei Volumen (tokenbasierte Abrechnung) |
| Break-Even-Volumen | ~5-60 Mio. Tokens/Monat | Entfällt |
| Zugang zu Frontier-Modellen | Begrenzt auf Open-Source-Releases | Voller Zugang zu GPT-4o, Claude, Gemini |
| Time-to-Production | Wochen bis Monate | Tage |
| Betrieblicher Aufwand | 10-20 Std./Monat DevOps | Nahezu null |
| Kontrolle über Modell-Updates | Sie entscheiden, wann aktualisiert wird | Anbieter aktualisiert nach eigenem Zeitplan |
| Anpassbarkeit | Volles Fine-Tuning und RAG-Kontrolle | Begrenzt durch die API-Oberfläche des Anbieters |
Compliance: Wo die Entscheidung für Sie getroffen wird#
HIPAA: ePHI und die Lücke des Business Associate Agreement#
Die HIPAA Security Rule verlangt von Covered Entities und Business Associates die Umsetzung technischer Schutzmaßnahmen, die die Vertraulichkeit, Integrität und Verfügbarkeit von ePHI sicherstellen. Ein Business Associate Agreement mit einem Cloud-KI-Anbieter schafft vertragliche Verantwortlichkeit. Es verhindert jedoch nicht, dass ePHI über die Infrastruktur des Anbieters übertragen oder dort verarbeitet wird.
Einige Cloud-Anbieter bieten HIPAA-fähige Konfigurationen an, aber die Implementierungsdetails erfordern sorgfältige Prüfung. Self-Hosting eliminiert diese Risikokategorie, indem ePHI innerhalb Ihres Netzwerkperimeters verbleibt.
Eine detaillierte Aufschlüsselung der HIPAA-Compliance für KI-Systeme finden Sie unter HIPAA-konforme KI-Systeme entwickeln.
Anwaltsprivileg: Warum Cloud-KI ein rechtliches Risiko schafft#
Das SDNY-Urteil vom Februar 2026 stellte fest, dass vertrauliche Mandantendaten, die über öffentliche kommerzielle KI-Plattformen verarbeitet werden, ihren Privileg-Schutz verlieren, da die Kommunikation die erforderlichen Vertraulichkeitselemente nicht erfüllt. Das Urteil ist eng gefasst, aber die Implikation ist klar: Anwaltskanzleien, die öffentliche Cloud-KI-Tools zur Verarbeitung von Mandantendaten nutzen, schaffen ein rechtliches Risiko.
Berufsrechtliche Leitlinien der Anwaltskammern in mehreren US-Bundesstaaten tendieren dahin, von Kanzleien eine Sorgfaltsprüfung zu verlangen, wie KI-Tools mit Mandantendaten umgehen. Self-Hosted-Infrastruktur -- bei der Mandantendaten niemals ein Drittsystem erreichen -- ist die architektonisch fundierte Antwort.
DSGVO und Datensouveränität: Wo Ihre Daten physisch liegen, ist entscheidend#
Die Datenschutz-Grundverordnung der EU verlangt, dass personenbezogene Daten von EU-Bürgern in Übereinstimmung mit den Betroffenenrechten verarbeitet werden, einschließlich des Rechts auf Löschung. Wenn Ihr KI-System personenbezogene Daten von EU-Bürgern verarbeitet, ist der Datenstandort entscheidend. DSGVO-Bußgelder erreichten 2024 1,2 Milliarden Euro -- die Durchsetzung ist aktiv und nimmt zu (Secure Privacy, 2026).
Die Hybrid-Architektur, bei der die meisten Produktivsysteme landen#
Wenige ausgereifte Produktiv-Deployments sind rein das eine oder das andere. Das Muster, bei dem die meisten Engineering-Teams nach 12-18 Monaten ankommen, sieht so aus:
- Sensible oder regulierte Workloads laufen auf Self-Hosted- oder Private-Cloud-Infrastruktur: Patientenakten, Rechtsdokumente, Finanztransaktionen, proprietäre interne Daten.
- Allgemeine oder öffentlich zugängliche Workloads laufen über verwaltete Cloud-APIs: kundenorientierte Interfaces, Content-Generierung, Suche und Zusammenfassung, wenn die Eingabedaten nicht sensibel sind.
- Frontier-Modell-Leistung bei Bedarf wird über Cloud-APIs für spezifische High-Stakes-Aufgaben abgerufen, bei denen Open-Source-Modelle noch nicht wettbewerbsfähig sind.
Sie erhalten private Infrastruktur dort, wo Compliance und Kostenrechnung es erfordern, und Cloud-APIs dort, wo Sie Geschwindigkeit oder Frontier-Leistung benötigen. Das ist kein Kompromiss -- so funktioniert schlicht die Mathematik.
Wie der laufende Betrieb tatsächlich aussieht#
Self-Hosted: Wartung, Updates und der Engineering-Aufwand, den niemand bewirbt#
Ein Self-Hosted-Produktiv-Deployment ist ein laufendes System. Modell-Updates erfolgen nicht automatisch -- Sie bewerten neue Versionen, testen sie gegen Ihre Workloads und deployen bewusst. Jedes größere Modell-Update erfordert typischerweise 1-2 Wochen Engineering-Zeit. Sicherheitspatches für den Inferenz-Stack, das Betriebssystem und unterstützende Tools müssen nach eigenem Zeitplan eingespielt werden. Monitoring und Alerting müssen konfiguriert werden, und dann muss jemand sie im Blick behalten.
Die realistischen laufenden Betriebskosten für ein Einzelmodell-Deployment betragen 10-20 Stunden DevOps-Zeit pro Monat, plus Engineering-Zeit für Modell-Updates. Wenn diese Kapazität intern nicht vorhanden ist, muss sie extern eingekauft werden.
Cloud: Abhängigkeitsrisiko, Preisänderungen der Anbieter und Rate-Limits#
Verwaltete APIs erfordern fast keinen betrieblichen Aufwand Ihrerseits. Im Gegenzug: Sie kontrollieren nicht, wann sich Modelle ändern (Anbieter aktualisieren nach eigenem Zeitplan, was die Outputs beeinflussen kann), Sie stoßen bei Spitzenlasten an Rate-Limits, und Sie sind Preisänderungen der Anbieter ausgesetzt. API-Preise haben einen Abwärtstrend gezeigt, aber dieser Trend ist nicht garantiert. Die Abhängigkeit von der Preisgestaltung und den Bedingungen eines einzelnen Anbieters ist ein echtes Geschäftsrisiko für jedes System mit signifikantem KI-Budget.
Entscheidungsframework: Welcher Weg passt zu Ihrem Workload#
Wählen Sie Self-Hosted, wenn:
- Ihr Workload ePHI, vertrauliche Mandantendaten oder Finanzdaten unter SEC Regulation S-P oder FINRA Rule 3110 betrifft
- Sie konsistent mehr als 30-60 Millionen Tokens pro Monat verarbeiten
- Sie proprietäre Trainings- oder Retrieval-Daten haben, die Ihr Netzwerk nicht verlassen dürfen
- Sie volle Kontrolle über Modellauswahl, Updates und Fine-Tuning benötigen
- Ihre Compliance-Dokumentation architektonische Nachweise erfordert, dass Daten Ihre Umgebung nie verlassen haben
Wählen Sie Cloud-KI, wenn:
- Sie sich in der frühen Entwicklung befinden oder einen Piloten durchführen
- Ihr Nutzungsvolumen gering, unregelmäßig oder unvorhersehbar wachsend ist
- Sie Frontier-Modell-Leistung für Aufgaben benötigen, bei denen Open-Source-Modelle nicht konkurrenzfähig sind
- Sie keine Anforderungen an Datensensibilität für den jeweiligen Workload haben
- Sie in Tagen statt Wochen live gehen müssen
Erwägen Sie Hybrid, wenn:
- Ihre Organisation sowohl regulierte als auch nicht regulierte Workloads hat
- Sie mit der Cloud starten und hochvolumige Workloads auf Self-Hosted migrieren möchten, sobald die Nutzung stabil ist
- Verschiedene Abteilungen unterschiedliche Compliance-Anforderungen haben
Für eine technische Bewertung Ihres spezifischen Workloads und Compliance-Umfelds bietet Silverthread Labs ein kostenloses Automatisierungs-Audit an, das Architekturentscheidungen zusammen mit einer betrieblichen Analyse abdeckt.
FAQ#
Was ist der Unterschied zwischen Self-Hosted AI und Cloud-KI? Self-Hosted AI betreibt Sprachmodelle vollständig innerhalb Ihrer eigenen Infrastruktur: auf Hardware unter Ihrer Kontrolle, innerhalb Ihres Netzwerks. Ihre Daten verlassen nie Ihre Umgebung. Cloud-KI leitet Ihre Anfragen über die Infrastruktur eines Drittanbieters per API. Self-Hosted gibt Ihnen volle Datensouveränität; die Cloud bietet schnelleres Deployment und Zugang zu Frontier-Modellen.
Ab wann wird Self-Hosted AI günstiger als Cloud-APIs? Der Break-Even hängt von Modellgröße, Hardware-Konfiguration und Nutzungsmustern ab. Der allgemeine Bereich liegt bei 5-60 Millionen Tokens pro Monat. Darunter sind Cloud-APIs typischerweise günstiger, wenn man Hardware, Deployment-Engineering und laufenden Betrieb einrechnet. Über 60 Millionen Tokens pro Monat gewinnt Self-Hosting fast immer bei den Kosten. Organisationen, die monatlich 100 Millionen+ Tokens verarbeiten, können jährlich 5 bis 50 Millionen Dollar einsparen, indem sie ihre Inferenz-Infrastruktur selbst betreiben (IDC, 2025).
Ist Self-Hosted AI HIPAA-konform? Es kann es sein -- ePHI verlässt nie Ihr Netzwerk, was die Datenexposition gegenüber Dritten eliminiert, die Cloud-APIs erzeugen. Aber das erfordert eine korrekte Implementierung: Netzwerksegmentierung, Zugriffskontrollen, Audit-Logging, Verschlüsselung im Ruhezustand und bei der Übertragung sowie Dokumentation. Self-Hosting ist die Voraussetzung für HIPAA-Compliance bei KI-Workloads, keine Garantie dafür.
Verletzt die Nutzung von Cloud-KI das Anwaltsprivileg? Ein Urteil eines US-Bezirksgerichts (SDNY) aus dem Jahr 2026 stellte fest, dass Dokumente, die mit kommerziellen generativen KI-Tools erstellt und einem Anwalt mitgeteilt wurden, nicht dem Anwaltsprivileg (Attorney-Client Privilege) unterliegen, da die Kommunikation über eine öffentliche KI-Plattform die erforderlichen Vertraulichkeitselemente nicht erfüllt. Self-Hosted-Infrastruktur -- bei der Mandantendaten niemals ein Drittsystem erreichen -- beseitigt dieses Risiko.
Was sind die versteckten Kosten des Self-Hostings eines LLM? Die am häufigsten unterschätzten Kosten: Deployment-Engineering (2-4 Wochen Arbeitszeit eines Senior Engineers für ein Produktiv-Setup), laufendes Modell-Update-Management (1-2 Wochen pro größerem Update, etwa 17.000-46.000 Dollar jährliche Personalkosten) und laufender DevOps-Betrieb (10-20 Stunden pro Monat). Hardware- oder Cloud-GPU-Kosten werden meist korrekt geschätzt. Engineering-Zeit hingegen nicht.
Kann ein kleines Unternehmen ein Self-Hosted-KI-Modell betreiben? Technisch ja -- Ollama kann leistungsfähige Modelle auf einem Laptop oder einer einzelnen GPU-Workstation ausführen. Praktisch erfordert ein zuverlässiges, sicheres und gewartetes Produktiv-Deployment Engineering-Kapazität, die die meisten kleinen Unternehmen intern nicht haben. Ohne Compliance-Anforderungen sind Cloud-APIs fast immer die richtige Wahl. In regulierten Branchen ist das Compliance-Argument für Self-Hosting real, aber der betriebliche Aufwand bedeutet in der Regel, dass Deployment und Wartung extern vergeben werden müssen.
