Self-hosted LLMs für den Mittelstand: wann es sich rechnet

Das Wichtigste in Kürze

Selbst-gehostete LLMs lohnen sich nicht pauschal, sondern pro Workload. Die Entscheidung fällt entlang dreier Achsen: Kosten bei Ihrem Volumen, Datensensibilität und Latenzanforderung.
Der Kipppunkt ist Volumen. Cloud-APIs sind günstig im Einstieg und teuer in der Dauer-Hochlast. Eigene Infrastruktur ist teuer im Einstieg und günstig pro Token, sobald die Auslastung stimmt.
Souveränität ist mehr als ein Gefühl. Datenresidenz, Reduktion von Anbieterabhängigkeit und planbare Kosten sind harte betriebswirtschaftliche Argumente, keine Ideologie.
Sie brauchen keine eigene Server-Farm. Leistungsfähige KI läuft heute auf einer einzelnen GPU. Wir betreiben unsere eigene Produktion auf genau einem Knoten plus Staging und wissen aus erster Hand, was das bedeutet.
Die meisten Mittelständler fahren am Ende hybrid. Sensible und volumenstarke Workloads ins eigene Haus, alles andere in die Cloud. Die Kunst ist die Zuordnung, nicht die Religion.

Warum diese Frage gerade jetzt auf den Tisch kommt

Drei Dinge passieren gleichzeitig im DACH-Mittelstand. Erstens: Die ersten KI-Piloten gehen in den Dauerbetrieb, und plötzlich steht auf der Cloud-Rechnung nicht mehr ein Experimentierbudget, sondern eine wiederkehrende Position, die mit der Nutzung mitwächst. Zweitens: Compliance- und Datenschutz-Verantwortliche fragen, wo die Prompts und Dokumente eigentlich landen, die täglich an einen US-Anbieter gehen. Drittens: Geschäftsführer haben gelernt, dass Abhängigkeit von einem einzigen Anbieter (bei Preis, Verfügbarkeit und Modell-Roadmap) ein strategisches Risiko ist, kein Komfortthema.

Die Frage „Cloud-LLM oder eigene Infrastruktur?" ist damit von einer technischen zu einer Geschäftsentscheidung geworden. Und wie jede Geschäftsentscheidung hat sie eine ehrliche Antwort: Es kommt darauf an, und zwar auf Zahlen, die Sie selbst kennen. Dieser Artikel gibt Ihnen den Rahmen, um diese Zahlen einzusortieren.

Eine Sache vorweg, weil wir Klarheit über Komplexität stellen: Wir betreiben unsere eigene KI-Produktion auf einem selbst-gehosteten GPU-Knoten plus einer Staging-Umgebung: genau eine Node, eine GPU. Das ist bewusst klein. Wir verkaufen Ihnen keine Skalierung, die wir selbst nicht fahren. Wir verkaufen die Methode, mit der Sie die richtige Entscheidung treffen, und das Betriebswissen aus erster Hand.

Was „self-hosted LLM" eigentlich heißt

Ein selbst-gehostetes LLM ist ein Sprachmodell, das auf Hardware unter Ihrer Kontrolle läuft: im eigenen Rechenzentrum, in einer von Ihnen gemieteten dedizierten GPU-Instanz oder auf einem On-Premise-Server. Im Gegensatz zum Cloud-LLM (OpenAI, Anthropic, Google) verlässt die Anfrage nicht Ihre Vertrauensgrenze, und Sie zahlen nicht pro Token, sondern für die Maschine.

Möglich wird das durch zwei Entwicklungen: leistungsfähige offene Gewichtsmodelle (open-weight models), die für viele Geschäfts-Workloads nah genug an die großen Cloud-Modelle herankommen, und Inferenz-Software, die ein solches Modell effizient auf einer einzelnen modernen GPU bedient. Was vor zwei Jahren ein Forschungscluster verlangte, läuft heute auf einem Knoten, der in einen Serverraum passt.

Wichtig: „Self-hosted" ist kein Alles-oder-Nichts. Die realistische Frage lautet nicht „Cloud abschalten?", sondern „Welche Workloads gehören ins eigene Haus, welche nicht?"

Das Souveränitäts-Dreieck: drei Achsen, die über jede Entscheidung entscheiden

Jeder einzelne KI-Workload (eine Dokumentenklassifikation, ein interner Chat-Assistent, eine Angebots-Generierung) lässt sich an drei Achsen bewerten. Wir nennen das das Souveränitäts-Dreieck. Wer alle drei ehrlich beantwortet, hat die Entscheidung im Grunde schon getroffen.

Achse 1: Kosten bei Ihrem tatsächlichen Volumen

Die entscheidende Frage ist nicht „Was kostet ein Token?", sondern „Wie viele Token verbrauche ich im Dauerbetrieb pro Monat, und bei welcher Auslastung kippt die Rechnung?". Cloud kostet pro Nutzung; eigene Hardware kostet fix, unabhängig von der Auslastung. Es gibt deshalb einen Break-even-Punkt: ein monatliches Volumen, ab dem die Fixkosten der eigenen Maschine günstiger sind als die variable Cloud-Rechnung. Unter diesem Punkt gewinnt die Cloud, darüber das eigene Haus. (Das Rechenmodell dazu liefert der Schwesterartikel Cloud-LLM vs. eigene Infrastruktur: die ehrliche Kostenrechnung.)

Achse 2: Datensensibilität

Manche Daten dürfen, sollen oder müssen Ihr Haus nicht verlassen: Patientendaten, personenbezogene Daten unter DSGVO, Konstruktions- und Rezeptur-IP, Vertrags- und Finanzunterlagen. Wenn ein Workload regelmäßig solche Daten verarbeitet, verschiebt sich die Entscheidung unabhängig von den Kosten Richtung self-hosted, weil das teuerste Szenario ein Datenschutzvorfall ist, nicht die GPU-Rechnung.

Hinzu kommt der regulatorische Rahmen. Neben der DSGVO setzt die EU-KI-Verordnung (EU AI Act) je nach Risikoklasse eines KI-Einsatzes Anforderungen an Transparenz, Dokumentation, Datenqualität und menschliche Aufsicht. Self-hosting verschafft Ihnen direkte Hoheit darüber, wo ein Modell läuft und welche Daten es sieht, und macht damit den Nachweis dieser Pflichten leichter führbar. Wie bei der DSGVO gilt aber: Die eigene Maschine ist ein Baustein, kein automatischer Konformitätsnachweis. Konformität entsteht aus der Gesamtarchitektur und dem dokumentierten Betrieb, nicht aus dem Standort der GPU allein.

Achse 3: Latenz und Verfügbarkeit

Hängt ein Workload an einem externen API, hängt er auch an dessen Verfügbarkeit, Rate-Limits und Modell-Lebenszyklus. Für einen wöchentlichen Report ist das egal. Für eine Funktion, die in Echtzeit in einem Produktionsprozess steckt, ist Kontrolle über Latenz und Uptime ein Argument für die eigene Maschine, oder zumindest für eine Fallback-Strategie.

Vier Workload-Muster und wohin sie typischerweise gehören

Aus den drei Achsen ergeben sich wiederkehrende Muster. Sie sind generalisiert, nicht an einen einzelnen Kunden gebunden:

Hohes Volumen + niedrige Sensibilität (z. B. öffentliche Produkttexte, Marketing-Entwürfe): Cloud im Einstieg, eigene Hardware sobald das Volumen den Break-even überschreitet. Klassischer Hybrid-Kandidat.
Niedriges Volumen + hohe Sensibilität (z. B. seltene, aber heikle Vertragsanalyse): self-hosted aus Datenschutzgründen, selbst wenn die Cloud rechnerisch günstiger wäre. Die kleine eigene Node trägt das problemlos.
Hohes Volumen + hohe Sensibilität (z. B. interner Wissens-Assistent über das gesamte Firmen-Wiki): der klarste Fall fürs eigene Haus, denn beide Achsen zeigen in dieselbe Richtung.
Niedriges Volumen + niedrige Sensibilität (z. B. gelegentliche Übersetzung): Cloud. Eine eigene Maschine dafür zu betreiben, wäre Overhead ohne Gegenwert.

Die Kunst der Implementierung liegt darin, Ihre realen Workloads sauber in diese vier Felder einzusortieren, und nicht das ganze Unternehmen pauschal in ein Lager zu zwingen.

Was die meisten unterschätzen: die Betriebskosten jenseits der GPU

Self-hosting ist nicht nur Hardware kaufen. Wer ehrlich rechnet, nimmt mit auf:

Betrieb und Wartung: Updates, Monitoring, Modell-Wechsel, Backup, Sicherheit. Eine GPU im Schrank ist kein Produktionssystem; der Unterschied ist Betriebsdisziplin.
Auslastung: Eine Maschine, die zu 10 % läuft, ist teuer pro Nutzung. Der Vorteil entsteht erst bei stabiler Auslastung.
Modell-Pflege: Open-weight-Modelle entwickeln sich schnell. Sie brauchen einen Prozess, um Modelle zu evaluieren und zu wechseln, sonst sitzen Sie in einem Jahr auf veralteter Qualität.

Genau hier liegt der Wert von Betriebserfahrung aus erster Hand. Wir betreiben unseren einen Knoten plus Staging selbst und kennen den Unterschied zwischen „ein Modell zum Laufen bekommen" und „ein Modell zuverlässig in Produktion halten". Das ist kein Skalierungs-Versprechen. Es ist Betriebswissen, das wir direkt auf Ihre Situation übertragen.

Häufige Denkfehler

„Self-hosting ist immer günstiger." Falsch. Unter dem Break-even-Volumen ist die Cloud günstiger, oft deutlich.
„Self-hosting ist immer sicherer." Nur, wenn Sie es sauber betreiben. Eine schlecht gewartete eigene Maschine ist kein Sicherheitsgewinn.
„Wir brauchen für KI ein eigenes Rechenzentrum." Nein. Eine einzelne moderne GPU trägt erstaunlich viel. Wir beweisen das täglich an unserem eigenen, bewusst kleinen Aufbau.
„Entweder Cloud oder On-Premise." Die meisten realistischen Architekturen sind hybrid. Die Frage ist die Zuordnung pro Workload, nicht die Glaubensrichtung.
„Open-weight-Modelle sind den Cloud-Modellen hoffnungslos unterlegen." Für viele Geschäfts-Workloads ist der Abstand inzwischen klein genug, dass Kosten und Datenhoheit den Ausschlag geben.

Entscheidungs-Checkliste

Bevor Sie über self-hosting entscheiden, beantworten Sie diese Fragen pro Workload:

Kenne ich mein monatliches Token-Volumen im Dauerbetrieb, nicht im Pilot?
Verarbeitet dieser Workload personenbezogene oder geschäftskritische Daten, die das Haus nicht verlassen sollten?
Wie anbieterabhängig wäre dieser Prozess, und was passiert bei Preiserhöhung, Rate-Limit oder Modell-Abkündigung?
Habe ich die Betriebskapazität (oder einen Partner), um eine eigene Inferenz-Umgebung zuverlässig zu fahren?
Liegt dieser Workload über oder unter dem Break-even-Volumen der eigenen Hardware?
Lässt sich eine hybride Architektur bauen, die sensible/volumenstarke Workloads selbst hostet und den Rest in der Cloud lässt?

Wer mehr als zwei dieser Fragen mit „weiß ich nicht" beantwortet, hat zuerst ein Mess- und kein Infrastruktur-Problem. Das ist die erste Aufgabe.

FAQ

Ab welchem Volumen lohnt sich ein selbst-gehostetes LLM? Es gibt keine universelle Zahl. Es gibt einen Break-even, der von Ihrem monatlichen Token-Volumen, der gewählten Hardware und Ihrer Auslastung abhängt. Unterhalb gewinnt die Cloud, oberhalb das eigene Haus. Das Rechenmodell, mit dem Sie Ihren eigenen Punkt bestimmen, finden Sie in Cloud-LLM vs. eigene Infrastruktur: die ehrliche Kostenrechnung.

Brauche ich dafür ein eigenes Rechenzentrum? Nein. Für viele Mittelstands-Workloads reicht eine einzelne moderne GPU. Wir betreiben unsere eigene Produktion auf genau einem Knoten plus Staging. Entscheidend ist nicht die Größe der Hardware, sondern die Disziplin im Betrieb.

Sind offene Modelle gut genug für den Geschäftsbetrieb? Für viele Aufgaben (Klassifikation, Zusammenfassung, internes Wissens-Retrieval, Entwurfs-Generierung) ja. Für die anspruchsvollste Reasoning-Spitze sind führende Cloud-Modelle oft noch voraus. Deshalb entscheidet man pro Workload, nicht pauschal.

Ist self-hosting automatisch DSGVO-konform? Self-hosting macht Datenresidenz kontrollierbar; das ist eine notwendige, aber keine hinreichende Bedingung. Konformität entsteht durch die Gesamtarchitektur: Zugriffskontrolle, Logging, Löschkonzepte. Die eigene Maschine ist ein Baustein, nicht der ganze Nachweis.

Was ist der häufigste Fehler beim Einstieg? Zu früh die ganze Infrastruktur zu kaufen, bevor das tatsächliche Volumen und die Workload-Verteilung gemessen sind. Erst messen, dann zuordnen, dann bauen.

Können wir klein anfangen? Ja, und Sie sollten. Ein einzelner Knoten plus Staging reicht, um die sensibelsten und volumenstärksten Workloads ins eigene Haus zu holen und Erfahrung zu sammeln, bevor Sie weiter investieren. Genau so betreiben wir es selbst.

Nächster Schritt

Sie wissen, welcher Prozess bei Ihnen an der Cloud-Rechnung oder am Datenschutz zieht, aber nicht, wo der Break-even liegt? Genau das klären wir in einem fokussierten Gespräch: Wir sortieren Ihre realen Workloads ins Souveränitäts-Dreieck ein und sagen Ihnen ehrlich, was ins eigene Haus gehört und was nicht.

Gespräch zur KI-Souveränität anfragen →