Cloud-LLM vs. eigene Infrastruktur: die ehrliche Kostenrechnung

Hinweis: Alle Zahlen in diesem Artikel sind illustrative Rechenmodell-Platzhalter: sie sind keine Preisangaben und kein Preisversprechen. Setzen Sie Ihre eigenen, aktuellen Zahlen ein.

Die Entscheidung in einem Satz

Cloud-LLMs gewinnen, solange Ihr Volumen niedrig und schwankend ist; eigene Infrastruktur gewinnt, sobald ein Workload dauerhaft hochläuft oder Daten das Haus nicht verlassen dürfen. Die ehrliche Rechnung sagt Ihnen, wo genau dieser Kipppunkt für Ihr Unternehmen liegt.

Die meisten Kostenvergleiche zu diesem Thema sind unehrlich, weil sie nur eine Seite rechnen: Cloud-Verfechter ignorieren das Volumen, Hardware-Verfechter ignorieren Betrieb und Auslastung. Dieser Artikel rechnet beide Seiten vollständig und gibt Ihnen ein Modell zum Selbstausfüllen.

Die zwei Kostenmodelle nebeneinander

Dimension	Cloud-LLM (API)	Eigene Infrastruktur (self-hosted)
Kostenstruktur	Variabel: pro Token / pro Anfrage	Fix: Hardware + Betrieb, unabhängig vom Volumen
Einstiegskosten	Nahe null, sofort startklar	Hoch: Anschaffung oder dedizierte GPU-Miete
Kosten pro Token (Dauerlast)	Konstant, steigt linear mit Nutzung	Sinkt mit steigender Auslastung
Skalierung nach oben	Trivial: Anbieter skaliert	Begrenzt durch eigene Kapazität
Skalierung nach unten	Trivial: zahlt nur, was genutzt wird	Fixkosten laufen auch bei Leerlauf weiter
Datenresidenz	Beim Anbieter (oft außerhalb DE/EU)	Vollständig unter eigener Kontrolle
Anbieterabhängigkeit	Hoch: Preis, Rate-Limits, Modell-Lebenszyklus	Niedrig: Modell und Betrieb in eigener Hand
Betriebsaufwand	Minimal: Anbieter betreibt	Real: Wartung, Monitoring, Updates, Sicherheit
Planbarkeit der Kosten	Schwankt mit Nutzung	Hoch: fixe, vorhersehbare Position

Das Break-even-Modell: so rechnen Sie ehrlich

Der Kern jeder ehrlichen Entscheidung ist ein einziger Vergleich: monatliche Cloud-Kosten bei Ihrem Volumen gegen monatliche Vollkosten Ihrer eigenen Maschine. Vier Eingaben, die Sie selbst kennen oder messen müssen:

Eingabe 1: Ihr monatliches Token-Volumen (Dauerbetrieb, nicht Pilot). Schätzen Sie konservativ: Wie viele Anfragen pro Tag × durchschnittliche Token pro Anfrage × Arbeitstage. Pilotzahlen ×3 bis ×10 zu rechnen ist häufiger realistisch als gedacht, sobald ein Tool ins Tagesgeschäft geht.

Eingabe 2: Cloud-Preis pro 1 Mio. Token. Den aktuellen Token-Preis Ihres bevorzugten Cloud-Modells (Input + Output getrennt). Platzhalter: tragen Sie den heutigen Listenpreis ein.

Eingabe 3: Monatliche Vollkosten Ihrer eigenen Maschine. Nicht nur die GPU. Die ehrliche Summe ist: anteilige Hardware-Abschreibung (oder Mietpreis der dedizierten GPU) + Strom + Hosting/Stellplatz + Betriebsaufwand (Wartung, Monitoring, Updates, Sicherheit). Platzhalter: tragen Sie Ihre realen Werte ein. Wer den Betriebsaufwand auf null setzt, betrügt sich selbst.

Eingabe 4: Realistische Auslastung. Eine eigene Maschine, die zu 15 % läuft, hat dieselben Fixkosten wie eine, die zu 80 % läuft, aber den fünffachen Stückpreis. Auslastung ist der Hebel, der über die ganze Rechnung entscheidet.

Die Rechnung

Monatliche Cloud-Kosten   = (Volumen in Mio. Token) × (Preis pro Mio. Token)
Monatliche Eigen-Kosten   = Hardware/Miete + Strom + Hosting + Betrieb   [fix]

Break-even-Volumen        = Monatliche Eigen-Kosten ÷ Cloud-Preis pro Mio. Token

Liegt Ihr tatsächliches Volumen über dem Break-even-Volumen, ist die eigene Maschine günstiger. Liegt es darunter, gewinnt die Cloud. So einfach ist die Mechanik. Die Ehrlichkeit steckt darin, die Eingaben nicht schönzurechnen.

Illustratives Beispiel (Platzhalterzahlen, kein realer Preis): Kostet die eigene Maschine voll gerechnet 1.500 € / Monat und der Cloud-Preis 0,50 € pro Mio. Token, liegt der Break-even bei 3.000 Mio. Token / Monat. Verbrauchen Sie weniger, bleiben Sie in der Cloud. Verbrauchen Sie mehr, und das tun Dauer-Workloads schnell, rechnet sich das eigene Haus. Ersetzen Sie diese Zahlen durch Ihre eigenen.

Was die Rechnung NICHT einfängt, und trotzdem zählt

Die reine Token-Rechnung ist die halbe Wahrheit. Drei Faktoren verschieben die Entscheidung, ohne in der Formel zu stehen:

Datenresidenz-Risiko. Wenn ein Workload regelmäßig personenbezogene oder geschäftskritische Daten verarbeitet, ist das teuerste Ereignis kein GPU-Posten, sondern ein Datenschutzvorfall. Das kann die eigene Maschine selbst dann rechtfertigen, wenn sie pro Token teurer ist.
Anbieterabhängigkeit. Eine Cloud-Preiserhöhung, ein Rate-Limit zur Unzeit oder die Abkündigung eines Modells trifft Sie ohne Vorwarnung. Eigene Infrastruktur ist eine Versicherung gegen diese Volatilität, die Versicherungsprämie ist der Betriebsaufwand.
Planbarkeit. Eine fixe monatliche Position ist für CFO-Planung wertvoller als eine variable, die mit dem Erfolg Ihres KI-Rollouts mitwächst, gerade dann, wenn der Rollout funktioniert.

Wann Sie Cloud wählen sollten

Ihr Volumen ist niedrig, gelegentlich oder stark schwankend.
Die Workloads verarbeiten keine sensiblen Daten.
Sie sind in der Pilot- oder Experimentierphase und wollen Geschwindigkeit, nicht Festlegung.
Sie brauchen die absolute Reasoning-Spitze, die heute noch bei führenden Cloud-Modellen liegt.

Wann Sie eigene Infrastruktur wählen sollten

Ein oder mehrere Workloads laufen dauerhaft über dem Break-even-Volumen.
Daten dürfen, sollen oder müssen Ihr Haus nicht verlassen (DSGVO, IP, Compliance).
Sie wollen Anbieterabhängigkeit aktiv reduzieren und Kosten planbar machen.
Sie haben die Betriebskapazität, oder einen Partner, der sie mitbringt.

Der hybride Mittelweg (die häufigste Realität)

Die meisten Mittelständler landen nicht bei „entweder/oder", sondern bei einer sauberen Zuordnung: sensible und volumenstarke Workloads ins eigene Haus, alles andere in die Cloud. Eine einzelne GPU plus Staging trägt die in-house-Seite erstaunlich weit. Genau diesen Aufbau betreiben wir selbst, bewusst klein, und kennen seine Grenzen aus erster Hand. Das Ziel ist nicht maximale Souveränität um jeden Preis, sondern die wirtschaftlich und rechtlich richtige Verteilung pro Workload. (Den Entscheidungsbaum dafür finden Sie in Unser Entscheidungsbaum: self-host oder Cloud?.)

Entscheidungs-Checkliste

Habe ich mein Dauer-Volumen gemessen, nicht das Pilot-Volumen geschätzt?
Sind in meiner Eigen-Kosten-Rechnung Betrieb, Strom und Hosting enthalten, nicht nur die GPU?
Habe ich eine realistische Auslastung angesetzt, nicht die Wunsch-Auslastung?
Habe ich Datenresidenz und Anbieterabhängigkeit als eigene Risikoposten bewertet, nicht nur die Token-Kosten?
Habe ich geprüft, ob eine hybride Aufteilung beide Welten optimal nutzt?

FAQ

Ist Cloud oder self-hosting günstiger? Es gibt keine pauschale Antwort, sondern einen Break-even-Punkt, der von Ihrem Volumen, dem Cloud-Preis und Ihren Vollkosten abhängt. Unterhalb gewinnt die Cloud, oberhalb das eigene Haus. Das Modell oben gibt Ihnen den exakten Punkt für Ihr Unternehmen.

Warum sind viele Kostenvergleiche irreführend? Weil sie nur eine Seite vollständig rechnen. Cloud-Vergleiche unterschlagen oft, wie schnell Dauer-Workloads das Volumen treiben; Hardware-Vergleiche unterschlagen oft Betriebsaufwand und Auslastung. Ehrlich ist nur die vollständige beidseitige Rechnung.

Wie groß muss die eigene Hardware sein? Für viele Mittelstands-Workloads reicht eine einzelne moderne GPU. Wir betreiben unsere eigene Produktion auf genau einem Knoten plus Staging. Hardware-Größe ist selten der Engpass. Auslastung und Betrieb sind es.

Was, wenn mein Volumen unsicher ist? Dann ist das Pilot-Setup in der Cloud richtig, bis Sie genug gemessen haben, um den Break-even seriös zu bestimmen. Erst messen, dann entscheiden.

Nächster Schritt

Wir füllen das Break-even-Modell mit Ihren realen Zahlen aus (Volumen, Workload-Verteilung, Datensensibilität) und sagen Ihnen ehrlich, wo Ihr Kipppunkt liegt und welche Architektur sich für Sie rechnet.

Kostenrechnung anfragen →