# Multi-Model-Routing — der 70%-Spar-Guide

> Kostenlose Ressource von **DripBack** · Multi-Model AI: qwen + Claude + GPT-4 · Fragen? **info@dripback.de**

Die meisten zahlen für jede KI-Aufgabe den Frontier-Preis. Das ist Geldverbrennung. Der
Trick ist nicht „das beste Modell", sondern **das richtige Modell pro Aufgabe** — und das
Meiste läuft lokal für 0 €. So machen wir es bei DripBack.

## Die drei Stufen

| Stufe | Modell | Wofür | Kosten |
|---|---|---|---|
| **1 · Lokal** | qwen2.5 / qwen3 (Ollama, auf eigener Hardware) | Klassifizieren, zusammenfassen, extrahieren, Routing, Entwürfe | **0 €** |
| **2 · Günstig** | mittleres Cloud-Modell (z. B. Haiku-Klasse / DeepSeek) | Bulk-Reasoning, längere Texte | Cent-Bereich |
| **3 · Frontier** | Claude Opus / GPT-4-Klasse | Schwerste Logik, Architektur, identitätskritische Outputs | teuer |

**Faustregel:** Stufe 1 für die Fleißarbeit, Stufe 2 für Masse, Stufe 3 nur wenn es
wirklich zählt. So landen erfahrungsgemäß ~38 % der Last lokal, ~42 % günstig, nur ~20 %
auf dem teuren Tier.

## So routest du (die Logik in 5 Regeln)
1. **Default = lokal.** Eine Aufgabe muss sich den Cloud-Aufruf *verdienen*.
2. **Nach Aufgabentyp, nicht nach Bauchgefühl.** „klassifiziere/fasse zusammen" → Stufe 1.
   „entwirf Architektur/prüfe kritisch" → Stufe 3.
3. **Nach Länge + Risiko.** Kurz & unkritisch → lokal. Lang & folgenreich → höher.
4. **Fallback-Kaskade.** Lokal aus? → günstig. Günstig aus? → Frontier. Nie hart abstürzen.
5. **Jeden Aufruf loggen** (Modell, Tokens, Kosten) in eine Datei — sonst weißt du nie,
   wo dein Geld hingeht.

## Daten-Schutz (wichtig für DE/EU)
**Personenbezogene Daten gehören nicht ungeschützt in eine US-Cloud.** Halte PII-lastige
Aufgaben auf dem lokalen Tier (qwen läuft DSGVO-konform auf deiner Maschine). Cloud nur für
nicht-personenbezogene Inhalte — oder mit lokalem Vorverarbeitungs-Schritt (PII-Scrub).

## Mini-Checkliste vor jedem teuren Aufruf
- [ ] Kann das lokal laufen? (meist ja)
- [ ] Enthält der Input PII? → dann lokal bleiben
- [ ] Ist das Ergebnis folgenreich genug für den Frontier-Preis?
- [ ] Wird der Aufruf geloggt?

---
*Gebaut von **DripBack** — KI-Komplettlösungen für den deutschen Mittelstand: Voice-Agenten,
die Anrufe rund um die Uhr annehmen, plus Automationen. Wenn du sehen willst, wie das für
deinen Betrieb aussieht: **info@dripback.de**.*
