So funktioniert Caching
Caching arbeitet mit Präfix-Matching: Das System speichert verarbeitete Tokens und verwendet sie wieder, wenn nachfolgende Anfragen mit demselben Inhalt beginnen. Stellen Sie sich einen Chatbot mit einem 2.000-Token-System-Prompt vor:Anfrage 1
System-Prompt (2.000 Tokens) + Benutzernachricht (50 Tokens)Verarbeitet: 2.050 Tokens · Aus Cache: 0 TokensPräfix in Cache geschrieben.
Anfrage 2
System-Prompt (2.000 Tokens) + Benutzernachricht (80 Tokens)Verarbeitet: 80 Tokens · Aus Cache: 2.000 Tokens
Unterstützte Modelle und Preise
Loading…
Claude Opus 4.5 berechnet einen Aufpreis für Cache-Writes ($7.50/1M Tokens vs. $6.00 für reguläre Eingabe). Die erste Anfrage, die den Cache befüllt, kostet mehr, aber nachfolgende Cache-Hits sparen 90 %. Andere Modelle erheben keinen Aufpreis für Cache-Writes.
Anbieter-spezifisches Verhalten
Venice normalisiert das Caching über Anbieter hinweg. Für die meisten Modelle erfolgt das Caching automatisch. Senden Sie einfach Ihre Anfragen und prüfen Sie die Antwort auf Cache-Statistiken. Claude erfordert explizite Cache-Marker auf Protokollebene, aber Venice fügt diese automatisch für System-Prompts und Konversationsverlauf hinzu. Das Caching-Verhalten wird letztlich von jedem Anbieter gesteuert und kann sich ändern. Prüfen Sie daher die Anbieter-Dokumentation für die neuesten Details.| Modell | Anbieter | Min. Tokens | Cache-Lebensdauer | Write-Kosten | Read-Rabatt | Explizite Marker |
|---|---|---|---|---|---|---|
| Claude Opus 4.5 | Anthropic | ~4.000 | 5 Min | +25 % | 90 % | Erforderlich |
| GPT-5.2 | OpenAI | 1.024 | 5–10 Min | Keine | 90 % | Nicht nötig |
| Gemini | ~1.024 | 1 Stunde | Keine | 75–90 % | Nicht nötig | |
| Grok | xAI | ~1.024 | 5 Min | Keine | 75–88 % | Nicht nötig |
| DeepSeek | DeepSeek | ~1.024 | 5 Min | Keine | 50 % | Nicht nötig |
| MiniMax | MiniMax | ~1.024 | 5 Min | Keine | 90 % | Nicht nötig |
| Kimi | Moonshot | ~1.024 | 5 Min | Keine | 50 % | Nicht nötig |
Claude Opus 4.5 (Anthropic)
Claude erfordert explizite Cache-Breakpoints auf Protokollebene. Venice übernimmt das automatisch:- System-Prompts werden automatisch gecacht
- Konversationsverlauf wird gecacht, indem ein Breakpoint auf die vorletzte Benutzernachricht gesetzt wird
| Turn | Prompt-Tokens | Cache Read | Cache Write | Einsparung |
|---|---|---|---|---|
| 1 | 10.979 | 0 | 10.938 | Erstes Write |
| 2 | 11.031 | 10.938 | 31 | 99,7 % gecacht |
| 3 | 11.062 | 10.969 | 52 | 99,5 % gecacht |
- Bis zu 4 Breakpoints pro Anfrage: Das System verwendet das längste übereinstimmende Präfix
- Cache-Schlüssel ist byte-exakt: Whitespace-Änderungen, andere Bildkodierungen oder umgeordnete Tools führen zu Cache-Misses
- Cache-bewusste Rate-Limits: Gecachte Tokens zählen nicht gegen Ihr ITPM-Limit, was höheren effektiven Durchsatz ermöglicht
- 25 % Write-Aufpreis: Erste Anfrage kostet mehr, aber 90 % Ersparnis bei nachfolgenden Reads
Manuelle Cache-Steuerung
Für Sonderfälle wie das Cachen eines großen Dokuments im ersten Turn können Sie explizite Breakpoints hinzufügen:Alle anderen Modelle
Caching erfolgt automatisch. Keine speziellen Parameter erforderlich. Stellen Sie nur sicher, dass Ihre Prompts ~1.024 Tokens überschreiten, und verwenden Sieprompt_cache_key für konsistentes Routing.
Anfrageparameter
| Parameter | Typ | Modelle | Beschreibung |
|---|---|---|---|
prompt_cache_key | string | Alle | Routing-Hinweis für Cache-Affinität. Anfragen mit demselben Schlüssel treffen mit höherer Wahrscheinlichkeit denselben Server mit warmem Cache. |
cache_control | object | Claude | Markiert Content-Blöcke für Caching. Siehe Abschnitt Claude Opus 4.5. |
prompt_cache_key
Für Konversationen oder agentische Workflows verwenden Sie einen konsistentenprompt_cache_key, um die Cache-Hit-Rate zu verbessern:
Antwortfelder
Dasusage-Objekt der Antwort enthält Cache-Statistiken:
| Feld | Beschreibung |
|---|---|
prompt_tokens | Gesamte Input-Tokens in der Anfrage |
prompt_tokens_details.cached_tokens | Tokens, die aus dem Cache bedient wurden (zum Rabattpreis abgerechnet) |
prompt_tokens_details.cache_creation_input_tokens | In den Cache geschriebene Tokens (kann bei Claude Aufpreis verursachen) |
- 5.000 gecachte Tokens × $0.60/1M = $0.003
- 500 nicht-gecachte Tokens × $6.00/1M = $0.003
- Gesamt: $0.006 (vs. $0.033 ohne Caching, 82 % Ersparnis)
Best Practices
Prompts für Caching strukturieren
Platzieren Sie statischen Inhalt am Anfang, dynamischen Inhalt am Ende. Gute Struktur| Position | Inhalt | Gecacht? |
|---|---|---|
| 1 | System-Anweisungen | Ja |
| 2 | Referenzdokumente | Ja |
| 3 | Few-Shot-Beispiele | Ja |
| 4 | Benutzeranfrage | Nein |
| Position | Inhalt | Gecacht? |
|---|---|---|
| 1 | Aktueller Zeitstempel | Nein (invalidiert alles danach) |
| 2 | System-Anweisungen | Nein |
| 3 | Benutzeranfrage | Nein |
Präfixe byte-identisch halten
Cache-Schlüssel werden aus exakten Byte-Sequenzen berechnet. Selbst triviale Unterschiede führen zu Cache-Misses:- Unterschiedliche Whitespaces oder Zeilenumbrüche
- Zeitstempel oder Request-IDs in Prompts
- Randomisierte Reihenfolge der Few-Shot-Beispiele
- Unterschiedliche Formatierung desselben Inhalts
Mindest-Token-Schwellen einhalten
Wenn Ihre Prompts unter dem Mindestwert (typischerweise 1.024 Tokens) liegen, wird Caching nicht aktiviert. Für kleine Prompts erwägen Sie:- Mehr Kontext oder Beispiele hinzufügen, um die Schwelle zu erreichen
- Mehrere kleine Anfragen in gebündelte Prompts zusammenfassen
- Akzeptieren, dass Caching für einfache Abfragen nicht greift
prompt_cache_key für Konversationen verwenden
Für laufende Konversationen setzen Sie einen konsistentenprompt_cache_key:
Cache-Performance überwachen
Verfolgen Sie diese Metriken:- Cache-Hit-Rate:
cached_tokens / prompt_tokens - Kostenersparnis: Tatsächliche Kosten vs. ungecachte Kosten vergleichen
- Latenzreduktion: Time-to-First-Token mit vs. ohne Cache-Hits
cached_tokens konstant 0 ist:
- Prompts könnten unter der Mindest-Token-Schwelle liegen
- Prompts könnten sich zwischen Anfragen ändern
- Anfragen könnten auf unterschiedliche Server treffen (verwenden Sie
prompt_cache_key) - Cache könnte abgelaufen sein (Anfragen zu selten)
Cache-Ökonomie berücksichtigen
Claude Opus 4.5 Cache-Write-Aufpreis: Erste Anfrage kostet 25 % mehr, aber 90 % Ersparnis bei nachfolgenden Reads.| Szenario | Cache-Write-Aufpreis lohnt sich? |
|---|---|
| 1 Anfrage mit diesem Prompt | Nein (25 % mehr zahlen, ohne Nutzen) |
| 2+ Anfragen mit gleichem Präfix | Ja (Break-Even bei zweiter Anfrage) |
| Schnell wechselnde Prompts | Nein (konstante Write-Kosten) |
| Stabiler System-Prompt, viele Abfragen | Ja (amortisiert über viele Reads) |
Cache-Lebensdauer
Caches verfallen nach einer Phase der Inaktivität (typischerweise 5–10 Minuten). Das bedeutet:| Traffic-Muster | Caching-Nutzen |
|---|---|
| Kontinuierliche Anfragen (< 5 Min Pausen) | Hoch: Cache bleibt warm |
| Bursty Traffic (Pausen > 10 Min) | Begrenzt: Cache läuft zwischen Bursts ab |
| Sporadische Anfragen (Stunden auseinander) | Keine: Cache immer kalt |
Caching mit Tools und Functions
Function-Definitionen können zusammen mit System-Prompts gecacht werden:Caching mit Bildern und Dokumenten
Für Vision-Modelle können Bilder in den gecachten Inhalt eingebunden werden:Troubleshooting
cached_tokens ist immer 0
cached_tokens ist immer 0
| Ursache | Lösung |
|---|---|
| Prompt zu kurz | Sicherstellen, dass der Prompt ~1.024 Tokens überschreitet (4.000 bei Claude) |
| Präfix geändert | Auf dynamischen Inhalt am Anfang Ihres Prompts prüfen |
| Erste Anfrage | Erwartet: Erste Anfrage schreibt in den Cache, nachfolgende Anfragen lesen |
| Cache abgelaufen | Zeit zwischen Anfragen auf unter 5 Minuten reduzieren |
| Unterschiedliche Server | prompt_cache_key hinzufügen, um Anfragen konsistent zu routen |
cache_creation_input_tokens bei jeder Anfrage
cache_creation_input_tokens bei jeder Anfrage
| Ursache | Lösung |
|---|---|
| Prompt ändert sich | Zeitstempel, Request-IDs oder anderen dynamischen Inhalt aus dem Präfix entfernen |
cache_control fehlt | Bei Claude sicherstellen, dass der cache_control-Marker bei Content-Blöcken vorhanden ist |
| Unter Schwellenwert | Prompts unter der Mindest-Tokenzahl lösen kein Caching aus |
| Einzelne Benutzernachricht | Erwartet beim ersten Turn. Cache wächst mit dem Konversationsverlauf. |
Höhere Kosten als erwartet
Höhere Kosten als erwartet
| Ursache | Lösung |
|---|---|
| Cache-Write-Aufpreis | Claude berechnet 25 % mehr für Writes. Lohnt sich nur, wenn Sie den Prompt wiederverwenden. |
| Geringe Wiederverwendung | Wenn jeder Prompt einzigartig ist, zahlen Sie Write-Kosten ohne Read-Vorteile |
| Schlechte Prompt-Struktur | Dynamischen Inhalt ans Ende verschieben, damit das Präfix stabil bleibt |