Maximale Datenhoheit · Lokales LLM

Cubicle Sovereign.
Ihre eigene Kanzlei-KI.

Dedizierter GPU-Server im deutschen Rechenzentrum, lokales Llama-3.1-Modell, Zugriff auf Cubicle's kuratierten Rechts-Korpus (116k+ deutsche Gesetze, Urteile, BMF-Schreiben). Mandanten-Daten bleiben isoliert auf Ihrem Server — kein externer LLM-Aufruf, keine US-Cloud.

0
externe LLM-Calls
70B
Parameter lokal
116k+
Rechtsquellen via Cubicle-RAG
DE
Hetzner Falkenstein
1 · Mandanten-Akte
Strafanzeige Schmidt vs. Müller
Lokal auf Kanzlei-Server (Hetzner DE)
↓ generische Rechtsfrage (keine Mandanten-Daten)
2 · Cubicle Knowledge-API
116k+ Gesetze / Urteile / BMF
Snippets + Quellen zurück
↓ LLM kombiniert lokal Akte + Knowledge
3 · LLM-Inference (lokal)
Llama-3.1-70B via vLLM
Kein externer LLM-Aufruf
↓ Antwort bleibt im RZ
4 · Antwort
Strukturiert + Quellen-Zitation
Über sichere VPN-Verbindung

Cloud, Inhouse, Sovereign — wann was?

Drei Stufen Datenhoheit, drei Preispunkte. Für 90% der Kanzleien reicht Cloud oder Inhouse. Sovereign ist für die 10% mit absoluter Daten-Abgeschiedenheit-Anforderung.

Standard

Cubicle AI

ab 249 € / Monat
Mandanten-Akte
↓ PII-Anonymisierung
externes LLM (EU-Endpunkt)
↓ Antwort
  • Hosting in deutschen RZ
  • AVV nach Art. 28 DSGVO
  • Anonymisierte Auszüge gehen extern
Datenhoheit App + Storage

Cubicle Inhouse

1.900 € Setup + 449 €/Mo
Mandanten-Akte
auf Kanzlei-Server
↓ PII-Anonymisierung
externes LLM (EU-Endpunkt)
↓ Antwort
  • Mandanten-Akten in Kanzlei-Infrastruktur
  • Eigene Domain + Branding
  • LLM weiterhin extern (anonymisiert)
Eigener Server + lokales LLM

Cubicle Sovereign

ab 2.900 € Setup + 990 €/Mo
Mandanten-Akte
dedizierter Server (Hetzner DE)
lokales LLM auf GPU
Cubicle-RAG (nur Rechtsfragen)
↓ Antwort
  • Mandanten-Daten nur auf Kanzlei-Server
  • Llama-3.1 lokal, kein externer LLM
  • Cubicle-Knowledge-API für Recht
  • Eigene Domain + Branding
  • Monatlich kündbar (Hetzner-Miete)

Wann Sovereign tatsächlich nötig ist.

Nicht jede Kanzlei braucht lokale Inferenz. Diese vier Konstellationen rechtfertigen den Aufpreis.

Strafverteidigung

§ 160a StPO bietet Schutz vor Beschlagnahme — der nur greift wenn Daten nachweisbar nicht außerhalb der Kanzlei waren. Sovereign macht den Nachweis trivial: kein API-Call nach außen, der protokolliert werden könnte.

Konzern-Mandate mit Tool-Stack-Vorgaben

Großmandanten verlangen oft, dass sämtliche eingesetzten Tools in der Kanzlei-Infrastruktur laufen und im Audit-Scope der Kanzlei (nicht eines externen Sub-Auftragsverarbeiters) sind. Sovereign erfüllt das ohne Kompromiss.

Wirtschaftsprüfer mit Insider-Informationen

Bei börsennotierten Mandanten gelten besondere Sorgfaltspflichten für kurspreisrelevante Daten. WPK empfiehlt 2025 explizit On-Premise inkl. lokaler KI-Inferenz für Mandate mit Insider-Risiko.

Mandanten mit AVV-Ausschluss von US-LLMs

Manche internationale Mandanten verbieten in ihrem AVV explizit jegliche Übermittlung an US-Tech-Konzerne — auch anonymisiert. Sovereign nutzt ausschließlich Open-Source-Modelle (Llama) auf Kanzlei-Hardware, kein US-API-Call.

Server bei Hetzner. Wissen von Cubicle.

Sie buchen einen dedizierten GPU-Server bei Hetzner (Falkenstein, DE). Wir installieren den kompletten Cubicle-Stack inkl. lokalem LLM. Für rechtliches Wissen ruft Ihr Server die Cubicle Knowledge-API auf — generische Rechtsfragen, keine Mandanten-Daten.

Hetzner Dedicated GPU-Server

HostingHetzner-RZ Falkenstein (DE)
ZertifizierungISO 27001
Lite (GEX44)RTX 4000 Ada 20 GB · i5 · 64 GB RAM
Standard (GEX130)RTX 4000 SFF · 64 GB RAM
Pro (GEX131)RTX PRO 6000 Blackwell 96 GB
Modell auf LiteLlama-3.1-8B / Mistral-7B
Modell auf ProLlama-3.1-70B AWQ-4bit
Strom + RZin Hetzner-Miete inkl.
Hardware-Investition0 € (gemietet)

Software-Stack (von uns installiert)

BetriebssystemUbuntu 24.04 LTS
Container-RuntimeDocker + NVIDIA-Toolkit
LLM-InferencevLLM 0.6+ (lokal)
SprachmodellLlama-3.1 (8B / 70B)
Modell-FormatAWQ-quantisiert (4bit)
Mandate-DBPostgreSQL (lokal, verschlüsselt)
Knowledge-SourceCubicle RAG-API (zentral)
App-LayerCubicle-Frontend + Workspaces
Audit-LogPostgreSQL + 10-Jahre-Retention

🔐 Datenfluss bei Sovereign — was wo bleibt

Auf Ihrem Hetzner-Server (DE):
  • Alle Mandanten-Akten + Dokumente
  • Chat-Verläufe + Memory pro Workspace
  • Lokales Llama-Modell (kein API-Call)
  • Audit-Log über alle Zugriffe
Bei Cubicle (Frankfurt):
  • Knowledge-Base (116k+ Rechtsquellen)
  • Verfügbar via REST-API
  • Erhält nur generische Rechtsfragen
  • Nie Mandanten-Daten

Sovereign-Tarif.

Einmaliges Setup + Monats-Pauschale. Hardware kauft die Kanzlei separat (wir empfehlen Lieferanten).

Lite

Llama-8B · GEX44

Einstieg für kleine Kanzleien (1-3 Anwälte).

2.900 €Setup
+ 299 €/Mo

Cubicle-Pauschale (Llama-Pflege + Knowledge-API + Maintenance)
+ Hetzner GEX44 (~250 €/Mo, gebucht von Kanzlei)
Total ~549 €/Mo

  • Cubicle-Stack vorinstalliert
  • 3.000 Knowledge-Queries/Mo
  • Lokale LLM-Tokens unbegrenzt
  • E-Mail-Support 1 Werktag
Beratung
Standard · Empfohlen

Llama-70B · GEX131

Beste Qualität für deutsche Rechtsaufgaben (5-15 Anwälte).

4.900 €Setup
+ 499 €/Mo

Cubicle-Pauschale (Llama-70B-Pflege + Knowledge-API + Maintenance)
+ Hetzner GEX131 (~900 €/Mo, gebucht von Kanzlei)
Total ~1.399 €/Mo

  • Cubicle-Stack + Llama-3.1-70B AWQ
  • 15.000 Knowledge-Queries/Mo
  • Lokale LLM-Tokens unbegrenzt
  • Eigene Domain + Branding
  • Audit-Log + ISAE-3402-Template
  • Quartalsweise Modell-Updates
Beratung anfragen
Pro

Hochverfügbar + Fine-Tuning

Große Kanzleien (20+ Anwälte), 24/7-Anforderungen.

7.900 €Setup
+ 890 €/Mo

Cubicle-Pauschale (alles + 24/7-Support + Fine-Tuning)
+ Hetzner GEX131 (~900 €/Mo, ggf. 2× redundant)
Total ~1.790 €/Mo

  • Alles aus Standard
  • 50.000 Knowledge-Queries/Mo
  • Fine-Tuning auf eigene Texte
  • Redundante GPU optional
  • 24/7-Support + Account-Manager
Beratung

Was die Cubicle-Pauschale enthält

Llama-Modell-Pflege:
Wir installieren, testen, signen und aktualisieren das Sprachmodell quartalsweise.
Knowledge-API-Zugriff:
Volltext-Suche in 116k+ deutschen Rechtsquellen, täglich aktualisiert.
Cubicle-Stack-Maintenance:
Updates, Security-Patches, Docker-Pflege via SSH (mit AVV).
Support + Compliance-Hilfe:
E-Mail-Support, AVV-Mustertexte, ISAE-3402-Templates, Berufsrechts-Beratung.

Hetzner-Server bucht die Kanzlei direkt bei Hetzner — Hosting in Falkenstein, DE-RZ, ISO 27001. Monatlich kündbar, keine Hardware-Investition.
Add-on: +5.000 Knowledge-Queries = 39 €/Mo · 24/7-Support (Standard-Tier) = +199 €/Mo

Häufige Fragen.

Llama-3.1-70B von Meta ist Open-Source, hat die mit Abstand beste deutsche Sprachqualität unter den Open-Source-LLMs (auf Augenhöhe mit GPT-4 in vielen juristischen Aufgaben) und läuft auf einer einzigen A100-GPU. Alternativen wie Aleph Alpha Pharia oder Mistral-Large können bei Bedarf installiert werden — das ist Teil der Konfigurations-Beratung im Setup-Prozess.
Ja. Fine-Tuning auf Ihrer eigenen Mandantenkommunikation (z.B. Schriftsatz-Stil, kanzleispezifische Formulierungen) ist möglich — als Add-on im ersten Setup oder später. Kosten je nach Datenmenge typischerweise 3.500-8.000 € einmalig. Wichtig: Wir empfehlen das erst nach 6 Monaten Produktiv-Nutzung, weil die Standard-Llama-Qualität für die meisten Use-Cases schon ausreicht.
Hetzner garantiert 99,9% Verfügbarkeit (Falkenstein-RZ, redundante Stromversorgung, USV, Klimatisierung). Bei Hardware-Defekt tauscht Hetzner i.d.R. innerhalb 4 Stunden. Für Pro-Tier können Sie einen zweiten Hetzner-Server als Failover buchen — Cubicle synchronisiert dann beide. Alternativ: optionaler Cloud-LLM-Fallback (mit PII-Anonymisierung wie bei Inhouse) bei längeren Ausfällen.
Nein. Sie buchen den Hetzner-Server (5 Min online), wir installieren und warten alles via SSH. Die Kanzlei muss nichts physisch tun — keine Server-Aufstellung, kein Rack, keine Hardware-Pflege. Bei größeren Kanzleien (>20 Berater) empfehlen wir einen technischen Ansprechpartner für Wartungs-Koordination.
Nein. Mandanten-Daten bleiben ausschließlich auf Ihrem Hetzner-Server. Cubicle wird nur für generische Rechtsfragen kontaktiert — z.B. „Was sagt § 280 BGB zu Schadensersatz?". Diese Fragen enthalten keine Mandanten-Information. Cubicle liefert Snippets aus 116k+ kuratierten Rechtsquellen zurück, das lokale LLM kombiniert sie mit Ihren Akten-Daten. Audit-Log auf Ihrem Server protokolliert jede Knowledge-API-Anfrage transparent.
Ja, für die Maintenance-Tätigkeit (Updates, Patches, Konfiguration via SSH). Unser AVV ist nach Berufsrechts-Standard formuliert (mit Bezug auf § 203 StGB / § 57 StBerG / § 43 WPO) und wird vor Vertragsabschluss vorgelegt. Im Unterschied zu Cloud/Inhouse fließen aber bei der Mandanten-Bearbeitung KEINE Daten zu uns — der AVV deckt nur die Maintenance ab.
Typisch 3-5 Werktage: Tag 1 buchen Sie den Hetzner-Server (online, sofort verfügbar), Tag 1-2 installieren wir den Cubicle-Stack inkl. Llama-Modell via SSH (4-6h), Tag 3 RAG-Indexing Ihrer Mandate-Bestände, Tag 4-5 Schulung + Go-Live. Bei kleinerer Hetzner-Klasse (Lite) sogar in 1-2 Werktagen möglich.

Sprechen wir über Ihre Konfiguration.

Wir antworten innerhalb von einem Werktag mit Terminvorschlägen für ein 30-Min-Beratungsgespräch. Im Gespräch klären wir Hardware-Anforderungen, Zeitplan und individuelles Angebot.

Danke! Ihre Anfrage ist eingegangen. Wir melden uns innerhalb von einem Werktag mit Terminvorschlägen.
Es gab ein Problem. Bitte versuchen Sie es nochmal oder schreiben Sie uns direkt an inhouse@cubicle.legal.

Mit dem Absenden willigen Sie ein, dass wir Ihre Daten zur Bearbeitung Ihrer Anfrage speichern. Details siehe Datenschutzerklärung.