Maximale Datenhoheit · Lokales LLM

Cubicle Sovereign.
Ihre eigene Kanzlei-KI.

Dedizierter GPU-Server im deutschen Rechenzentrum, lokales Llama-3.1-Modell, Zugriff auf Cubicle's kuratierten Rechts-Korpus (116k+ deutsche Gesetze, Urteile, BMF-Schreiben). Mandanten-Daten bleiben isoliert auf Ihrem Server — kein externer LLM-Aufruf, keine US-Cloud.

Beratung anfragen Im Vergleich

externe LLM-Calls

70B

Parameter lokal

116k+

Rechtsquellen via Cubicle-RAG

Hetzner Falkenstein

1 · Mandanten-Akte

Strafanzeige Schmidt vs. Müller

Lokal auf Kanzlei-Server (Hetzner DE)

↓ generische Rechtsfrage (keine Mandanten-Daten)

2 · Cubicle Knowledge-API

116k+ Gesetze / Urteile / BMF

Snippets + Quellen zurück

↓ LLM kombiniert lokal Akte + Knowledge

3 · LLM-Inference (lokal)

Llama-3.1-70B via vLLM

Kein externer LLM-Aufruf

↓ Antwort bleibt im RZ

4 · Antwort

Strukturiert + Quellen-Zitation

Über sichere VPN-Verbindung

Im Vergleich

Cloud, Inhouse, Sovereign — wann was?

Drei Stufen Datenhoheit, drei Preispunkte. Für 90% der Kanzleien reicht Cloud oder Inhouse. Sovereign ist für die 10% mit absoluter Daten-Abgeschiedenheit-Anforderung.

Standard

Cubicle AI

ab 249 € / Monat

Mandanten-Akte
↓ PII-Anonymisierung
↓ externes LLM (EU-Endpunkt)
↓ Antwort

✓ Hosting in deutschen RZ
✓ AVV nach Art. 28 DSGVO
○ Anonymisierte Auszüge gehen extern

Datenhoheit App + Storage

Cubicle Inhouse

1.900 € Setup + 449 €/Mo

Mandanten-Akte
↓ auf Kanzlei-Server
↓ PII-Anonymisierung
↓ externes LLM (EU-Endpunkt)
↓ Antwort

✓ Mandanten-Akten in Kanzlei-Infrastruktur
✓ Eigene Domain + Branding
○ LLM weiterhin extern (anonymisiert)

Eigener Server + lokales LLM
Cubicle Sovereignab 2.900 € Setup + 990 €/Mo

          Mandanten-Akte

          ↓ dedizierter Server (Hetzner DE)

          ↓ lokales LLM auf GPU

          ↓ Cubicle-RAG (nur Rechtsfragen)

          ↓ Antwort
        
✓ Mandanten-Daten nur auf Kanzlei-Server
✓ Llama-3.1 lokal, kein externer LLM
✓ Cubicle-Knowledge-API für Recht
✓ Eigene Domain + Branding
✓ Monatlich kündbar (Hetzner-Miete)

Anwendungsfälle

Wann Sovereign tatsächlich nötig ist.

Nicht jede Kanzlei braucht lokale Inferenz. Diese vier Konstellationen rechtfertigen den Aufpreis.

Strafverteidigung

§ 160a StPO bietet Schutz vor Beschlagnahme — der nur greift wenn Daten nachweisbar nicht außerhalb der Kanzlei waren. Sovereign macht den Nachweis trivial: kein API-Call nach außen, der protokolliert werden könnte.

Konzern-Mandate mit Tool-Stack-Vorgaben

Großmandanten verlangen oft, dass sämtliche eingesetzten Tools in der Kanzlei-Infrastruktur laufen und im Audit-Scope der Kanzlei (nicht eines externen Sub-Auftragsverarbeiters) sind. Sovereign erfüllt das ohne Kompromiss.

Wirtschaftsprüfer mit Insider-Informationen

Bei börsennotierten Mandanten gelten besondere Sorgfaltspflichten für kurspreisrelevante Daten. WPK empfiehlt 2025 explizit On-Premise inkl. lokaler KI-Inferenz für Mandate mit Insider-Risiko.

Mandanten mit AVV-Ausschluss von US-LLMs

Manche internationale Mandanten verbieten in ihrem AVV explizit jegliche Übermittlung an US-Tech-Konzerne — auch anonymisiert. Sovereign nutzt ausschließlich Open-Source-Modelle (Llama) auf Kanzlei-Hardware, kein US-API-Call.

Technischer Stack

Server bei Hetzner. Wissen von Cubicle.

Sie buchen einen dedizierten GPU-Server bei Hetzner (Falkenstein, DE). Wir installieren den kompletten Cubicle-Stack inkl. lokalem LLM. Für rechtliches Wissen ruft Ihr Server die Cubicle Knowledge-API auf — generische Rechtsfragen, keine Mandanten-Daten.

Hetzner Dedicated GPU-Server

HostingHetzner-RZ Falkenstein (DE)

ZertifizierungISO 27001

Lite (GEX44)RTX 4000 Ada 20 GB · i5 · 64 GB RAM

Standard (GEX130)RTX 4000 SFF · 64 GB RAM

Pro (GEX131)RTX PRO 6000 Blackwell 96 GB

Modell auf LiteLlama-3.1-8B / Mistral-7B

Modell auf ProLlama-3.1-70B AWQ-4bit

Strom + RZin Hetzner-Miete inkl.

Hardware-Investition0 € (gemietet)

Software-Stack (von uns installiert)

BetriebssystemUbuntu 24.04 LTS

Container-RuntimeDocker + NVIDIA-Toolkit

LLM-InferencevLLM 0.6+ (lokal)

SprachmodellLlama-3.1 (8B / 70B)

Modell-FormatAWQ-quantisiert (4bit)

Mandate-DBPostgreSQL (lokal, verschlüsselt)

Knowledge-SourceCubicle RAG-API (zentral)

App-LayerCubicle-Frontend + Workspaces

Audit-LogPostgreSQL + 10-Jahre-Retention

🔐 Datenfluss bei Sovereign — was wo bleibt

Auf Ihrem Hetzner-Server (DE):

Alle Mandanten-Akten + Dokumente
Chat-Verläufe + Memory pro Workspace
Lokales Llama-Modell (kein API-Call)
Audit-Log über alle Zugriffe

Bei Cubicle (Frankfurt):

Knowledge-Base (116k+ Rechtsquellen)
Verfügbar via REST-API
Erhält nur generische Rechtsfragen
Nie Mandanten-Daten

Preise

Sovereign-Tarif.

Einmaliges Setup + Monats-Pauschale. Hardware kauft die Kanzlei separat (wir empfehlen Lieferanten).

Lite

Llama-8B · GEX44

Einstieg für kleine Kanzleien (1-3 Anwälte).

2.900 €Setup

+ 299 €/Mo

Cubicle-Pauschale (Llama-Pflege + Knowledge-API + Maintenance)
+ Hetzner GEX44 (~250 €/Mo, gebucht von Kanzlei)
Total ~549 €/Mo

Cubicle-Stack vorinstalliert
3.000 Knowledge-Queries/Mo
Lokale LLM-Tokens unbegrenzt
E-Mail-Support 1 Werktag

Beratung

Standard · Empfohlen

Llama-70B · GEX131

Beste Qualität für deutsche Rechtsaufgaben (5-15 Anwälte).

4.900 €Setup

+ 499 €/Mo

Cubicle-Pauschale (Llama-70B-Pflege + Knowledge-API + Maintenance)
+ Hetzner GEX131 (~900 €/Mo, gebucht von Kanzlei)
Total ~1.399 €/Mo

Cubicle-Stack + Llama-3.1-70B AWQ
15.000 Knowledge-Queries/Mo
Lokale LLM-Tokens unbegrenzt
Eigene Domain + Branding
Audit-Log + ISAE-3402-Template
Quartalsweise Modell-Updates

Beratung anfragen

Pro

Hochverfügbar + Fine-Tuning

Große Kanzleien (20+ Anwälte), 24/7-Anforderungen.

7.900 €Setup

+ 890 €/Mo

Cubicle-Pauschale (alles + 24/7-Support + Fine-Tuning)
+ Hetzner GEX131 (~900 €/Mo, ggf. 2× redundant)
Total ~1.790 €/Mo

Alles aus Standard
50.000 Knowledge-Queries/Mo
Fine-Tuning auf eigene Texte
Redundante GPU optional
24/7-Support + Account-Manager

Beratung

Was die Cubicle-Pauschale enthält

Llama-Modell-Pflege:
Wir installieren, testen, signen und aktualisieren das Sprachmodell quartalsweise.

Knowledge-API-Zugriff:
Volltext-Suche in 116k+ deutschen Rechtsquellen, täglich aktualisiert.

Cubicle-Stack-Maintenance:
Updates, Security-Patches, Docker-Pflege via SSH (mit AVV).

Support + Compliance-Hilfe:
E-Mail-Support, AVV-Mustertexte, ISAE-3402-Templates, Berufsrechts-Beratung.

Hetzner-Server bucht die Kanzlei direkt bei Hetzner — Hosting in Falkenstein, DE-RZ, ISO 27001. Monatlich kündbar, keine Hardware-Investition.
Add-on: +5.000 Knowledge-Queries = 39 €/Mo · 24/7-Support (Standard-Tier) = +199 €/Mo

FAQ

Häufige Fragen.

Llama-3.1-70B von Meta ist Open-Source, hat die mit Abstand beste deutsche Sprachqualität unter den Open-Source-LLMs (auf Augenhöhe mit GPT-4 in vielen juristischen Aufgaben) und läuft auf einer einzigen A100-GPU. Alternativen wie Aleph Alpha Pharia oder Mistral-Large können bei Bedarf installiert werden — das ist Teil der Konfigurations-Beratung im Setup-Prozess.

Ja. Fine-Tuning auf Ihrer eigenen Mandantenkommunikation (z.B. Schriftsatz-Stil, kanzleispezifische Formulierungen) ist möglich — als Add-on im ersten Setup oder später. Kosten je nach Datenmenge typischerweise 3.500-8.000 € einmalig. Wichtig: Wir empfehlen das erst nach 6 Monaten Produktiv-Nutzung, weil die Standard-Llama-Qualität für die meisten Use-Cases schon ausreicht.

Hetzner garantiert 99,9% Verfügbarkeit (Falkenstein-RZ, redundante Stromversorgung, USV, Klimatisierung). Bei Hardware-Defekt tauscht Hetzner i.d.R. innerhalb 4 Stunden. Für Pro-Tier können Sie einen zweiten Hetzner-Server als Failover buchen — Cubicle synchronisiert dann beide. Alternativ: optionaler Cloud-LLM-Fallback (mit PII-Anonymisierung wie bei Inhouse) bei längeren Ausfällen.

Nein. Sie buchen den Hetzner-Server (5 Min online), wir installieren und warten alles via SSH. Die Kanzlei muss nichts physisch tun — keine Server-Aufstellung, kein Rack, keine Hardware-Pflege. Bei größeren Kanzleien (>20 Berater) empfehlen wir einen technischen Ansprechpartner für Wartungs-Koordination.

Nein. Mandanten-Daten bleiben ausschließlich auf Ihrem Hetzner-Server. Cubicle wird nur für generische Rechtsfragen kontaktiert — z.B. „Was sagt § 280 BGB zu Schadensersatz?". Diese Fragen enthalten keine Mandanten-Information. Cubicle liefert Snippets aus 116k+ kuratierten Rechtsquellen zurück, das lokale LLM kombiniert sie mit Ihren Akten-Daten. Audit-Log auf Ihrem Server protokolliert jede Knowledge-API-Anfrage transparent.

Ja, für die Maintenance-Tätigkeit (Updates, Patches, Konfiguration via SSH). Unser AVV ist nach Berufsrechts-Standard formuliert (mit Bezug auf § 203 StGB / § 57 StBerG / § 43 WPO) und wird vor Vertragsabschluss vorgelegt. Im Unterschied zu Cloud/Inhouse fließen aber bei der Mandanten-Bearbeitung KEINE Daten zu uns — der AVV deckt nur die Maintenance ab.

Typisch 3-5 Werktage: Tag 1 buchen Sie den Hetzner-Server (online, sofort verfügbar), Tag 1-2 installieren wir den Cubicle-Stack inkl. Llama-Modell via SSH (4-6h), Tag 3 RAG-Indexing Ihrer Mandate-Bestände, Tag 4-5 Schulung + Go-Live. Bei kleinerer Hetzner-Klasse (Lite) sogar in 1-2 Werktagen möglich.

Anfragen

Sprechen wir über Ihre Konfiguration.

Wir antworten innerhalb von einem Werktag mit Terminvorschlägen für ein 30-Min-Beratungsgespräch. Im Gespräch klären wir Hardware-Anforderungen, Zeitplan und individuelles Angebot.

Danke! Ihre Anfrage ist eingegangen. Wir melden uns innerhalb von einem Werktag mit Terminvorschlägen.

Es gab ein Problem. Bitte versuchen Sie es nochmal oder schreiben Sie uns direkt an inhouse@cubicle.legal.

Name *

Kanzlei *

E-Mail *

Telefon

Anzahl Berater

Zeitlicher Rahmen

Mandate-Kontext / spezielle Anforderungen

Mit dem Absenden willigen Sie ein, dass wir Ihre Daten zur Bearbeitung Ihrer Anfrage speichern. Details siehe Datenschutzerklärung.

Cubicle Sovereign.Ihre eigene Kanzlei-KI.

Cloud, Inhouse, Sovereign — wann was?

Cubicle AI

Cubicle Inhouse