RAG vs. Fine-Tuning für Rechts-KI

Wenn ein KI-Anbieter Ihnen erzählt, er „fine-tunet das Modell auf deutsche Rechtsdaten", klingt das beeindruckend. In Wahrheit ist es für juristische und steuerliche Anwendungen meist das schlechteste, was er tun kann. Dieser Artikel erklärt — laienverständlich — warum RAG (Retrieval-Augmented-Generation) die richtige Architektur für Berufs-KI ist und Fine-Tuning eine teure Sackgasse.

Die zwei Wege, einer KI Wissen zuzuführen

Es gibt grundsätzlich zwei Wege, einem Sprachmodell Domänen-Wissen verfügbar zu machen:

Fine-Tuning: das Modell „lernt" auswendig

Beim Fine-Tuning nehmen Sie ein vortrainiertes Modell (z.B. GPT-4 oder ein Open-Source-Modell wie Llama 3) und trainieren es weiter — auf Ihren eigenen Texten. Das Modell passt seine inneren Gewichte an, sodass es typische Antworten in Ihrem Stil und mit Ihrem Vokabular geben kann.

Beispiel: Sie fine-tunen ein Modell auf 50.000 BMF-Schreiben. Danach „kennt" es den Schreibstil, die Begriffe und die typischen Argumentationslinien. Aber: Es weiß nicht, welches BMF-Schreiben welche Aussage trifft. Es hat das Wissen statistisch verschmolzen.

RAG: das Modell schaut nach

Bei Retrieval-Augmented-Generation passiert etwas anderes. Das Sprachmodell bleibt unverändert. Stattdessen läuft bei jeder Frage folgender Prozess:

Frage des Users wird in einen mathematischen Vektor umgewandelt (Embedding).
Eine Vektor-Datenbank sucht ähnliche Vektoren — also semantisch verwandte Dokumente.
Die Top-Treffer (z.B. die 10 relevantesten Paragraphen oder Urteile) werden dem Modell als Kontext mitgegeben.
Das Modell antwortet — basierend ausschließlich auf diesem mitgegebenen Kontext.

Resultat: Antworten sind nachvollziehbar, mit konkreten Quellen, und das System weiß genau, welche Norm es benutzt hat.

Warum Fine-Tuning für Recht und Steuer schlecht ist

Drei Gründe machen Fine-Tuning für Berufs-KI ungeeignet:

1. Es konsolidiert Halluzinationen

Wenn Sie ein Modell auf 50.000 Schriftsätzen fine-tunen, lernt es, in welchem Stil Schriftsätze formuliert werden. Wenn es danach selbst einen Schriftsatz generiert, übernimmt es diesen Stil — und produziert plausibel klingende, aber inhaltlich oft erfundene Aktenzeichen und Paragraphen. Die Halluzinationen werden „fester" eingebrannt.

2. Aktualität ist tot

Sobald Sie fine-getunet haben, ist das Modell auf dem Stand des Trainings-Zeitpunkts. Eine Gesetzesänderung im nächsten Monat? Nicht enthalten. Ein neues BGH-Urteil? Nicht enthalten. Sie müssten jedes Mal neu trainieren — was Wochen dauert und sechsstellige Kosten verursacht.

Bei RAG ist das anders: Sie aktualisieren einfach die Vektor-Datenbank, das Modell selbst bleibt unverändert. Cubicle indexiert täglich neue Gerichtsentscheidungen und BMF-Schreiben — kein Re-Training nötig.

3. Quellen-Nachweis ist unmöglich

Das ist der entscheidende Punkt. Bei Fine-Tuning ist nicht nachweisbar, woher eine konkrete Antwort kommt — die Information ist im neuronalen Netzwerk verstreut über Millionen Gewichte. Sie können nicht sagen: „Diese Antwort basiert auf § 281 BGB und auf BGH VIII ZR 78/20."

Bei RAG ist genau das möglich. Die Quellen werden vor der Antwort identifiziert, der KI mitgegeben und in der Antwort referenziert. Das ist die Voraussetzung dafür, dass eine Antwort berufsrechtlich überhaupt verwendbar ist.

Wann ist Fine-Tuning trotzdem sinnvoll?

Es gibt einen sinnvollen Einsatzbereich: Stil und Format. Wenn Sie wollen, dass die KI Ihre Schriftsätze in einem ganz bestimmten Format produziert, kann ein leichtes Fine-Tuning auf Stil-Beispielen helfen. Aber der Inhalt — die Norm, das Urteil, die Klausel — kommt weiterhin aus dem RAG-Retrieval, nicht aus dem fine-getuneten Wissen.

In der Praxis nutzen seriöse Berufs-KI-Systeme RAG für 95% des Use-Cases und greifen nur in Ausnahmefällen auf Light-Fine-Tuning für Format-Vorgaben zurück.

Wie sieht eine gute RAG-Pipeline aus?

Eine professionelle RAG-Pipeline für Rechts-KI hat folgende Komponenten:

Kuratierte Wissensquellen: Gesetze (BGB, StGB, AO, HGB), höchstrichterliche Urteile, BMF-Schreiben, Tarifverträge, EU-Richtlinien. Nicht „das halbe Internet".
Chunking-Strategie: Dokumente werden in semantisch sinnvolle Stücke zerlegt (nicht stumpf alle 500 Tokens). Ein Paragraph bleibt zusammen, eine Urteilsbegründung bleibt zusammen.
Embedding-Modell: Wandelt Texte in Vektoren um. Wichtig: deutschsprachiges Modell mit Rechts-Vokabular, sonst wird „Anfechtung" semantisch zu „Beschwerde" verschoben.
Vektor-Datenbank: Qdrant, Pinecone, pgvector — egal, Hauptsache schnell genug für Sub-Sekunden-Antworten.
Hybrid-Suche: Reine Vektor-Suche reicht nicht — kombiniert mit Keyword-Suche (BM25) finden Sie auch Paragraphen, die im Volltext explizit erwähnt werden.
Reranker: Ein zweiter Modell-Lauf, der die Top-Treffer nochmal nach Relevanz sortiert. Reduziert Off-Topic-Antworten dramatisch.
Citation-Verifier: Vor der Ausgabe prüft das System, ob jede zitierte Stelle wirklich im Kontext stand. Wenn nicht, wird die Antwort zurückgehalten.

Zahlen aus der Praxis

Cubicle indexiert über 116.000 deutsche Rechtsquellen, mit fünf branchenspezifischen Vektor-Datenbanken (Anwaltsrecht, Steuern, Wirtschaftsprüfung, Hotel, Agentur). Embedding-Modell ist deutschsprachig optimiert, Hybrid-Suche kombiniert Vektor- mit BM25-Pfaden, Citation-Verifier hat eine Reject-Quote von ca. 3% bei Standard-Anfragen.

Fazit

Fine-Tuning klingt nach „massgeschneiderter KI", ist aber für Berufs-Anwendungen meist ein Marketing-Trick. RAG ist die richtige Architektur — sie ist transparent, aktualisierbar und ermöglicht Quellen-Nachweise. Wenn Sie eine KI für Ihre Kanzlei oder Beratung evaluieren, fragen Sie konkret nach der Architektur: Ist es RAG? Welche Quellen? Wie aktuell? Gibt es einen Citation-Verifier?

Eine Antwort wie „Wir haben das Modell auf Ihre Daten fine-getunet" sollte rote Lampen leuchten lassen. Eine Antwort wie „Wir suchen für jede Frage live in unserer kuratierten Datenbank, übergeben die Treffer dem Modell und verifizieren die Antwort gegen die Treffer" ist die richtige.

RAG vs. Fine-Tuning — was funktioniert für Rechts- und Steuer-KI?

Die zwei Wege, einer KI Wissen zuzuführen

Fine-Tuning: das Modell „lernt" auswendig

RAG: das Modell schaut nach

Warum Fine-Tuning für Recht und Steuer schlecht ist

1. Es konsolidiert Halluzinationen

2. Aktualität ist tot

3. Quellen-Nachweis ist unmöglich

Wann ist Fine-Tuning trotzdem sinnvoll?

Wie sieht eine gute RAG-Pipeline aus?

Fazit

Bereit, Berufs-KI selbst zu testen?

RAG vs. Fine-Tuning — was funktioniert für Rechts- und Steuer-KI?

Die zwei Wege, einer KI Wissen zuzuführen

Fine-Tuning: das Modell „lernt" auswendig

RAG: das Modell schaut nach

Warum Fine-Tuning für Recht und Steuer schlecht ist

1. Es konsolidiert Halluzinationen

2. Aktualität ist tot

3. Quellen-Nachweis ist unmöglich

Wann ist Fine-Tuning trotzdem sinnvoll?

Wie sieht eine gute RAG-Pipeline aus?

Fazit

Weiter lesen

5 Anti-Halluzinations-Regeln für die Mandanten-Recherche

Berufsrecht, DSGVO & KI — wie geht das zusammen?

BMF-Schreiben verstehen — mit KI

Bereit, Berufs-KI selbst zu testen?