RAG Review

was ist das hier

Ein festes Testset aus realistischen Fragen, das regelmäßig gegen den Gedächtnisspeicher des Systems läuft. Ergebnis: eine ehrliche Karte davon, wo die Wissensschicht heute trägt — und wo sie schweigt oder rauscht.

Warum das überhaupt nötig ist

Jedes KI-Setup, das "mitdenkt", hängt irgendwann an einer Wissensschicht: vergangene Notizen, abgelegte Erkenntnisse, dokumentierte Entscheidungen. Man fragt die Maschine etwas, und sie soll sich an den richtigen Teil erinnern. Nur: ob sie das wirklich tut, bleibt ohne Messung Bauchgefühl.

Das eigentliche Problem ist dabei nicht "keine Antwort". Das eigentliche Problem ist die plausible falsche Antwort — eine, die gut klingt, aber an der falschen Stelle im Speicher gezogen hat.

Die gefährlichste Retrieval-Antwort ist nicht "weiß nicht". Sie ist "sieht nach Wissen aus, ist aber Rauschen".

Wie der Review arbeitet

1
Typische Fragen definieren
Fragen aus dem echten Alltag: "Was haben wir an Projekt X zuletzt entschieden?", "Welche Operationen laufen nachts?", "Wie hängt Y mit Z zusammen?"
2
Wissensschicht abfragen
Jede Frage läuft durch die normale Retrieval-Pipeline — so, wie sie auch ein Agent stellen würde. Kein Sonderweg, kein Tuning pro Frage.
3
Antwort bewerten
Jeder Treffer wird nach erwarteten Quellen geprüft. Passt das Ergebnis? Oder wurden generische Schnipsel gezogen, die zufällig ähnlich aussehen?
4
Warnungen festhalten
PASS/FAIL allein reicht nicht. Halbe Treffer und verdächtige Quellen werden markiert, um Regressionen früh zu sehen.

Der aktuelle Stand

messung vom 2026-04-24

Sechs von sechs Kernfragen sind grün. Konkrete technische Episoden werden zuverlässig wiedergefunden. Gleichzeitig ziehen zwei breitere, generische Fragen immer noch Tweet-Fragmente in den Kernkontext — also Inhalte, die eigentlich als Zusatzmaterial getrennt laufen sollten.

ohne Review

Retrieval-Qualität ist reines Bauchgefühl.
Rauschquellen fallen erst beim Streiten mit dem Agenten auf.
Eine Änderung am Index wirkt — oder auch nicht, keiner weiß es.

mit Review

Ein reproduzierbares Ergebnis pro Fragengruppe.
Rauschquellen sind als Warnungen benannt.
Eine Änderung am Index erzeugt ein sichtbares Delta.

Was die Messung ehrlich macht

Die Review-Seite zeigt nicht nur, dass etwas funktioniert, sondern wo die Pipeline heute noch rät. Zwei breite Ops- und Security-Fragen ziehen Inhalte aus einem Nebenkanal in den Kernkontext. Das ist kein Totalausfall — aber es ist Rauschen, das entweder im Index oder im Prompt getrennt werden muss.

Gerade solche halbverrauschten Treffer sind wertvoller als eindeutiges Versagen. Sie zeigen, dass der Speicher nicht kategorisch defekt ist, sondern an einer klaren Kante falsch adressiert. Das ist eine Kante, die man verschieben kann.

was ich mitnehme

PASS/FAIL reicht nicht. Halb-erfolgreiche Treffer sind die interessantesten Fundstellen — sie zeigen genau, wo die Indexierung sauberer werden muss, ohne dass ein komplettes System umgebaut werden müsste.

Was noch kommt

Warnungen sollen als echte Regressionen gespeichert werden, nicht nur gezählt.
Tweet-Metadaten sollen als strukturierte Zusatzebene ausgewertet werden, nicht als Textbeilage im Core-Kontext.
Einzelne Themen, z.B. Portfolio-Ticker-Abdeckung, bekommen eigene Messreihen statt in der Allgemeinheit mitzulaufen.

Public Cut

Diese Seite zeigt die Fragenklassen, die Messweise und die aktuelle Qualitätskarte. Sie zeigt keine konkreten Memory-Inhalte, keine Roh-Embeddings, keine vollständigen Antworttexte und keine privaten Ablagepfade. Der Review ist ein Produkt der Messung, nicht ein Dump des Speichers.

Warum das überhaupt nötig ist

Wie der Review arbeitet

Typische Fragen definieren

Wissensschicht abfragen

Antwort bewerten

Warnungen festhalten

Der aktuelle Stand

Was die Messung ehrlich macht

Was noch kommt

Public Cut

Mehr aus dem OpenClaw-Setup

Agent Bridge

Night Action

Private Gate