Utoljára frissítve:
RAGAS metrikák — hogyan mérd a RAG rendszer minőségét 2026-ban?
A RAG rendszer elindult, a válaszok „jónak tűnnek" — de honnan tudod, hogy tényleg jók? A RAGAS (Retrieval Augmented Generation Assessment) az iparági standard erre a kérdésre: négy metrikával, referencia-adatbázis nélkül is, automatizáltan méri a rendszer minden kritikus dimenzióját.
A RAGAS négy metrikát mér: Faithfulness (hallucinál-e a modell?), Answer Relevancy (releváns-e a válasz?), Context Precision (a visszakeresett chunk-ok közül hány jó?), Context Recall (minden szükséges kontextus megvan-e?). Produkciós minimumküszöb: 0,78 összesített RAGAS Score. CI/CD-be integrálva automatikusan blokkolja a rosszabb deploy-okat.
Mi az a RAGAS?
A RAGAS (Retrieval Augmented Generation Assessment) egy 2023-ban Es Doğu és munkatársai által publikált, nyílt forráskódú értékelési keretrendszer, amelyet kifejezetten RAG pipeline-ok automatizált mérésére fejlesztettek. A cikk az arXiv-on jelent meg, a kódtár a GitHub-on érhető el, és 2024-re a RAG értékelés de facto iparági standardjává vált — a GitHub repó meghaladta a 7000 csillagot.
A RAGAS előtt a RAG rendszerek értékelése manuális, időigényes és szubjektív folyamat volt: emberi értékelők nézték át a válaszokat, és ad hoc módon döntöttek a minőségről. Ez nem skálázható és nem reprodukálható. A RAGAS két irányból oldotta meg a problémát.
Az LLM-as-a-judge módszer
A hagyományos NLP értékelés referencia-válaszokat igényel: tudni kell, mi a helyes válasz, és ahhoz mérik a generált outputot. A RAGAS bevezette az LLM-as-a-judge paradigmát: maga az LLM értékel — megvizsgálja, hogy a generált válasz logikailag levezethető-e a visszakeresett kontextusból, és hogy a kérdésre valóban releváns-e. Ezzel referencia-adatbázis nélkül is megbízható értékelés végezhető.
A módszer ereje az, hogy a négy metrika egymástól független dimenziót mér: egy rendszer lehet magas Faithfulness-szel, de alacsony Context Recall-lal — és a RAGAS pontosan megmutatja, hol a probléma. Ez a specifikus diagnosztika tette az eszközt operatívan hasznossá.
Három ok: (1) nyílt forráskódú, a ragas Python csomag pip-pel telepíthető; (2) referencia nélkül is működik, a mérés indíthatása nem igényel hónapos Q&A-adatbázis-építést; (3) négy metrika egyszerre mérhető, egyetlen evaluate() hívással — a diagnosztika komplex, a futtatás egyszerű.
A négy kulcsmetrika
Minden RAGAS metrika 0–1 skálán mozog. Az 1,0 a tökéletes értéket jelöli — a gyakorlatban 0,85 feletti Faithfulness és 0,80 feletti Answer Relevancy számít produkciós minőségnek. Az egyes metrikák különböző pipeline-komponenseket diagnosztizálnak: a retrieval problémái a Context Precision és Context Recall értékeiben jelennek meg, a generálási problémák a Faithfulness és Answer Relevancy értékeiben.
Mit mér: A generált válasz minden egyes állítása visszavezethető-e a visszakeresett context dokumentumokra? Ha az LLM olyan dolgot ír, ami nem szerepel a kontextusban — ez hallucináció, és a Faithfulness leesik.
Hogyan számítja: Az LLM szétbontja a választ atomi állításokra (claim decomposition), majd minden egyes állítást megvizsgál a context-ben. Az arány: (kontextusban igazolható állítások) / (összes állítás).
Ha alacsony (< 0,75): Hallucinációs probléma. Ellenőrizd a chunking minőségét — előfordulhat, hogy az LLM-be kerülő kontextus nem tartalmaz elég információt, ezért a modell kiegészíti saját tudásával. Csökkentsd a generation temperature értékét, növeld a top_k-t.
Mit mér: A generált válasz releváns-e magára a kérdésre? Egy válasz lehet teljesen hű a kontextushoz (magas Faithfulness), de mégis mellébeszélhet — más aspektusáról ír a témának, nem arra válaszol, amit kérdeztek.
Hogyan számítja: Az LLM visszagenerálja a kérdést a válaszból (reverse question generation), majd méri a koszinusz-hasonlóságot az eredeti és a visszagenerált kérdés embedding vektorai között. Minél hasonlóbb, annál relevánsabb a válasz.
Ha alacsony (< 0,70): A prompt template vagy az instrukciók nem irányítják elég specifikusan a választ. Javíts a system prompt-on, add hozzá az elvárt válasz-formátumot. Esetleg a retrieval rossz dokumentumokat hoz — ellenőrizd a Context Precision értékét is.
Mit mér: A visszakeresett chunk-ok közül hány valóban releváns a kérdés megválaszolásához? A felesleges, irreleváns chunk-ok zajként kerülnek az LLM kontextusába — rontják a válasz minőségét és növelik a hallucináció kockázatát.
Hogyan számítja: Ranking-alapú metrika — nem csak azt nézi, hány releváns chunk van a találatok között, hanem azt is, hogy a releváns chunk-ok előrébb vannak-e a rangsorban (normalizált diszkontált kumulatív nyereség elvén).
Ha alacsony (< 0,65): Az embedding modell gyengén különbözteti meg a szemantikailag közeli, de irreleváns szövegeket. Próbálj ki jobb embedding modellt, adj hozzá reranker réteget (pl. Qwen3-Reranker), vagy csökkentsd a top_k értékét.
Mit mér: A helyes válasz megadásához szükséges összes releváns információ mekkora hányada van jelen a visszakeresett chunk-ok között? Az alacsony Context Recall azt jelenti, hogy a rendszer „lyukas" — kritikus információ nem kerül be a kontextusba.
Hogyan számítja: Referencia válasz (ground_truth) alapján: az LLM azonosítja, milyen információra lett volna szükség a helyes válaszhoz, majd ellenőrzi, hogy ezek az információk megvannak-e a visszakeresett chunk-okban.
Ha alacsony (< 0,65): A chunking granularitás túl finom, és az összefüggő információ több chunk-ba kerül szét — a retrieval csak az egyiket hozza vissza. Próbálj parent-child chunking stratégiát, vagy növeld a top_k értékét. Ellenőrizd az indexelési lefedettséget is.
A RAGAS Score — a négy metrika összesítése
Az összesített RAGAS Score nem az aritmetikai átlag — hanem a harmonikus átlag, amely érzékenyen reagál a gyenge láncszemekre. Ha akár egyetlen metrika is nagyon alacsony, az összesített score drasztikusan leesik — ez szándékos: egy egyébként jó RAG rendszer is megbízhatatlan, ha a hallucinációs szint magas, vagy ha kritikus kontextus hiányzik.
A harmonikus átlag képlete négy metrikára:
RAGAS Score = 4 / (1/Faithfulness + 1/AnswerRelevancy + 1/ContextPrecision + 1/ContextRecall)
Példa: Faithfulness=0,88; AnswerRelevancy=0,83; ContextPrecision=0,78; ContextRecall=0,73 → RAGAS Score ≈ 0,80 (produkciós ready).
| Rendszer típusa | Faithfulness | Ans.Rel. | Ctx.Prec. | Ctx.Rec. | RAGAS Score |
|---|---|---|---|---|---|
| Prototípus | 0,70 | 0,65 | 0,60 | 0,55 | 0,62 |
| Fejlesztési fázis | 0,80 | 0,75 | 0,70 | 0,65 | 0,72 |
| Produkciós ready | 0,88 | 0,83 | 0,78 | 0,73 | 0,80 |
| Kiváló | 0,93 | 0,90 | 0,85 | 0,80 | 0,87 |
A Corpus V2 rendszernél a Context Recall volt a legkritikusabb bottleneck a korai fázisban — a chunking stratégia finomítása (parent-child váltás) egymaga 0,12 pontot javított a Context Recall értéken, ami az összesített RAGAS Score-t 0,68-ról 0,79-re emelte.
Implementáció — hogyan futtasd a RAGAS-t?
A ragas Python csomag pip-pel telepíthető (pip install ragas), és egyetlen evaluate() hívással futtatható. A minimális bemenet: kérdés, generált válasz, és a visszakeresett chunk-ok listája. A ground_truth (referencia válasz) csak a Context Recall méréshez szükséges — a többi metrika nélküle is működik.
from ragas import evaluate
from ragas.metrics import (
faithfulness,
answer_relevancy,
context_precision,
context_recall,
)
from datasets import Dataset
# Teszt dataset összeállítása
data = {
"question": ["Mi az a RAG rendszer és mire való vállalati környezetben?"],
"answer": ["A RAG (Retrieval-Augmented Generation) egy architektúra, amelyben az LLM valós idejű dokumentum-visszakereséssel válaszol."],
"contexts": [["Context chunk 1: A RAG rendszer vektoradatbázisból keres.", "Context chunk 2: Vállalati alkalmazások: HR-policy, ügyfélszolgálat."]],
"ground_truth": ["A RAG az LLM-et dinamikus visszakereséssel egészíti ki."]
}
# Értékelés futtatása
result = evaluate(
Dataset.from_dict(data),
metrics=[faithfulness, answer_relevancy, context_precision, context_recall]
)
print(result)
# Eredmény: {'faithfulness': 0.87, 'answer_relevancy': 0.82, 'context_precision': 0.79, 'context_recall': 0.74}
A négy paraméter magyarázata: a question az eredeti felhasználói kérdés; az answer a RAG pipeline által generált válasz; a contexts a retrieval által visszaadott szövegrészletek listája (a konkrét szövegtartalom, nem a dokumentum neve); a ground_truth egy referencia-válasz, amelyet egy emberi szakértő írt — ez csak a Context Recall számításához kötelező, a másik három metrika nélküle is lefuttatható.
A ground_truth opcionális — ha csak a Faithfulness, Answer Relevancy és Context Precision metrikákat futtatod, nem szükséges. Ez lehetővé teszi a mérés elindítását referencia-adatbázis nélkül is, akár 50 véletlen kérdéssel az éles rendszerből.
RAGAS a CI/CD pipeline-ban
A RAGAS értéke sokszorozódik, ha nem egyszeri mérés, hanem folyamatos minőségbiztosítás részévé válik. A cél: minden változtatásnál — új chunking stratégia, embedding modell csere, prompt frissítés — automatikusan fusson le a RAGAS értékelés, és blokkolja a deploy-t, ha bármely metrika a küszöb alá esik.
Integráció GitHub Actions-szel
A legegyszerűbb megközelítés: egy Python script a GitHub Actions workflow-ban, amely lefuttatja a RAGAS értékelést egy rögzített tesztkészleten (50–100 Q&A pár), majd exit code 1-gyel terminálja a pipeline-t, ha bármely metrika a küszöb alá esik. Ez a megközelítés nem igényel külső szolgáltatást — a tesztkészlet a repóban verziókezelt YAML vagy JSON fájl.
Integráció LangSmith-hel és LangFuse-zal
A ragas csomag natívan integrálható a LangSmith és LangFuse megfigyelő platformokkal. Ezek automatikusan logolják a RAGAS metrikák alakulását minden értékelési futtatásnál, és dashboardon jelenítik meg a trendeket. A LangFuse ingyenes, self-hosted változata alkalmas a legtöbb vállalati RAG monitoringhoz.
Javasolt küszöbök CI/CD blokkoláshoz: Faithfulness < 0,80 → deploy blokk; Answer Relevancy < 0,75 → deploy blokk; Context Precision < 0,70 → figyelmeztetés; Context Recall < 0,65 → figyelmeztetés. A strict és warning szint elválasztása megakadályozza, hogy kisebb retrieval-regressziók blokkolják a teljes pipeline-t, miközben a kritikus hallucináció-növekedés azonnal megállítja a deploy-t.
Javasolt mérési frekvencia
- Minden chunking-, embedding- vagy prompt-változtatáskor: Teljes RAGAS értékelés a rögzített tesztkészleten — ez a CI/CD gate.
- Heti monitoring: 50–100 véletlenszerű kérdés az éles rendszerből, Faithfulness és Answer Relevancy mérésével — ez az éles rendszer minőségének folyamatos nyomon követése.
- Negyedéves deep-dive: Teljes négy metrika, kibővített tesztkészlettel (200–500 kérdés), eredmény összehasonlítás az előző negyedévvel.
A leggyakoribb RAGAS diagnosztikai hibák
A RAGAS értékelés nem csak egy szám — hanem egy diagnosztikai eszköz. Ha egy metrika alacsony, az pontosan mutatja, melyik pipeline-komponenst kell javítani. Az alábbi checklist a leggyakoribb hibaképeket foglalja össze.
-
Faithfulness < 0,70 — súlyos hallucináció
A modell olyan állításokat generál, amelyek nem szerepelnek a visszakeresett kontextusban. Okok és javítások: (1) a chunking felosztja az összefüggő gondolatot — próbálj nagyobb chunk méretet vagy parent-child stratégiát; (2) top_k túl alacsony — a szükséges kontextus nem kerül be a modellbe; (3) generation temperature túl magas — csökkentsd 0,1–0,3 közé; (4) az LLM gyenge az instrukció-követésben — válts pontosabban irányítható modellre.
-
Answer Relevancy < 0,70 — irreleváns válasz
A válasz hű a kontextushoz, de nem azt válaszolja meg, amit kérdeztek — mellébeszél, általánosít, vagy teljesen más aspektusát tárgyalja a témának. Javítások: (1) prompt engineering — add meg pontosan a kívánt válaszformátumot és fókuszt a system promptban; (2) ellenőrizd a Context Precision értékét — ha az is alacsony, a rossz retrieval vezet mellébeszélő válaszhoz; (3) tesztelj erősebb generálási modellt.
-
Context Precision < 0,65 — gyenge retrieval pontosság
A visszakeresett chunk-ok között sok az irreleváns találat — az LLM zajos kontextuból dolgozik. Javítások: (1) az embedding modell nem megfelelő a domainhez — próbálj domain-specifikus vagy multilingual modellt (pl. multilingual-e5-large, Qwen3-Emb-8B); (2) reranker hozzáadása a pipeline-hoz (pl. Qwen3-Reranker) — drasztikusan javítja a precision értéket; (3) top_k csökkentése — kevesebb, de relevánsabb chunk.
-
Context Recall < 0,65 — hiányzó kontextus
Kritikus információ nem kerül be a visszakeresett chunk-ok közé — a modellnek nincs elegendő alapja a helyes válasz generálásához. Javítások: (1) a chunking túl finom — az összefüggő gondolat több chunk-ba van szétszórva, csak az egyiket hozza vissza a retrieval; váltás parent-child chunking stratégiára; (2) top_k növelése 3-ról 6–8-ra; (3) az indexelés lefedettség ellenőrzése — nem minden dokumentum van indexelve?
-
Magas Faithfulness, alacsony Answer Relevancy — „hű, de mellékes" szindróma
A modell pontosan idéz a dokumentumokból, de nem az eredeti kérdésre válaszol. Klasszikus jele: a válasz szakmailag helyes és a dokumentumokra támaszkodik, de a felhasználó nem ezt akarta tudni. Oka: a retrieval rossz dokumentumokat hoz vissza (alacsony Context Precision), vagy a prompt nem ad elég iránymutatást a fókuszra.
-
Alacsony Context Precision + magas Context Recall — „mindent hoz, de sokat zajjal"
A retrieval sok dokumentumot hoz vissza, köztük a szükségeset is — de a felesleges kontextus zavarja a modellt. Megoldás: reranker réteg hozzáadása, amely a top_k találatot újrarendezi relevancia szerint, mielőtt az LLM-be kerül. Ez az egyik leghatékonyabb precis ión-javítás, minimális recall-veszteséggel.
Kérdések és válaszok
Mi az a RAGAS és miért ez az iparági standard RAG értékelésére?
A RAGAS (Retrieval Augmented Generation Assessment) egy 2023-ban publikált, nyílt forráskódú értékelési keretrendszer RAG pipeline-ok mérésére. Azért vált iparági standarddá, mert referencia-adatbázis nélkül is működik (LLM-as-a-judge módszer), négy dimenzióban mér egyszerre, és a Hugging Face Spaces-en ingyenesen futtatható. A GitHub repó 2024-ben meghaladta a 7000 csillagot.
Mi a különbség a Faithfulness és az Answer Relevancy között?
A Faithfulness azt méri, hogy a generált válasz minden állítása visszavezethető-e a context dokumentumokra — azaz a modell nem hallucinal-e. Az Answer Relevancy azt méri, hogy a válasz mennyire releváns a kérdés szempontjából — azaz a modell pontosan válaszol-e a kérdésre, nem más témáról ír. Mindkettő 0–1 skálán mozog; 0,85 feletti érték produkciós minőséget jelöl.
Hogyan értelmezzük a Context Precision és Context Recall különbségét?
Context Precision: a visszakeresett chunk-ok közül hány a valóban releváns? (pontosság — felesleges zajt mér). Context Recall: a releváns információ mekkora hányada kerül be a visszakeresett chunk-okba? (lefedettség — hiányzó kontextust mér). A kettő trade-off: több chunk = jobb recall, de rosszabb precision. Az optimum top_k=5–8 között van a legtöbb vállalati használati esetre.
Milyen értékeket tekinthetünk jónak a RAGAS metrikákon?
Benchmark célszámok produkciós RAG rendszerhez: Faithfulness ≥ 0,85 (hallucináció elfogadható szintje alatt), Answer Relevancy ≥ 0,80 (releváns válasz), Context Precision ≥ 0,75 (jel-zaj arány), Context Recall ≥ 0,70 (lefedettség). Az összesített RAGAS Score a négy metrika harmonikus átlaga — produkciós minimumküszöb: 0,78.
Szükséges-e külön tesztadatbázis a RAGAS futtatásához?
Nem feltétlenül. A RAGAS LLM-as-a-judge módszere lehetővé teszi referencia-válaszok nélküli értékelést is — az LLM ítéli meg, hogy a generált válasz logikailag levezethetető-e a kontextusból. Ha van referencia-adatbázis (arány-standard Q&A párok), a mérés pontosabb lesz, de 50–100 tesztpárral is megbízható eredmény kapható.
Hogyan integráljuk a RAGAS-t a fejlesztési folyamatba?
CI/CD integrálás: a RAGAS értékelést a pull request pipeline részévé tesszük — ha bármely metrika a küszöb alá esik, a deploy blokkolódik. Javasolt frekvencia: minden model- vagy chunking-változtatáskor teljes RAGAS teszt; heti rendszerességű monitoring futtatás az éles rendszeren 50–100 véletlen kérdéssel. A ragas Python csomag LangSmith-hel és LangFuse-zal is integrálható.
Kapcsolódó tartalmak
RAG Minőség Audit
Ha el szeretnéd indítani a RAGAS mérést a saját rendszereden, vagy nem tudod értelmezni a kapott értékeket — egy 45 perces konzultáción végigmegyünk a diagnosztikán és a konkrét javítási lépéseken.
Konzultációt kérek RAG architektúra alapok →