Utoljára frissítve: 2026. március 19.

RAGAS metrikák — hogyan mérd a RAG rendszer minőségét 2026-ban?

A RAG rendszer elindult, a válaszok „jónak tűnnek" — de honnan tudod, hogy tényleg jók? A RAGAS (Retrieval Augmented Generation Assessment) az iparági standard erre a kérdésre: négy metrikával, referencia-adatbázis nélkül is, automatizáltan méri a rendszer minden kritikus dimenzióját.

TL;DR

A RAGAS négy metrikát mér: Faithfulness (hallucinál-e a modell?), Answer Relevancy (releváns-e a válasz?), Context Precision (a visszakeresett chunk-ok közül hány jó?), Context Recall (minden szükséges kontextus megvan-e?). Produkciós minimumküszöb: 0,78 összesített RAGAS Score. CI/CD-be integrálva automatikusan blokkolja a rosszabb deploy-okat.

4

Kulcsmetrika — Faithfulness, Answer Relevancy, Context Precision, Context Recall

0,85

Faithfulness célérték produkciós RAG rendszernél — e felett az hallucináció elfogadható szinten

LLM-as-a-judge

Módszer — referencia-adatbázis nélkül is működik, az LLM értékel

Mi az a RAGAS?

A RAGAS (Retrieval Augmented Generation Assessment) egy 2023-ban Es Doğu és munkatársai által publikált, nyílt forráskódú értékelési keretrendszer, amelyet kifejezetten RAG pipeline-ok automatizált mérésére fejlesztettek. A cikk az arXiv-on jelent meg, a kódtár a GitHub-on érhető el, és 2024-re a RAG értékelés de facto iparági standardjává vált — a GitHub repó meghaladta a 7000 csillagot.

A RAGAS előtt a RAG rendszerek értékelése manuális, időigényes és szubjektív folyamat volt: emberi értékelők nézték át a válaszokat, és ad hoc módon döntöttek a minőségről. Ez nem skálázható és nem reprodukálható. A RAGAS két irányból oldotta meg a problémát.

Az LLM-as-a-judge módszer

A hagyományos NLP értékelés referencia-válaszokat igényel: tudni kell, mi a helyes válasz, és ahhoz mérik a generált outputot. A RAGAS bevezette az LLM-as-a-judge paradigmát: maga az LLM értékel — megvizsgálja, hogy a generált válasz logikailag levezethető-e a visszakeresett kontextusból, és hogy a kérdésre valóban releváns-e. Ezzel referencia-adatbázis nélkül is megbízható értékelés végezhető.

A módszer ereje az, hogy a négy metrika egymástól független dimenziót mér: egy rendszer lehet magas Faithfulness-szel, de alacsony Context Recall-lal — és a RAGAS pontosan megmutatja, hol a probléma. Ez a specifikus diagnosztika tette az eszközt operatívan hasznossá.

Miért lett iparági standard?

Három ok: (1) nyílt forráskódú, a ragas Python csomag pip-pel telepíthető; (2) referencia nélkül is működik, a mérés indíthatása nem igényel hónapos Q&A-adatbázis-építést; (3) négy metrika egyszerre mérhető, egyetlen evaluate() hívással — a diagnosztika komplex, a futtatás egyszerű.

A négy kulcsmetrika

Minden RAGAS metrika 0–1 skálán mozog. Az 1,0 a tökéletes értéket jelöli — a gyakorlatban 0,85 feletti Faithfulness és 0,80 feletti Answer Relevancy számít produkciós minőségnek. Az egyes metrikák különböző pipeline-komponenseket diagnosztizálnak: a retrieval problémái a Context Precision és Context Recall értékeiben jelennek meg, a generálási problémák a Faithfulness és Answer Relevancy értékeiben.

Generálási minőség

Faithfulness

≥ 0,85

Mit mér: A generált válasz minden egyes állítása visszavezethető-e a visszakeresett context dokumentumokra? Ha az LLM olyan dolgot ír, ami nem szerepel a kontextusban — ez hallucináció, és a Faithfulness leesik.

Hogyan számítja: Az LLM szétbontja a választ atomi állításokra (claim decomposition), majd minden egyes állítást megvizsgál a context-ben. Az arány: (kontextusban igazolható állítások) / (összes állítás).

Ha alacsony (< 0,75): Hallucinációs probléma. Ellenőrizd a chunking minőségét — előfordulhat, hogy az LLM-be kerülő kontextus nem tartalmaz elég információt, ezért a modell kiegészíti saját tudásával. Csökkentsd a generation temperature értékét, növeld a top_k-t.

Generálási minőség

Answer Relevancy

≥ 0,80

Mit mér: A generált válasz releváns-e magára a kérdésre? Egy válasz lehet teljesen hű a kontextushoz (magas Faithfulness), de mégis mellébeszélhet — más aspektusáról ír a témának, nem arra válaszol, amit kérdeztek.

Hogyan számítja: Az LLM visszagenerálja a kérdést a válaszból (reverse question generation), majd méri a koszinusz-hasonlóságot az eredeti és a visszagenerált kérdés embedding vektorai között. Minél hasonlóbb, annál relevánsabb a válasz.

Ha alacsony (< 0,70): A prompt template vagy az instrukciók nem irányítják elég specifikusan a választ. Javíts a system prompt-on, add hozzá az elvárt válasz-formátumot. Esetleg a retrieval rossz dokumentumokat hoz — ellenőrizd a Context Precision értékét is.

Retrieval minőség

Context Precision

≥ 0,75

Mit mér: A visszakeresett chunk-ok közül hány valóban releváns a kérdés megválaszolásához? A felesleges, irreleváns chunk-ok zajként kerülnek az LLM kontextusába — rontják a válasz minőségét és növelik a hallucináció kockázatát.

Hogyan számítja: Ranking-alapú metrika — nem csak azt nézi, hány releváns chunk van a találatok között, hanem azt is, hogy a releváns chunk-ok előrébb vannak-e a rangsorban (normalizált diszkontált kumulatív nyereség elvén).

Ha alacsony (< 0,65): Az embedding modell gyengén különbözteti meg a szemantikailag közeli, de irreleváns szövegeket. Próbálj ki jobb embedding modellt, adj hozzá reranker réteget (pl. Qwen3-Reranker), vagy csökkentsd a top_k értékét.

Retrieval minőség

Context Recall

≥ 0,70

Mit mér: A helyes válasz megadásához szükséges összes releváns információ mekkora hányada van jelen a visszakeresett chunk-ok között? Az alacsony Context Recall azt jelenti, hogy a rendszer „lyukas" — kritikus információ nem kerül be a kontextusba.

Hogyan számítja: Referencia válasz (ground_truth) alapján: az LLM azonosítja, milyen információra lett volna szükség a helyes válaszhoz, majd ellenőrzi, hogy ezek az információk megvannak-e a visszakeresett chunk-okban.

Ha alacsony (< 0,65): A chunking granularitás túl finom, és az összefüggő információ több chunk-ba kerül szét — a retrieval csak az egyiket hozza vissza. Próbálj parent-child chunking stratégiát, vagy növeld a top_k értékét. Ellenőrizd az indexelési lefedettséget is.

A RAGAS Score — a négy metrika összesítése

Az összesített RAGAS Score nem az aritmetikai átlag — hanem a harmonikus átlag, amely érzékenyen reagál a gyenge láncszemekre. Ha akár egyetlen metrika is nagyon alacsony, az összesített score drasztikusan leesik — ez szándékos: egy egyébként jó RAG rendszer is megbízhatatlan, ha a hallucinációs szint magas, vagy ha kritikus kontextus hiányzik.

A harmonikus átlag képlete négy metrikára:

Képlet

RAGAS Score = 4 / (1/Faithfulness + 1/AnswerRelevancy + 1/ContextPrecision + 1/ContextRecall)

Példa: Faithfulness=0,88; AnswerRelevancy=0,83; ContextPrecision=0,78; ContextRecall=0,73 → RAGAS Score ≈ 0,80 (produkciós ready).

Rendszer típusa	Faithfulness	Ans.Rel.	Ctx.Prec.	Ctx.Rec.	RAGAS Score
Prototípus	0,70	0,65	0,60	0,55	0,62
Fejlesztési fázis	0,80	0,75	0,70	0,65	0,72
Produkciós ready	0,88	0,83	0,78	0,73	0,80
Kiváló	0,93	0,90	0,85	0,80	0,87

Saját tapasztalat

A Corpus V2 rendszernél a Context Recall volt a legkritikusabb bottleneck a korai fázisban — a chunking stratégia finomítása (parent-child váltás) egymaga 0,12 pontot javított a Context Recall értéken, ami az összesített RAGAS Score-t 0,68-ról 0,79-re emelte.

Implementáció — hogyan futtasd a RAGAS-t?

A ragas Python csomag pip-pel telepíthető (pip install ragas), és egyetlen evaluate() hívással futtatható. A minimális bemenet: kérdés, generált válasz, és a visszakeresett chunk-ok listája. A ground_truth (referencia válasz) csak a Context Recall méréshez szükséges — a többi metrika nélküle is működik.

Python — RAGAS alaphasználat

from ragas import evaluate
from ragas.metrics import (
    faithfulness,
    answer_relevancy,
    context_precision,
    context_recall,
)
from datasets import Dataset

# Teszt dataset összeállítása
data = {
    "question": ["Mi az a RAG rendszer és mire való vállalati környezetben?"],
    "answer": ["A RAG (Retrieval-Augmented Generation) egy architektúra, amelyben az LLM valós idejű dokumentum-visszakereséssel válaszol."],
    "contexts": [["Context chunk 1: A RAG rendszer vektoradatbázisból keres.", "Context chunk 2: Vállalati alkalmazások: HR-policy, ügyfélszolgálat."]],
    "ground_truth": ["A RAG az LLM-et dinamikus visszakereséssel egészíti ki."]
}

# Értékelés futtatása
result = evaluate(
    Dataset.from_dict(data),
    metrics=[faithfulness, answer_relevancy, context_precision, context_recall]
)

print(result)
# Eredmény: {'faithfulness': 0.87, 'answer_relevancy': 0.82, 'context_precision': 0.79, 'context_recall': 0.74}

A négy paraméter magyarázata: a question az eredeti felhasználói kérdés; az answer a RAG pipeline által generált válasz; a contexts a retrieval által visszaadott szövegrészletek listája (a konkrét szövegtartalom, nem a dokumentum neve); a ground_truth egy referencia-válasz, amelyet egy emberi szakértő írt — ez csak a Context Recall számításához kötelező, a másik három metrika nélküle is lefuttatható.

Fontos részlet

A ground_truth opcionális — ha csak a Faithfulness, Answer Relevancy és Context Precision metrikákat futtatod, nem szükséges. Ez lehetővé teszi a mérés elindítását referencia-adatbázis nélkül is, akár 50 véletlen kérdéssel az éles rendszerből.

RAGAS a CI/CD pipeline-ban

A RAGAS értéke sokszorozódik, ha nem egyszeri mérés, hanem folyamatos minőségbiztosítás részévé válik. A cél: minden változtatásnál — új chunking stratégia, embedding modell csere, prompt frissítés — automatikusan fusson le a RAGAS értékelés, és blokkolja a deploy-t, ha bármely metrika a küszöb alá esik.

Integráció GitHub Actions-szel

A legegyszerűbb megközelítés: egy Python script a GitHub Actions workflow-ban, amely lefuttatja a RAGAS értékelést egy rögzített tesztkészleten (50–100 Q&A pár), majd exit code 1-gyel terminálja a pipeline-t, ha bármely metrika a küszöb alá esik. Ez a megközelítés nem igényel külső szolgáltatást — a tesztkészlet a repóban verziókezelt YAML vagy JSON fájl.

Integráció LangSmith-hel és LangFuse-zal

A ragas csomag natívan integrálható a LangSmith és LangFuse megfigyelő platformokkal. Ezek automatikusan logolják a RAGAS metrikák alakulását minden értékelési futtatásnál, és dashboardon jelenítik meg a trendeket. A LangFuse ingyenes, self-hosted változata alkalmas a legtöbb vállalati RAG monitoringhoz.

Küszöbérték-ellenőrzés pattern

Javasolt küszöbök CI/CD blokkoláshoz: Faithfulness < 0,80 → deploy blokk; Answer Relevancy < 0,75 → deploy blokk; Context Precision < 0,70 → figyelmeztetés; Context Recall < 0,65 → figyelmeztetés. A strict és warning szint elválasztása megakadályozza, hogy kisebb retrieval-regressziók blokkolják a teljes pipeline-t, miközben a kritikus hallucináció-növekedés azonnal megállítja a deploy-t.

Javasolt mérési frekvencia

Minden chunking-, embedding- vagy prompt-változtatáskor: Teljes RAGAS értékelés a rögzített tesztkészleten — ez a CI/CD gate.
Heti monitoring: 50–100 véletlenszerű kérdés az éles rendszerből, Faithfulness és Answer Relevancy mérésével — ez az éles rendszer minőségének folyamatos nyomon követése.
Negyedéves deep-dive: Teljes négy metrika, kibővített tesztkészlettel (200–500 kérdés), eredmény összehasonlítás az előző negyedévvel.

A leggyakoribb RAGAS diagnosztikai hibák

A RAGAS értékelés nem csak egy szám — hanem egy diagnosztikai eszköz. Ha egy metrika alacsony, az pontosan mutatja, melyik pipeline-komponenst kell javítani. Az alábbi checklist a leggyakoribb hibaképeket foglalja össze.

!

Faithfulness < 0,70 — súlyos hallucináció

A modell olyan állításokat generál, amelyek nem szerepelnek a visszakeresett kontextusban. Okok és javítások: (1) a chunking felosztja az összefüggő gondolatot — próbálj nagyobb chunk méretet vagy parent-child stratégiát; (2) top_k túl alacsony — a szükséges kontextus nem kerül be a modellbe; (3) generation temperature túl magas — csökkentsd 0,1–0,3 közé; (4) az LLM gyenge az instrukció-követésben — válts pontosabban irányítható modellre.
!

Answer Relevancy < 0,70 — irreleváns válasz

A válasz hű a kontextushoz, de nem azt válaszolja meg, amit kérdeztek — mellébeszél, általánosít, vagy teljesen más aspektusát tárgyalja a témának. Javítások: (1) prompt engineering — add meg pontosan a kívánt válaszformátumot és fókuszt a system promptban; (2) ellenőrizd a Context Precision értékét — ha az is alacsony, a rossz retrieval vezet mellébeszélő válaszhoz; (3) tesztelj erősebb generálási modellt.
~

Context Precision < 0,65 — gyenge retrieval pontosság

A visszakeresett chunk-ok között sok az irreleváns találat — az LLM zajos kontextuból dolgozik. Javítások: (1) az embedding modell nem megfelelő a domainhez — próbálj domain-specifikus vagy multilingual modellt (pl. multilingual-e5-large, Qwen3-Emb-8B); (2) reranker hozzáadása a pipeline-hoz (pl. Qwen3-Reranker) — drasztikusan javítja a precision értéket; (3) top_k csökkentése — kevesebb, de relevánsabb chunk.
~

Context Recall < 0,65 — hiányzó kontextus

Kritikus információ nem kerül be a visszakeresett chunk-ok közé — a modellnek nincs elegendő alapja a helyes válasz generálásához. Javítások: (1) a chunking túl finom — az összefüggő gondolat több chunk-ba van szétszórva, csak az egyiket hozza vissza a retrieval; váltás parent-child chunking stratégiára; (2) top_k növelése 3-ról 6–8-ra; (3) az indexelés lefedettség ellenőrzése — nem minden dokumentum van indexelve?
i

Magas Faithfulness, alacsony Answer Relevancy — „hű, de mellékes" szindróma

A modell pontosan idéz a dokumentumokból, de nem az eredeti kérdésre válaszol. Klasszikus jele: a válasz szakmailag helyes és a dokumentumokra támaszkodik, de a felhasználó nem ezt akarta tudni. Oka: a retrieval rossz dokumentumokat hoz vissza (alacsony Context Precision), vagy a prompt nem ad elég iránymutatást a fókuszra.
i

Alacsony Context Precision + magas Context Recall — „mindent hoz, de sokat zajjal"

A retrieval sok dokumentumot hoz vissza, köztük a szükségeset is — de a felesleges kontextus zavarja a modellt. Megoldás: reranker réteg hozzáadása, amely a top_k találatot újrarendezi relevancia szerint, mielőtt az LLM-be kerül. Ez az egyik leghatékonyabb precis ión-javítás, minimális recall-veszteséggel.

Kérdések és válaszok

Mi az a RAGAS és miért ez az iparági standard RAG értékelésére?

A RAGAS (Retrieval Augmented Generation Assessment) egy 2023-ban publikált, nyílt forráskódú értékelési keretrendszer RAG pipeline-ok mérésére. Azért vált iparági standarddá, mert referencia-adatbázis nélkül is működik (LLM-as-a-judge módszer), négy dimenzióban mér egyszerre, és a Hugging Face Spaces-en ingyenesen futtatható. A GitHub repó 2024-ben meghaladta a 7000 csillagot.

Mi a különbség a Faithfulness és az Answer Relevancy között?

A Faithfulness azt méri, hogy a generált válasz minden állítása visszavezethető-e a context dokumentumokra — azaz a modell nem hallucinal-e. Az Answer Relevancy azt méri, hogy a válasz mennyire releváns a kérdés szempontjából — azaz a modell pontosan válaszol-e a kérdésre, nem más témáról ír. Mindkettő 0–1 skálán mozog; 0,85 feletti érték produkciós minőséget jelöl.

Hogyan értelmezzük a Context Precision és Context Recall különbségét?

Context Precision: a visszakeresett chunk-ok közül hány a valóban releváns? (pontosság — felesleges zajt mér). Context Recall: a releváns információ mekkora hányada kerül be a visszakeresett chunk-okba? (lefedettség — hiányzó kontextust mér). A kettő trade-off: több chunk = jobb recall, de rosszabb precision. Az optimum top_k=5–8 között van a legtöbb vállalati használati esetre.

Milyen értékeket tekinthetünk jónak a RAGAS metrikákon?

Benchmark célszámok produkciós RAG rendszerhez: Faithfulness ≥ 0,85 (hallucináció elfogadható szintje alatt), Answer Relevancy ≥ 0,80 (releváns válasz), Context Precision ≥ 0,75 (jel-zaj arány), Context Recall ≥ 0,70 (lefedettség). Az összesített RAGAS Score a négy metrika harmonikus átlaga — produkciós minimumküszöb: 0,78.

Szükséges-e külön tesztadatbázis a RAGAS futtatásához?

Nem feltétlenül. A RAGAS LLM-as-a-judge módszere lehetővé teszi referencia-válaszok nélküli értékelést is — az LLM ítéli meg, hogy a generált válasz logikailag levezethetető-e a kontextusból. Ha van referencia-adatbázis (arány-standard Q&A párok), a mérés pontosabb lesz, de 50–100 tesztpárral is megbízható eredmény kapható.

Hogyan integráljuk a RAGAS-t a fejlesztési folyamatba?

CI/CD integrálás: a RAGAS értékelést a pull request pipeline részévé tesszük — ha bármely metrika a küszöb alá esik, a deploy blokkolódik. Javasolt frekvencia: minden model- vagy chunking-változtatáskor teljes RAGAS teszt; heti rendszerességű monitoring futtatás az éles rendszeren 50–100 véletlen kérdéssel. A ragas Python csomag LangSmith-hel és LangFuse-zal is integrálható.

Kapcsolódó tartalmak

RAG Minőség Audit

Ha el szeretnéd indítani a RAGAS mérést a saját rendszereden, vagy nem tudod értelmezni a kapott értékeket — egy 45 perces konzultáción végigmegyünk a diagnosztikán és a konkrét javítási lépéseken.

Konzultációt kérek RAG architektúra alapok →