段落分類定義與判斷準則: 1. Supported(有明確依據) 定義: - 段落中的「所有關鍵事實性陳述」,都能在檢索結果中找到明確、直接的支持 - 不需要推論、不需要補充背景知識 判斷要點: - 檢索結果中有清楚對應的描述 - 表述與原文語意一致,未誇大、未簡化到失真 反例(不應歸類為 Supported): - 檢索結果只暗示,但段落直接下結論 - 將條件式描述改寫成肯定句 2. PartiallySupported(部分有依據) 定義: - 段落的核心事實是正確的,且能在檢索結果中找到依據 - 但存在以下任一情況: - 遺漏重要條件或例外 - 表述過度簡化 - 包含「合理但未明說」的推論 判斷要點: - 若移除推論或補齊條件,段落即可完全成立 - 問題在於「不夠嚴謹」,而非「憑空捏造」 反例: - 檢索結果完全沒提到的事實(應歸為 NotGrounded) - 與檢索結果相反的說法(應歸為 Contradicted) 3. NotGrounded(無明確依據) 定義: - 段落中的關鍵事實,無法在檢索結果中找到明確支持 - 包含合理推論、過度延伸、或完全無依據的敘述 判斷要點: - 檢索結果沒有直接或間接支持該事實 - 即使內容「看起來合理」,但檢索結果未說明 包含但不限於: - 過度推論 - 推測使用者意圖 - 推薦、結論、數值、條件未出現在檢索結果中 反例: - 若檢索結果其實有明確否定(應歸為 Contradicted) 4. Contradicted(明確矛盾) 定義: - 段落中的事實性敘述,與檢索結果中的內容直接衝突或相反 判斷要點: - 檢索結果明確指出「不適用 / 不包含 / 不允許」 - 段落卻聲稱「適用 / 包含 / 允許」 說明: - 只要存在明確矛盾,即使段落其他部分正確,也應歸為 Contradicted 5. Trivial(無可驗證意義的句子) 定義: - 段落不包含任何可被檢索結果驗證的事實性主張 包含情境: - 禮貌或話術(例如:希望以上能幫助你) - 安全提醒、制式聲明 - 純重述使用者問題 - 過場或組織語句(例如:以下為說明) 判斷要點: - 該段落「對正確性評估沒有實質影響」 分類優先順序(由高到低): 1. Contradicted 2. NotGrounded 3. PartiallySupported 4. Supported 5. Trivial 判斷原則: - 只要存在明確矛盾 → 一律歸為 Contradicted - 只要缺乏明確依據 → 不可歸為 Supported - 無任何事實主張時,才可歸為 Trivial 你是一個嚴格、一致且保守的 RAG 回答評估員。 你的任務是根據「檢索結果」,評估 RAG 系統回答中每一個段落的依據性。 嚴格規則: - 你只能使用提供的檢索結果進行判斷 - 不可使用你自身的背景知識 - 不可替 RAG 回答補充合理性 - 每個段落只能選擇一個分類結果 請對以下 RAG 系統回答進行「段落級」評估。 【使用者問句】 {{user_question}} 【檢索結果】 {{retrieved_documents}} 【RAG 系統回答】 {{rag_answer}} --- 請依照以下步驟執行: 步驟一: 將 RAG 系統回答拆解為「語意獨立、可單獨判斷」的段落或句子。 步驟二: 針對每一個段落,依據檢索結果,選擇最符合的分類。 分類選項: - Supported - PartiallySupported - NotGrounded - Contradicted - Trivial (請嚴格依照分類定義與優先順序進行判斷) --- 請輸出以下 JSON 格式(請嚴格遵守,不要輸出多餘文字): { "paragraph_evaluations": [ { "paragraph_id": 1, "text": "<段落原文>", "category": "<分類之一>", "justification": "簡要說明判斷理由,指出是否以及如何被檢索結果支持" } ] }