응답 품질 평가 기준
공식 가이드 기반 응답 품질 평가 기준
OpenAI, PromptingGuide 등에서 제시하는 LLM 응답 품질 평가의 대표 기준은 다음과 같습니다.
평가 기준 | 설명 | 체크 질문 예시 |
---|---|---|
정확성 | 사실과 일치하며 오류가 없는가? | “정보가 실제와 일치하는가?” |
일관성 | 답변 내 논리적 모순이나 앞뒤가 맞지 않는 부분이 없는가? | “전체 내용이 논리적으로 연결되어 있는가?” |
신뢰성 | 근거가 명확하고, 출처가 있거나 검증 가능한가? | “출처가 명확하거나 신뢰할 수 있는가?” |
창의성 | 새로운 아이디어, 다양한 관점, 유용한 제안을 포함하는가? | “기존에 없던 시각이나 해결책을 제시하는가?” |
관련성 | 질문/업무 목적과 직접적으로 관련된 답변인가? | “질문 의도에 부합하는가?” |
명확성 | 이해하기 쉽고, 불필요하게 복잡하지 않은가? | “누구나 쉽게 이해할 수 있는가?” |
포맷/형식 | 요청한 형식(표, 목록, 코드 등)에 맞게 출력되었는가? | “지정한 출력 형식에 맞게 작성되었는가?” |
실전 활용 팁
- 평가 기준은 업무 목적에 맞게 조정하세요. (예: 기술 문서라면 정확성과 신뢰성, 마케팅 문서라면 창의성과 관련성 강조)
- 여러 기준을 조합해 점수(예: 1~5점 척도)로 평가하면 개선 방향을 쉽게 파악할 수 있습니다.
- 평가 결과를 바탕으로 프롬프트를 반복 개선하세요.