응답 품질 평가 기준

공식 가이드 기반 응답 품질 평가 기준

OpenAI, PromptingGuide 등에서 제시하는 LLM 응답 품질 평가의 대표 기준은 다음과 같습니다.

평가 기준 설명 체크 질문 예시
정확성 사실과 일치하며 오류가 없는가? “정보가 실제와 일치하는가?”
일관성 답변 내 논리적 모순이나 앞뒤가 맞지 않는 부분이 없는가? “전체 내용이 논리적으로 연결되어 있는가?”
신뢰성 근거가 명확하고, 출처가 있거나 검증 가능한가? “출처가 명확하거나 신뢰할 수 있는가?”
창의성 새로운 아이디어, 다양한 관점, 유용한 제안을 포함하는가? “기존에 없던 시각이나 해결책을 제시하는가?”
관련성 질문/업무 목적과 직접적으로 관련된 답변인가? “질문 의도에 부합하는가?”
명확성 이해하기 쉽고, 불필요하게 복잡하지 않은가? “누구나 쉽게 이해할 수 있는가?”
포맷/형식 요청한 형식(표, 목록, 코드 등)에 맞게 출력되었는가? “지정한 출력 형식에 맞게 작성되었는가?”

실전 활용 팁

  • 평가 기준은 업무 목적에 맞게 조정하세요. (예: 기술 문서라면 정확성과 신뢰성, 마케팅 문서라면 창의성과 관련성 강조)
  • 여러 기준을 조합해 점수(예: 1~5점 척도)로 평가하면 개선 방향을 쉽게 파악할 수 있습니다.
  • 평가 결과를 바탕으로 프롬프트를 반복 개선하세요.

참고: 공식 가이드 및 추가 자료