New COT Evaluation

This post sketches an evaluation plan for a CoT-based knowledge QA agent, covering hallucination control, answer relevancy, faithfulness, dataset design, and task-specific quality metrics.