agent和rag评测 求 学,急急急!!!!!!!!!!
你是要做学术类的 Benchmark 跑分,还是针对具体业务场景的端到端评测?RAG 目前主流用 RAGAs 框架,Agent 重点看 Tool Use 和逻辑链条,我这有现成的评测维度表和自动化工具栈,你要哪种?
一、实操建议(急用的话照着做)
如果想快速上手RAG评测:
1.准备100-500条问答对作为测试集
2.用RAGAS框架一键跑分(支持中文)
3.重点关注忠实度和答案相关性两个指标
如果想快速上手Agent 评测:
1.先定义10-20个典型任务场景(如"帮我查天气并写入备忘录")
2.人工执行一遍,记录“正确步骤”
3.让Agent跑一遍,对比步骤和结果
4.计算任务成功率=成功任务数/总任务数
二、推荐学习资料
RAGAS 官方文档:https://docs.ragas.io/
AgentBench GitHub: https://github.com/THUDM/AgentBench
伯克利函数调用榜单:https://gorilla.cs.berkeley.edu/leaderboard.html