大模型 agent rag 真实的评测流程求

[待解决问题]

agent和rag评测求学，急急急！！！！！！！！！！

坚强的贝吉塔 | 菜鸟二级 | 园豆：202
提问于：2026-04-17 11:00

< >

所有回答(2)

你是要做学术类的 Benchmark 跑分，还是针对具体业务场景的端到端评测？RAG 目前主流用 RAGAs 框架，Agent 重点看 Tool Use 和逻辑链条，我这有现成的评测维度表和自动化工具栈，你要哪种？

loveme2 | 园豆：164 (初学一级) | 2026-04-19 07:08

一、实操建议(急用的话照着做)
如果想快速上手RAG评测:
1.准备100-500条问答对作为测试集
2.用RAGAS框架一键跑分(支持中文)
3.重点关注忠实度和答案相关性两个指标
如果想快速上手Agent 评测:
1.先定义10-20个典型任务场景(如"帮我查天气并写入备忘录")
2.人工执行一遍，记录“正确步骤”
3.让Agent跑一遍，对比步骤和结果
4.计算任务成功率=成功任务数/总任务数
二、推荐学习资料
RAGAS 官方文档:https://docs.ragas.io/
AgentBench GitHub: https://github.com/THUDM/AgentBench
伯克利函数调用榜单:https://gorilla.cs.berkeley.edu/leaderboard.html

叛逆的小姐姐 | 园豆：202 (菜鸟二级) | 2026-04-21 09:29

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。