首页 新闻 会员 周边

大模型 agent rag 真实的评测流程求

0
[待解决问题]

agent和rag评测 求 学,急急急!!!!!!!!!!

坚强的贝吉塔的主页 坚强的贝吉塔 | 菜鸟二级 | 园豆:202
提问于:2026-04-17 11:00
< >
分享
所有回答(2)
0

你是要做学术类的 Benchmark 跑分,还是针对具体业务场景的端到端评测?RAG 目前主流用 RAGAs 框架,Agent 重点看 Tool Use 和逻辑链条,我这有现成的评测维度表和自动化工具栈,你要哪种?

loveme2 | 园豆:164 (初学一级) | 2026-04-19 07:08
0

一、实操建议(急用的话照着做)
如果想快速上手RAG评测:
1.准备100-500条问答对作为测试集
2.用RAGAS框架一键跑分(支持中文)
3.重点关注忠实度和答案相关性两个指标
如果想快速上手Agent 评测:
1.先定义10-20个典型任务场景(如"帮我查天气并写入备忘录")
2.人工执行一遍,记录“正确步骤”
3.让Agent跑一遍,对比步骤和结果
4.计算任务成功率=成功任务数/总任务数
二、推荐学习资料
RAGAS 官方文档:https://docs.ragas.io/
AgentBench GitHub: https://github.com/THUDM/AgentBench
伯克利函数调用榜单:https://gorilla.cs.berkeley.edu/leaderboard.html

叛逆的小姐姐 | 园豆:202 (菜鸟二级) | 2026-04-21 09:29
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册