chinese-llm-benchmark Agent工作流 是 AI Skill Hub 本期精选Agent工作流之一。已获得 6.0k 颗 GitHub Star,综合评分 8.2 分,整体质量较高。我们强烈推荐将其纳入你的 AI 工具库,帮助提升工作效率。
chinese-llm-benchmark Agent工作流 是一套完整的 AI Agent 自动化工作流方案。通过可视化的节点编排,将复杂的多步骤任务拆解为清晰的自动化流程,实现全程无人值守的智能处理。支持与数百种外部服务和 API 无缝集成,适合构建数据处理管线、业务自动化和 AI 辅助决策系统。
chinese-llm-benchmark Agent工作流 是一套完整的 AI Agent 自动化工作流方案。通过可视化的节点编排,将复杂的多步骤任务拆解为清晰的自动化流程,实现全程无人值守的智能处理。支持与数百种外部服务和 API 无缝集成,适合构建数据处理管线、业务自动化和 AI 辅助决策系统。
# 克隆仓库 git clone https://github.com/jeinlee1991/chinese-llm-benchmark cd chinese-llm-benchmark # 查看安装说明 cat README.md # 按 README 完成环境依赖安装后即可使用
# 查看帮助 chinese-llm-benchmark --help # 基本运行 chinese-llm-benchmark [options] <input> # 详细使用说明请查阅文档 # https://github.com/jeinlee1991/chinese-llm-benchmark
# chinese-llm-benchmark 配置说明 # 查看配置选项 chinese-llm-benchmark --config-example > config.yml # 常见配置项 # output_dir: ./output # log_level: info # workers: 4 # 环境变量(覆盖配置文件) export CHINESE_LLM_BENCHMARK_CONFIG="/path/to/config.yml"
- ReLE (Really Reliable Live Evaluation for LLM),原名CLiB - 目前已囊括380个大模型,覆盖chatgpt、gpt-5.5、谷歌gemini-3.1-pro、Claude-4.6、文心ERNIE-X1.1、ERNIE-5.1、qwen3.7-max、qwen3.6-plus、百川、讯飞星火、商汤senseChat等商用模型, 以及step3.5-flash、kimi-k2.6、ernie4.5、MiniMax-M2.7、deepseek-v4、Qwen3.6、llama4、智谱GLM-5.1、MiMo-V2、LongCat、gemma4、mistral等开源大模型。 - 支持多维度能力评测,包括教育、医疗与心理健康、金融、法律与行政公务、推理与数学计算、语言与指令遵从、agent与工具调用等7个领域,以及细分的~300个维度(比如牙科、高中语文…)。详见我们的技术报告ReLE: A Scalable System and Structured Benchmark for Diagnosing Capability Anisotropy in Chinese LLMs 媒体报道(机器之心):全球304个中文大模型实测:没有“全能王者”,ReLE凭70%降本方案破解评估困局 - 不仅提供排行榜,也提供规模超200万的大模型缺陷库!方便广大社区研究分析、改进大模型。 - 为您的私有大模型提供免费评测服务,联系我们(非线智能 ReLE benchmark团队):加微信
“综合能力”计分方式:“综合能力”改为“专业能力”和“通用能力”的加权分,权重分别为0.3,0.7;其中“专业能力”为“教育”、“医疗与心理健康”、“金融”、“法律与行政公务”4大领域平均分,“通用能力”为“推理与数学计算”、“语言与指令遵从”、“agent与工具调用”、“coding” 4大领域平均分。 
| 类别 | 机构 | 大模型 | 【总分】准确率 | 平均耗时 | 平均消耗token | 花费/千次(元) | 排名(准确率) |
|---|---|---|---|---|---|---|---|
| 商用 | 阿里巴巴 | qwen3.7-max(new) | 76.9% | 51s | 2920 | 99.0 | 1 |
| 商用 | 阿里巴巴 | qwen3.6-max-preview(new) | 75.4% | 80s | 2789 | 139.2 | 2 |
详细数据见:综合能力排行榜 | 通用能力排行榜 | 专业能力排行榜 <br><br>
#### 1.1、推理模型排行榜 见推理模型排行榜<br> <br> #### 1.2、商用大模型排行榜(含开源模型的付费API) 输出价格5元及以上商用大模型 | 输出价格1~5元商用大模型 | 输出价格1元以下商用大模型<br> DIY自定义维度筛选榜单:☛ link <br> <br> #### 1.3、开源大模型排行榜 5B以下开源大模型 | 5B~20B开源大模型 | 20B以上开源大模型<br> DIY自定义维度筛选榜单:☛link
<br><br>
考查大模型的数学基础能力之算数能力,测试题目为1000以内的整数加减法、不超过2位有效数字的浮点数加减乘除。 举例:166 + 215 + 53 = ?,0.97 + 0.4 / 4.51 = ?
完整排行榜见算术能力<br> ☛查看算术能力:badcase <br><br>
| repo | star | area | about | |
|---|---|---|---|---|
| [langfuse](https://github.com/langfuse/langfuse) | 23.6k | 国外 | Open source LLM engineering platform: LLM Observability, metrics, evals, prompt management, playground, datasets. Integrates with OpenTelemetry, Langchain, OpenAI SDK, LiteLLM, and more. 🍊YC W23 | |
| [opik](https://github.com/comet-ml/opik) | 18.4k | 国外 | Debug, evaluate, and monitor your LLM applications, RAG systems, and agentic workflows with comprehensive tracing, automated evaluations, and production-ready dashboards. | |
| [deepeval](https://github.com/confident-ai/deepeval) | 14.2k | 国外 | The LLM Evaluation Framework | |
| …… | …… | …… | …… | |
| [⭐chinese-llm-benchmark(我们)](https://github.com/jeinlee1991/chinese-llm-benchmark) | 5.7k | **国内** | ReLE中文大模型能力评测(持续更新) | |
| …… | …… | …… | …… |
详见hot50 <br><br>
- 每周最新模型 - 5月4~5月10 - 4月27~5月3 - 4月20~4月26 - 4月13~4月19 - 更多信息详见模型列表 <br><br>
隆重推出 一站式 AI 模型超市 🛒,提供当下最全的大模型,让您永远快人一步。 - 🌐 全球模型,一网打尽:GPT-5.5、Gemini-3.1-Pro、Claude-4.7、DeepSeek-v4、Kimi-k2.5…… - ⚖️ 智能负载与高并发:我们聚合了多家顶级供应商,通过智能路由实现自动负载均衡。您从此可以告别烦人的 Rate Limit 报错,轻松应对任何流量洪峰! - 🔀 自动故障切换:单一供应商的 API 临时“抽风”?没关系!我们的系统会毫秒级无感切换到健康的备用渠道,确保您的服务 99.9999% 高可用,让您的用户远离“服务不可用”的尴尬。 - 🛡️在线监控与智能选型:无缝衔接在线效果监测工具,打通模型选型评测闭环。用真实数据说话,助您轻松找到性能最佳、性价比最高的模型方案。 如何接入在线效果监测,如何接入模型选型评测 - 💰 超高性价比!☛查看所有模型及价格
from openai import OpenAI
base_url = "https://api.nonelinear.com/v1"
api_key = "<your api key>" # 获取https://nonelinear.com/static/apikey.html
client = OpenAI(api_key=api_key, base_url=base_url)
client.chat.completions.create(
model="<model id>", # 模型列表https://nonelinear.com/static/models.html
messages=[{"role": "user", "content": "<your prompt>"}],
) <br><br>
拒绝“盲选”大模型🎉!上传你的【专属测试数据】📊,5分钟🔍测出哪个模型在你的场景下效果最好🏆、最划算💰!选择最合适模型,成本或降90%💥!去体验>>
<video controls src="docs/modelSelection/img/modelsel.mp4"></video>
示例: - 微信文章撰写之表格总结 - MathML转LaTeX格式 <br><br>
专门考查大模型对表格的理解分析能力,常用于数据分析。 评测样本举例: > 姓名,年龄,性别,国籍,身高(cm),体重(kg),学历 张三,28,男,中国,180,70,本科 Lisa,33,女,美国,165,58,硕士 Paulo,41,男,巴西,175,80,博士 Miyuki,25,女,日本,160,50,大专 Ahmed,30,男,埃及,175,68,本科 Maria,29,女,墨西哥,170,65,硕士 Antonio,36,男,西班牙,182,75,博士 基于这个表格回答:学历最低的是哪国人? >
完整排行榜见表格问答<br> ☛查看表格问答:badcase <br><br>
全面专业的中文大模型评测平台,覆盖面广、更新及时,为用户提供权威对标数据,是模型选型的重要参考工具
该工具未明确声明开源协议,商业使用前请联系原作者确认授权范围,避免侵权风险。
AI Skill Hub 为第三方内容聚合平台,本页面信息基于公开数据整理,不对工具功能和质量作任何法律背书。
建议在沙箱或测试环境中充分验证后,再部署至生产环境,并做好必要的安全评估。
经综合评估,chinese-llm-benchmark Agent工作流 在Agent工作流赛道中表现稳健,质量优秀。如果你已有明确的使用需求,可以直接上手体验;如果还在评估阶段,建议对比同类工具后再做决策。
| 原始名称 | chinese-llm-benchmark |
| 原始描述 | 开源AI工作流:ReLE评测:中文AI大模型能力评测(持续更新):目前已囊括374个大模型,覆盖chatgpt、gpt-5.4、谷歌gemini-3.1-pro、Claude-。⭐6.0k |
| Topics | 大模型评测基准测试中文NLP性能对标 |
| GitHub | https://github.com/jeinlee1991/chinese-llm-benchmark |
收录时间:2026-05-14 · 更新时间:2026-05-16 · License:未公布 · AI Skill Hub 不对第三方内容的准确性作法律背书。
选择 Agent 类型,复制安装指令后粘贴到对应客户端