chinese-llm-benchmark 是什么工具？

chinese-llm-benchmark 是一款AI辅助工具。开源AI工作流：ReLE评测：中文AI大模型能力评测（持续更新）：目前已囊括374个大模型，覆盖chatgpt、gpt-5.4、谷歌gemini-3.1-pro、Claude-。⭐6.0k

chinese-llm-benchmark 如何安装和开始使用？

访问 chinese-llm-benchmark 的 GitHub 仓库或官方网站，按照 README 文档中的步骤安装依赖并运行。通常需要 Python 3.8+ 或 Node.js 16+ 基础环境。

chinese-llm-benchmark 是否免费？许可证是什么？

chinese-llm-benchmark 完全免费，采用开源协议许可证开源发布，任何人都可以免费使用、修改和分发。

chinese-llm-benchmark 适合哪些用户使用？

chinese-llm-benchmark 对初学者友好，无需深厚技术背景即可快速上手。同时也适合有经验的开发者和 AI 工程师进行深度定制。

chinese-llm-benchmark 的社区活跃度和项目维护状况如何？

chinese-llm-benchmark 在 GitHub 上已获得 6,014 个 Star，拥有较好的社区基础，定期更新迭代。

📄 工具详情 ⚙️ 安装教程 📚 使用教程

能力标签

🤖 Agent 🔄 工作流 🌐 翻译 🐳 Docker 💻 CLI 📚 RAG 🧠 Claude ✨ GPT ⛓ LangChain

⚙️

Agent工作流

chinese-llm-benchmark Agent工作流

Q: chinese-llm-benchmark 是否免费？许可证是什么？

chinese-llm-benchmark 完全免费，采用 开源协议 许可证开源发布，任何人都可以免费使用、修改和分发。

无代码搭建完整 AI 自动化流程

英文名：chinese-llm-benchmark

⭐ 6.0k Stars 🍴 243 Forks 📄 未公布协议 🏷 AI 8.2分

8.2AI 综合评分

大模型评测基准测试中文NLP性能对标

⚙️ 配置说明 🔍 查看原项目

✦ AI Skill Hub 推荐

chinese-llm-benchmark Agent工作流是 AI Skill Hub 本期精选Agent工作流之一。已获得 6.0k 颗 GitHub Star，综合评分 8.2 分，整体质量较高。我们强烈推荐将其纳入你的 AI 工具库，帮助提升工作效率。

📚 深度解析

chinese-llm-benchmark Agent工作流是一套完整的 AI Agent 自动化工作流方案。随着 AI 能力的不断提升，基于 Agent 的自动化工作流正在成为提升个人和团队效率的核心方式。区别于传统的 RPA 自动化（模拟鼠标键盘操作），AI Agent 工作流通过理解任务意图、动态规划执行路径，能够处理更复杂的非结构化任务。

chinese-llm-benchmark Agent工作流工作流的设计遵循"最小配置，最大复用"原则：核心逻辑已经封装好，用户只需配置自己的 API Key 和业务参数即可快速上手。工作流内置错误处理和重试机制，在网络波动或 API 限速等情况下仍能稳定运行，适合作为生产环境的自动化基础设施。

在实际部署时，建议先在测试环境中运行 3-5 次，验证各个环节的输出结果符合预期，再部署到生产环境。AI Skill Hub 评分 8.2 分，是同类 Agent 工作流中的精选推荐。

📋 工具概览

chinese-llm-benchmark Agent工作流是一套完整的 AI Agent 自动化工作流方案。通过可视化的节点编排，将复杂的多步骤任务拆解为清晰的自动化流程，实现全程无人值守的智能处理。支持与数百种外部服务和 API 无缝集成，适合构建数据处理管线、业务自动化和 AI 辅助决策系统。

GitHub Stars

⭐ 6.0k

开发语言

多语言

支持平台

Windows / macOS / Linux

维护状态

持续维护，定期更新

开源协议

未公布

AI 综合评分

8.2 分

工具类型

Agent工作流

Forks

243

📖 中文文档

以下内容由 AI Skill Hub 根据项目信息自动整理，如需查看完整原始文档请访问底部「原始来源」。

📌 核心特色

可视化 Agent 工作流编排，无需编写复杂代码
支持多步骤自动化任务链，实现全流程无人值守
与外部 API、数据库和第三方服务无缝集成
内置错误处理与自动重试机制，保障稳定运行
提供可复用的自动化模板，快速在同类场景部署

🎯 主要使用场景

自动化日常重复性工作，将精力集中于创造性任务
构建数据采集 → 处理 → 输出的完整自动化管线
实现跨平台、跨系统的数据流转和业务协同

以下安装命令基于项目开发语言和类型自动生成，实际以官方 README 为准。

安装命令

# 克隆仓库
git clone https://github.com/jeinlee1991/chinese-llm-benchmark
cd chinese-llm-benchmark

# 查看安装说明
cat README.md

# 按 README 完成环境依赖安装后即可使用

📋 安装步骤说明

访问 GitHub 仓库获取工作流文件
在对应平台（Dify / Flowise / Make 等）中找到「导入工作流」功能
上传工作流文件
按照提示配置必要的环境变量和 API Key
运行测试确认流程正常后投入使用

以下用法示例由 AI Skill Hub 整理，涵盖最常见的使用场景。

常用命令 / 代码示例

# 查看帮助
chinese-llm-benchmark --help

# 基本运行
chinese-llm-benchmark [options] <input>

# 详细使用说明请查阅文档
# https://github.com/jeinlee1991/chinese-llm-benchmark

以下配置示例基于典型使用场景生成，具体参数请参照官方文档调整。

配置示例

# chinese-llm-benchmark 配置说明
# 查看配置选项
chinese-llm-benchmark --config-example > config.yml

# 常见配置项
# output_dir: ./output
# log_level: info
# workers: 4

# 环境变量（覆盖配置文件）
export CHINESE_LLM_BENCHMARK_CONFIG="/path/to/config.yml"

📑 README 深度解析真实文档完整度 28/100 查看 GitHub 原文 →

以下内容由系统直接从 GitHub README 解析整理，保留代码块、表格与列表结构。

非线智能 NoneLinear - ReLE评测：中文AI大模型能力评测（持续更新）

- ReLE （Really Reliable Live Evaluation for LLM），原名CLiB - 目前已囊括380个大模型，覆盖chatgpt、gpt-5.5、谷歌gemini-3.1-pro、Claude-4.6、文心ERNIE-X1.1、ERNIE-5.1、qwen3.7-max、qwen3.6-plus、百川、讯飞星火、商汤senseChat等商用模型，以及step3.5-flash、kimi-k2.6、ernie4.5、MiniMax-M2.7、deepseek-v4、Qwen3.6、llama4、智谱GLM-5.1、MiMo-V2、LongCat、gemma4、mistral等开源大模型。 - 支持多维度能力评测，包括教育、医疗与心理健康、金融、法律与行政公务、推理与数学计算、语言与指令遵从、agent与工具调用等7个领域，以及细分的~300个维度（比如牙科、高中语文…）。详见我们的技术报告ReLE: A Scalable System and Structured Benchmark for Diagnosing Capability Anisotropy in Chinese LLMs 媒体报道(机器之心):全球304个中文大模型实测：没有“全能王者”，ReLE凭70%降本方案破解评估困局 - 不仅提供排行榜，也提供规模超200万的大模型缺陷库！方便广大社区研究分析、改进大模型。 - 为您的私有大模型提供免费评测服务，联系我们(非线智能 ReLE benchmark团队)：加微信

1、综合能力排行榜

“综合能力”计分方式：“综合能力”改为“专业能力”和“通用能力”的加权分，权重分别为0.3，0.7；其中“专业能力”为“教育”、“医疗与心理健康”、“金融”、“法律与行政公务”4大领域平均分，“通用能力”为“推理与数学计算”、“语言与指令遵从”、“agent与工具调用”、“coding” 4大领域平均分。 link

类别	机构	大模型	【总分】准确率	平均耗时	平均消耗token	花费/千次（元）	排名（准确率）
商用	阿里巴巴	qwen3.7-max(new)	76.9%	51s	2920	99.0	1
商用	阿里巴巴	qwen3.6-max-preview(new)	75.4%	80s	2789	139.2	2

详细数据见：综合能力排行榜 | 通用能力排行榜 | 专业能力排行榜

#### 1.1、推理模型排行榜见推理模型排行榜 #### 1.2、商用大模型排行榜（含开源模型的付费API）输出价格5元及以上商用大模型 | 输出价格1~5元商用大模型 | 输出价格1元以下商用大模型 DIY自定义维度筛选榜单：☛ link #### 1.3、开源大模型排行榜 5B以下开源大模型 | 5B~20B开源大模型 | 20B以上开源大模型 DIY自定义维度筛选榜单：☛link

6.4 算术能力

考查大模型的数学基础能力之算数能力，测试题目为1000以内的整数加减法、不超过2位有效数字的浮点数加减乘除。举例：166 + 215 + 53 = ？，0.97 + 0.4 / 4.51 = ？

完整排行榜见算术能力 ☛查看算术能力：badcase

GitHub热门大模型评测项目

repo	star	area	about
[langfuse](https://github.com/langfuse/langfuse)	23.6k	国外	Open source LLM engineering platform: LLM Observability, metrics, evals, prompt management, playground, datasets. Integrates with OpenTelemetry, Langchain, OpenAI SDK, LiteLLM, and more. 🍊YC W23
[opik](https://github.com/comet-ml/opik)	18.4k	国外	Debug, evaluate, and monitor your LLM applications, RAG systems, and agentic workflows with comprehensive tracing, automated evaluations, and production-ready dashboards.
[deepeval](https://github.com/confident-ai/deepeval)	14.2k	国外	The LLM Evaluation Framework
……	……	……	……
[⭐chinese-llm-benchmark（我们）](https://github.com/jeinlee1991/chinese-llm-benchmark)	5.7k	国内	ReLE中文大模型能力评测（持续更新）
……	……	……	……

详见hot50

大模型基本信息

- 每周最新模型 - 5月4~5月10 - 4月27~5月3 - 4月20~4月26 - 4月13~4月19 - 更多信息详见模型列表

🚀 大模型统一网关

隆重推出一站式 AI 模型超市 🛒，提供当下最全的大模型，让您永远快人一步。 - 🌐 全球模型，一网打尽：GPT-5.5、Gemini-3.1-Pro、Claude-4.7、DeepSeek-v4、Kimi-k2.5…… - ⚖️ 智能负载与高并发：我们聚合了多家顶级供应商，通过智能路由实现自动负载均衡。您从此可以告别烦人的 Rate Limit 报错，轻松应对任何流量洪峰！ - 🔀 自动故障切换：单一供应商的 API 临时“抽风”？没关系！我们的系统会毫秒级无感切换到健康的备用渠道，确保您的服务 99.9999% 高可用，让您的用户远离“服务不可用”的尴尬。 - 🛡️在线监控与智能选型：无缝衔接在线效果监测工具，打通模型选型评测闭环。用真实数据说话，助您轻松找到性能最佳、性价比最高的模型方案。如何接入在线效果监测，如何接入模型选型评测 - 💰 超高性价比！☛查看所有模型及价格

from openai import OpenAI
base_url = "https://api.nonelinear.com/v1"
api_key = "<your api key>" # 获取https://nonelinear.com/static/apikey.html
client = OpenAI(api_key=api_key, base_url=base_url)
client.chat.completions.create(
    model="<model id>", # 模型列表https://nonelinear.com/static/models.html
    messages=[{"role": "user", "content": "<your prompt>"}],
)

💥模型选型：目标降本90%

拒绝“盲选”大模型🎉！上传你的【专属测试数据】📊，5分钟🔍测出哪个模型在你的场景下效果最好🏆、最划算💰！选择最合适模型，成本或降90%💥！去体验>> link <video controls src="docs/modelSelection/img/modelsel.mp4"></video>

示例： - 微信文章撰写之表格总结 - MathML转LaTeX格式

6.5 表格问答

专门考查大模型对表格的理解分析能力，常用于数据分析。评测样本举例： > 姓名,年龄,性别,国籍,身高(cm),体重(kg),学历张三,28,男,中国,180,70,本科 Lisa,33,女,美国,165,58,硕士 Paulo,41,男,巴西,175,80,博士 Miyuki,25,女,日本,160,50,大专 Ahmed,30,男,埃及,175,68,本科 Maria,29,女,墨西哥,170,65,硕士 Antonio,36,男,西班牙,182,75,博士基于这个表格回答：学历最低的是哪国人？ >

完整排行榜见表格问答 ☛查看表格问答：badcase

🎯 aiskill88 AI 点评 A 级 2026-05-21

全面专业的中文大模型评测平台，覆盖面广、更新及时，为用户提供权威对标数据，是模型选型的重要参考工具

📚 实用指南（长尾问题）

适合谁

构建多智能体协作系统的 Agent 开发者
构建企业知识库 / RAG 检索应用的团队
跨境业务、多语言内容运营团队

最佳实践

生产部署优先使用 Docker Compose 隔离依赖，并挂载 volume 持久化数据
分块大小建议 256-512 tokens，向量库优选 pgvector 或 Qdrant
Agent 任务先做 dry-run 验证工具调用链，再开启自主执行

常见错误

API key 直接提交到 git 仓库（请用 .env 并加入 .gitignore）
容器内无法访问宿主机 localhost — 使用 host.docker.internal
embedding 模型与查询模型不一致导致检索失效

部署方案

Docker：chinese-llm-benchmark 提供官方镜像，docker compose up 一键启动
CLI：直接 npm install -g / pip install，命令行调用
云端托管：可放在 Vercel / Railway / Fly.io 等 PaaS 平台

⚡ 核心功能

可视化 Agent 工作流编排，无需编写复杂代码
支持多步骤自动化任务链，实现全流程无人值守
与外部 API、数据库和第三方服务无缝集成
内置错误处理与自动重试机制，保障稳定运行
提供可复用的自动化模板，快速在同类场景部署

👥 适合谁

构建多智能体协作系统的 Agent 开发者
构建企业知识库 / RAG 检索应用的团队
跨境业务、多语言内容运营团队

⭐ 最佳实践

生产部署优先使用 Docker Compose 隔离依赖，并挂载 volume 持久化数据
分块大小建议 256-512 tokens，向量库优选 pgvector 或 Qdrant
Agent 任务先做 dry-run 验证工具调用链，再开启自主执行

⚠️ 常见错误

API key 直接提交到 git 仓库（请用 .env 并加入 .gitignore）
容器内无法访问宿主机 localhost — 使用 host.docker.internal
embedding 模型与查询模型不一致导致检索失效

👥 适合人群

自动化工程师和运维人员项目经理和业务分析师希望减少重复性工作的专业人士数字化转型团队

🎯 使用场景

自动化日常重复性工作，将精力集中于创造性任务
构建数据采集 → 处理 → 输出的完整自动化管线
实现跨平台、跨系统的数据流转和业务协同

⚖️ 优点与不足

✅ 优点

+GitHub 6.0k Star，社区高度认可
+大幅减少重复性人工操作
+可视化流程，清晰直观
+可扩展性强，支持复杂场景

⚠️ 不足

−未明确开源协议，商用场景需谨慎评估
−初始配置和调试需投入一定时间
−强依赖外部服务的稳定性
−复杂场景需具备一定技术基础

⚠️ 使用须知

该工具未明确声明开源协议，商业使用前请联系原作者确认授权范围，避免侵权风险。

AI Skill Hub 为第三方内容聚合平台，本页面信息基于公开数据整理，不对工具功能和质量作任何法律背书。

建议在沙箱或测试环境中充分验证后，再部署至生产环境，并做好必要的安全评估。

🔗 相关工具推荐

LangChain AI开发框架

Agent工作流

ai-agents-for-beginners Agent工作流

微软官方开源项目，提供12堂系统课程学习AI智能体框架。涵盖工作流设计、RAG检索增强、多智能体协作等核心技能。适合AI

🧩 你可能还需要

基于当前 Skill 的能力图谱，自动补全的工具组合

技能寻求者

MCP · Agent · 工作流

natively-cluely-ai-assistant — Claude Skill 中文使用文档

免费开源的AI面试助手，实时转录，隐蔽模式，局部RAG，BYOK。无订阅，防止数据泄露。

total-agent-memory MCP工具

为Claude Code和Codex CLI提供持久化记忆功能的开源MCP工具。自动提取知识图谱，支持多轮对话上下文保留，适合需要长期记忆和

❓ 常见问题 FAQ

支持评测哪些模型？−

目前支持374+主流模型，包括OpenAI、Google、Anthropic等商用模型及开源模型

评测标准是什么？+

什么是 Agent 工作流？和普通自动化有什么区别？+

导入工作流后，我需要修改哪些配置？+

工作流运行失败了，如何排查问题？+

这个工作流每次运行会产生哪些费用？+

工作流可以定时自动运行吗？+

💡 AI Skill Hub 点评

经综合评估，chinese-llm-benchmark Agent工作流在Agent工作流赛道中表现稳健，质量优秀。如果你已有明确的使用需求，可以直接上手体验；如果还在评估阶段，建议对比同类工具后再做决策。

⬇️ 获取与下载

⚠️ 该工具未声明开源协议，不提供直接下载。请访问原项目了解使用条款。

📚 深入学习 chinese-llm-benchmark Agent工作流

查看分步骤安装教程和完整使用指南，快速上手这款工具

⚙️ 安装教程 📚 使用教程

🌐 原始信息

原始名称	`chinese-llm-benchmark`
原始描述	开源AI工作流：ReLE评测：中文AI大模型能力评测（持续更新）：目前已囊括374个大模型，覆盖chatgpt、gpt-5.4、谷歌gemini-3.1-pro、Claude-。⭐6.0k
Topics	`大模型评测基准测试中文NLP性能对标`
GitHub	https://github.com/jeinlee1991/chinese-llm-benchmark

🔗 原始来源

🐙 GitHub 仓库 https://github.com/jeinlee1991/chinese-llm-benchmark 🌐 官方网站 https://nonelinear.com

收录时间：2026-05-14 · 更新时间：2026-05-16 · License：未公布 · AI Skill Hub 不对第三方内容的准确性作法律背书。

chinese-llm-benchmark Agent工作流

非线智能 NoneLinear - ReLE评测：中文AI大模型能力评测（持续更新）

1、综合能力排行榜

6.4 算术能力

GitHub热门大模型评测项目

大模型基本信息

🚀 大模型统一网关

💥模型选型：目标降本90%

6.5 表格问答

🤖 交给 Agent 安装 · chinese-llm-benchmark Agent工作流