CryptoBench 的核心是一套为大语言模型设计的基准测试题集,题目来自多位加密领域专家的集体输入。目前包含 230 个复杂任务类题目和 700 多个选择题,涵盖现代密码学、区块链、Layer2、DeFi、零知识证明、DAO 与治理、代码生成、合约审计等方向。与此对应的,是超过 400 个子类别和 1300 个知识点的加密知识图谱。基于现有题集版本,已完成对 24 个大语言模型的测试,详细的记录、评分、评分依据、排行榜,以及自动化的测试和评分程序都已在 GitHub 上公开。虽然内容看起来不少,但整体还很早期,称不上是成熟的大模型测试基准。希望得到大家的批评指正,也期盼更多朋友未来能参与问题设计与加密图谱的梳理。\n原文链接