• 最近访问:
发表于 2026-03-09 19:13:50 股吧网页版
龙虾大模型测评榜来了!MinMax和Kimi杀入前三
来源:东方财富研究中心

  在刚刚过去的一周,“养龙虾”彻底火了!

  腾讯总部门前大排长龙等着免费安装“龙虾”,闲鱼上代装“龙虾”服务几十到上百不等,各大云厂商纷纷推出一键部署教程和服务。而这里的“龙虾”可不是指我们吃的小龙虾,而是指“OpenClaw”,“claw”有爪和工具之意,正契合了它的工具属性,并且OpenClaw的吉祥物就是一只可爱的龙虾。

  OpenClaw官网给出的官方定义为“The AI that actually does things”,可以直译为“真正干活的AI”。它可以帮你清理收件箱,发送邮件,管理日程,办理航班值机等,而你只需发送指令到WhatsApp、Telegram、飞书、钉钉等与它连接过的聊天软件。

  事实上,OpenClaw并不能直接使用,而是需要完成部署配置,并且在日常使用中逐渐给它添加技能,因此称为“养龙虾”。在部署OpenClaw时,第一个需要解决的问题就是选哪个大模型来当它的“大脑”。为了回答这一问题,PinchBench网站应运而生。

  PinchBench专门针对OpenClaw对大模型进行基准测试,从而评估大语言模型在 OpenClaw 任务中的表现。目前官网显示测试了全球主流的33个大模型。

  数据显示,在成功率方面,谷歌的gemini-3-flash-preview位居榜首,为95.1%。国产大模型minimax-m2.1和kimi-k2.5闯进前三,测试成功率分别为93.6%和93.4%,力压一众claude大模型。

  完成测试费用方面,minimax-m2.1和kimi-k2.5也表现不俗,在兼顾了成功率的同时,费用低于gemini-3-flash-preview。前者费用分别是0.14和0.20美元,后者费用为0.72美元。

  另外,在任务完成的速度上,minimax-m2.1和kimi-k2.5在7个成功率高于90%的大模型中也能达到平均水平。

  也难怪OpenClaw的创始人Peter Steinberger在接受一档播客访谈时曾直言,他认为Minimax 2.1是当前最好的开源模型(彼时他还没有测试过Minimax和Kimi的最新模型)。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500