• 最近访问:
发表于 2025-12-28 00:15:30 股吧网页版
全国首个金融大模型评测体系升级2.0版,国产模型均分比去年大幅提高
来源:上观新闻

  近日,2025金融大模型评测体系在上海发布,这是去年全国首个金融大模型评测体系发布以来第一次全面升级至2.0版,主要聚焦在标准引领、数据驱动、安全可信与生态共建四方面。

  大模型评测体系通常是评估大模型的性能、安全性、可靠性等方面的指标、方法、基准和流程的集合,对于大模型行业的标准化发展有至关重要的作用。特别是近年来,国内涌现出多个金融大模型,但行业还缺少较为权威和认可的评测体系。而2025金融大模型评测体系,相当于为行业提供了科学选型与能力对标的重要“标尺”。

  据介绍,该评测体系汇聚了4个公开数据集与22个自建数据集,约3.6万条评测数据,采用循环选项打乱机制和多样化提示词,并研发金融裁判大模型,实现评测全流程自动化、标准化,为上海金融领域银行、券商、基金、投资等企业或者机构人员提供权威、精准的大模型能力评估,助力机构选型、优化及风险把控。

  在最新的评测体系下,今年的金融大模型测试结果全面超越去年,行业平均71.9分提升到87.37分。同时,测试结果还发现,海内外大模型整体能力上相差不大,但在中文领域,国内大模型处于领先水平。另外,国内金融大模型在语言理解、术语消歧、法规政策更新和合规对齐等领域领先,国外金融大模型则在数学计算、跨步推理、跨语言推理和超长文本处理上领先。

  库帕思首席运营官施佳樑介绍,在银行柜面操作等高度标准化场景中,模型回答的专业度已达到从业人员水平。不过,在隐性合规风险识别能力普遍不足,部分模型对“打擦边球”行为识别率低于50%。值得一提的是,金融大模型在角色扮演场景下,安全边界更易被突破,存在“越狱风险”,同时英文指令比中文指令更易绕过大模型的安全机制。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500