推理能力
在权威推理榜单Benchmark GSM8K测试中,天工以80%的正确率脱颖而出,大幅领先GPT-3.5(57.1%)和LLaMA2-70B(56.8%),接近GPT-4。在MMLU、C-EVAL、HumanEval等三项数据集测试中也同样表现出色,均获得较高的正确率,表明天工大模型的通用能力很强,核心性能均达到了国际领先水准。
多模态能力
在腾讯优图实验室联合厦门大学开展的多模态大语言模型测评中,天工大模型Skywork-MM在新建的评测基准MME上综合得分排名第一,解决了现有多模态大模型中颇为困扰的两大问题——幻觉和较弱的跨语言能力。
模型参数与架构
天工大模型3.0采用4千亿级参数MoE混合专家模型,并将同步选择开源,是全球模型参数最大、性能最强的MoE模型之一。其在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域拥有惊人的性能提升,数学/推理/代码/文创能力提升超过30%。
音乐生成能力
天工大模型旗下的天工SkyMusic音乐大模型是中国首个音乐SOTA模型,在与海外顶尖的AI音乐大模型Suno V3的横向测评中,在人声&BGM音质、人声自然度、发音可懂度等领域显著领先对手,并以6.65分的综合得分超越Suno V3,领跑全球。
◆
◆
发表于 2025-05-25 08:47:14
发布于 广东
Deep Research能力:天工超级智能体(Skywork Super Agents)在Meta和HuggingFace的GAIA评测中得分82.42,超越OpenAI Deep Research和Manus,排名全球第一12。其专业文档、PPT、表格生成能力达到“科研级”水平,尤其在办公场景中表现突出1。
数学与代码能力:开源模型Skywork-OR1-32B-Preview在数学推理(AIME24/25)和代码生成(LiveCodeBench)任务中接近DeepSeek-R1(671B参数)的性能,但参数规模仅为后者的1/20,性价比极高。
openai现在是2万亿估值,那么昆仑应该值多少?
郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
评论该主题
帖子不见了!怎么办?作者:您目前是匿名发表 登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》