• 最近访问:
发表于 2026-02-05 07:02:10 股吧网页版
引文幻觉大幅下降的AI模型诞生
来源:科技日报

  《自然》4日报道了一个开源语言模型“OpenScholar”,其在准确进行文献综述方面可超越商用大语言模型。比如,在该研究开展的实验中,GPT4o会在78%至90%的情况下出现引文幻觉,而“OpenScholar”的引文准确率却与人类专家相近。虽然仍需进一步优化,但该工具有望帮助科学家处理复杂且日益繁重的科学文献综述任务。

  科学文献综述对于支持循证决策、微调科学过程和引导新发现都很重要。然而,文献发表数量的增长使研究人员很难掌握全部资讯。商用大语言模型可以提供协助,但却很容易出错,如归因能力有限和引文幻觉。

  为了生成准确、全面、透明的科学文献综述,美国华盛顿大学团队推出了“OpenScholar”。该模型是专为科研任务设计的检索增强语言模型。其他系统也用过这个框架,但研究团队将其与一个包含4500万篇最新开放获取科研论文的专业数据库以及一个自我评估机制相结合,从而优化了其输出。

  研究团队还创建了名为“ScholarQABench”的基准工具来评估文献综述的自动化。测试显示,“OpenScholar”的准确率比GPT4o和PaperQA2(一个文献综述工具)这类现有系统分别高出6.1%和5.5%。此外,“OpenScholar”生成的答案,在50%到70%的情况下比专家注释器的答案更有用。

  团队总结道,以上结果和引文幻觉大幅下降证明了“OpenScholar”有望支持和推动进一步研究工作。但他们指出,该系统仍有局限性并强调基于语言模型的系统无法使科学文献综述完全自动化。他们向学界同时开放“ScholarQABench”和“OpenScholar”,以鼓励进一步研究和优化。

  【总编辑圈点】

  科研人员每天寻找有用的论文,相当于在信息的“海洋”里捞“珍珠”。但现在海水暴涨,真正有用之物和以假乱真之物一起浮上了水面。以前大家用的是通用的“万能捞网”,比如GPT。但它的网眼太大,捞上来的有可能是“塑料珠子”,也就是假的或错误的引文,需花大量时间去挑,还可能会被误导。本文中的“OpenScholar”,是一个专门为这片科学海洋设计的网。它不追求万能,而追求可靠,而且所有科学家都能一起改进这个工具,让它更准确。这有望把科研人员从繁琐、易错的文献苦海中部分解放出来,让他们能把宝贵精力用在真正的思考和发现上。这正是科学工具走向可信化的重要一步。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500