• 最近访问:
发表于 2025-05-23 08:47:59 股吧网页版
国内60%AI应用背后的搜索公司,怎么看AI幻觉问题?|AI幻觉捕手
来源:21世纪经济报道

  21世纪经济报道记者肖潇北京报道

  所谓“AI幻觉”——AI一本正经地胡说八道,已成为行业热词。它常被归因为大模型生成机制的天然缺陷、训练数据的有限,但在一系列技术解释之外,一个环节鲜少被讨论:搜索。

  联网搜索如今几乎是每个AI通用聊天产品的标配,它承担着为AI补充“最新知识”的任务。如果把AI联网回答的过程比喻为做菜,大模型是厨师,搜索引擎就是食材供应商。一道菜的风味如何,厨师水平固然重要,但食材同样关键。

  在我们此前对AI幻觉的实测中,“食材”环节存在不少问题:失真信息、自媒体二手资料、人工智能生成内容被反复引用……为什么准确信息难被引用到?AI依据哪些标准在互联网中挑选信息?(详见:《让AI查了330次新闻:平均准确率25%,近一半链接打不开》)

  为了更好理解AI幻觉的链路,我们把视线投向了一家总部位于杭州的公司:博查。这家初创公司是国内60%以上AI应用的服务商,为DeepSeek、字节跳动、腾讯等头部AI产品提供搜索服务。团队告诉我们,今年3月,博查搜索API日均调用量已经突破了3000万次,达到微软必应的三分之一。

  我们与博查CEO刘勋和CTO翁柔莹展开对话。作为AI的信息入口,博查提供了另一种理解AI幻觉问题的视角。

  AI幻觉只能尽可能减少,很难彻底消除

  21世纪经济报道:“AI+搜索”相当于给AI外挂了一个动态更新的数据库,这一概念刚兴起时,很多人期待它能从源头解决AI胡编乱造的问题,但现在幻觉情况依然常见。作为AI搜索能力的提供方,你们会如何看待AI幻觉问题?原因出在哪里?

  翁柔莹:本质上这是信息来源的问题,你去百度、谷歌、必应搜索,会发现里面也有很多不实信息。虽然传统搜索引擎和AI搜索引擎的底层技术架构不同,但“内容生产、抓取、索引”的逻辑是一致的,内容真实性并不是AI搜索能完全控制的。也就是说, AI去联网搜索,和我们自己使用传统搜索引擎一样,都会碰到信息不准确的问题。

  这个问题只能尽可能减少,很难彻底消除。我们现在能做的,主要是通过技术手段去做信息过滤。

  21世纪经济报道:有哪些有效的技术手段,让AI提供尽可能准确的搜索结果?

  刘勋:准确性和权威性需要从多方面判断,现在比较普遍的策略是“模型+人工”。

  首先在大模型层面,我们有一套对抗性的模型体系——在互联网信息进入我们的索引库之前,大模型会先判断可信度。比如有人在我们的信任站点雪球(一个投资者社区)上,发帖说 DeepSeek 是李开复发布的产品,而且整篇内容都是胡编乱造的,我们能用大模型识别出来,大幅降低其权重。

  但也有一些内容是大模型判断不出来的。比如大S去世时,有人说汪小菲包机把遗体运回中国台湾了,甚至他妈妈(张兰)都在抖音上点赞了这条消息。很多用户都以为这是真的,大模型也无法准确识别,这时候就需要人工介入了。当我们确认某条信息被官方媒体明确辟谣、证实是造谣后,我们会主动将这类内容清除。

  翁柔莹:初步得出相关结果之后,我们会再进行一轮排序(re-rank)。会沿用谷歌EEAT 的维度(EEAT:专业性、经验、权威性、可信度;谷歌算法用来评估网站排名的重要指标)给每条结果打分。通过加权评分,对搜索结果进行重新排序。

  21世纪经济报道: AI搜索还有哪些挑选标准?我们之前实测发现,有一些阅读量很少但面面俱到的自媒体内容,在传统搜索引擎里位置特别靠后,但会被AI看到和引用到。这可能是什么原因?

  刘勋:目前我们权重最大的评估指标是“语义相关性”,核心原则是返回的内容里必须包含用户问题的答案。

  如何理解?大家用DeepSeek搜索,会直接提问一段完整的句子。以前把这么长一段话放到搜索引擎里,是搜不出什么结果的,因为传统搜索引擎是匹配关键词,而AI搜索引擎的技术架构是“语义搜索”,即基于自然语言匹配结果。

  大模型在处理一个用户的问题时,可能会一次性接收到 30条~50 条网页内容。我们通常会用1到 10的分数来评估这些内容质量。总共划分成四个区间,分数越高,代表网页内容越能完整地回答用户的问题,甚至还能额外补充一些信息。

  当然,我们不是AI产品本身,而是为 AI 产品提供联网搜索的API,也就是说我们没有最终输出的决定权。AI产品会根据语义相关性再做一轮筛选,从这几十条候选网页中,最终选择几条内容进行总结。

  21世纪经济报道:所以即使是接入相同的搜索API接口,不同AI产品最终输出回复的准确度也会有差异。

  刘勋:其实AI 产品接入的信息源也往往不止一个,我们只是内容来源之一。比如豆包,它既接入今日头条、抖音等字节系信息源,同时也接入我们这些第三方的数据源。这在技术上叫“多路召回”——从多个内容池子里一起抓取结果。多路召回之后,怎么排序、优先展现哪些内容,是由AI厂商自己决定的。

  一般来说,AI厂商会优先展示自家生态里的内容,因为这些内容不仅有更高的信任度,而且在它们自己的平台上也更容易实现流量变现和生态闭环。

  GEO在兴起,低质量内容涌入

  21世纪经济报道:传统搜索引擎的一些问题被诟病许久,比如广告太多、优质内容藏在“围墙花园”里不对外开放等等,这些老问题对AI搜索会有影响吗?你们是怎么应对的?

  翁柔莹:这个情况其实还好。首先,广告的问题不在于内容本身,而是搜索引擎公司在选择在用户界面加入广告,也就出现了你说的问题。我们的定位是“给AI用的搜索引擎”,在商业上没有引入竞价排名机制。

  其次,关于信息质量差、优质内容不开放,还是技术问题。传统搜索引擎基于关键字搜索,围绕着这套架构,低质内容可以通过一些手段让自己排名更靠前,比如只要付钱就能被推到前面。

  21世纪经济报道:说到竞价排名的商业模式,SEO (搜索引擎优化)已经发展成一个庞大产业了,而AI流行后出现了一项新服务叫GEO(生成引擎优化),即让某个网页内容更容易被AI引用。你们有没有关注到这个现象?

  翁柔莹:我就用一句话总结:你要精准知道用户会提什么问题,然后基于这些问题来写答案,就能大幅提高内容排名。

  当然,无论是 GEO还是传统的 SEO,高质量内容都是基础。在此基础上,结构清晰且有明确回答的内容,就更容易被 AI 搜索并引用。

  已经有一些原本做 SEO 的公司在转型做 GEO,但我们目前不打算跟进这条路径。因为我们发现,大模型真正需要的是最权威、最准确的内容源。如果允许低质量内容通过GEO 技术“混进来”,反而容易加剧AI幻觉问题,所以我们并不鼓励低质量内容的涌入。

  相反,其实我们更希望建立一种全新的内容合作机制。过去大家是花钱买搜索排名,未来我们希望能够反过来:不需要买排名,而是主动奖励好内容。如果你能给我们提供高质量、结构清晰、可信的内容,我们可以进行内容分润或其他形式的合作激励。这是我们正在探索的一种新模式。

  刘勋:提供优质内容会是我们坚持的原则。不过目前国内的 AI 生态仍在快速演化,AI 应用的最终形态,尤其是在 C 端用户场景中的具体形态,其实在未来2~3年内仍存在较大不确定性。我们希望在行业形态更加明朗之后,建立一套成熟、清晰的内容合作机制。

  21世纪经济报道:现在很多AI回答的来源,其实是另一个AI生成的内容,“AI引用AI”的自循环越来越常见,目前有没有比较可行的应对策略?

  翁柔莹:我们一直在推进信息过滤的工作。第一步是清理黄赌毒等违法违规内容;第二步,也是目前重点投入的方向,是识别并拦截 AI 生成内容,尤其是“投毒型”AI生成内容。

  这类内容有两个明显特征:一是结构、用词、语义风格与人类创作存在差异,我们可以训练一套专门的大模型来识别,类似论文AI查重;二是经常夹带虚假细节。比如同一事件,网上可能有十篇真实报道,而 AI 写的那一篇可能加入了杜撰内容,我们可以通过交叉对比剔除这些内容。

  21世纪经济报道:我们还注意到了延时问题。此前有一家媒体报道全国秋粮收购3.45亿吨, 当时AI搜不到“秋粮收购3.45亿吨”的数据出处,直到第二天整体报道数量多了,AI才收录到这一信息。为什么会出现这一情况?

  刘勋:跟传统搜索引擎的架构类似,当我们抓取到一个网页后,数据需要经过一系列处理流程,包括原始内容的提取、黄暴等合规性识别、内容清洗、结构化处理,最终才会进入索引库。这一套流程是需要时间的,目前我们能实现的最快数据处理时长大约为半小时,这是一个技术限制。

  未来AI的搜索调用量可能是人类的5~10 倍

  21世纪经济报道:你们的不少合作方是国内互联网厂商,本身拥有成熟的技术团队和互联网经验。他们找博查合作时最主要的需求是什么?

  翁柔莹:最核心的需求就是搜索质量。

  其实无论是互联网大厂还是中小厂商,只要做AI搜索,面对的都是一套全新的技术架构。行业最早将“语义搜索”应用于 AI 场景,是微软基于必应搜索开始为 ChatGPT 提供搜索服务。直到 2023 年 5 月, ChatGPT 接入必应实现联网搜索后,这套架构才被广泛关注。但要推翻几十年的技术积累、重新搭建架构,难度和成本都很高,所以整体推进速度比较慢。

  另一方面,有一些客户本身并不具备搜索引擎技术,仅能做站内搜索,无法支持全网检索,因此希望通过我们补足从 0 到 1 的能力。

  过去这些客户通常会接入微软必应的搜索API。但必应有两个问题:一是数据出海,存在安全合规隐患;二是价格高。博查对标的是必应,所以会选择我们作为更安全可控的国产替代方案。

  21世纪经济报道:可以说说提供AI搜索服务的技术和成本吗?门槛高在哪里?

  刘勋:举个例子,做搜索引擎的第一步,是构建一个“索引库”,可以简单理解为内容的底层数据库。谷歌的索引量大概是万亿级,必应略低一些。即便在国内刚起步,索引库的规模也至少要达到百亿条数据。

  这个数据量级意味着什么?我们目前支持百亿级数据的实时检索,而且要实现毫秒级响应,这背后需要非常庞大的基础系统。仅服务器部分,我们使用的数量就在1万到2万台之间。支撑这套系统的成本也非常高,“起步价”至少就要每月几千万元。

  更重要的是,我们的技术架构完全围绕内容相关性设计,没有广告干扰,这对AI 搜索是最基本的要求。传统搜索引擎公司如果也想转向做AI搜索的 API,就意味着要抛弃原有的关键字搜索架构,重做一套向量索引系统。另外,如果要提供一个没有广告干扰的 API,也会冲击他们原有的商业模式和收入结构。

  21世纪经济报道:那博查预计的盈利周期大概多久?接下来在技术优化和商业布局上有什么打算?

  刘勋:我们目前并不着急盈利,更关注如何推动整个 AI 生态的发展。等国内AI应用生态成熟起来了,我们再跟着去实现商业变现。

  现在全球范围里,所有人类主动发起的搜索总量大概在 100亿次~200 亿次之间(包括谷歌、必应以及微信等平台内搜索)。但我们认为,未来 AI 的搜索需求会远远超过这个量级。

  举个例子,当你向 DeepSeek 这样的模型提问时,大模型会把一个问题拆解成多个子问题的同时调用搜索。尤其是像 Manus 这样的 AI 智能体,为了完成一个复杂任务,往往需要反复调用搜索服务接口。我们估计未来的AI搜索调用量会是人类的 5 到 10 倍,甚至更高。

  也就是说,搜索能力未来会像地图、支付一样,成为AI 应用不可缺的基础模块,而为此掏钱的是上层AI应用。所以我们会等待国内 AI 应用生态跑起来。

  我们一直是以谷歌和必应为对手,明年希望至少达到谷歌一半——5000 亿条索引库。其实接下来的关键挑战在基础设施上,我们的资源部署在各大云厂商上,目前的成本和限制依然是所谓的“三架马车”:算法、算力、数据。所以我们需要整个基础设施的进一步发展,来支持下一阶段的扩展和突破。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500