21世纪经济报道记者肖潇报道
过去两年,几乎所有搜索引擎和AI平台都在做同一件事:让AI总结互联网。2025年,OpenAI推出了ChatGPT搜索,与谷歌的AI摘要(AI Overviews)竞争;微软随后将Copilot的答案整合到Bing中;百度和夸克也开始把 AI摘要放到页面最上方。
过去人们习惯的关键词搜索,正被AI总结取代。流量监测机构Statcounter发现,在2024年最后三个月里,谷歌的全球搜索市场份额均低于90%,是2015年以来首次跌破九成。这背后的信号是,人们接收网上信息的方式在发生剧烈变化。
(谷歌的AI摘要)
美国麻省理工大学最新发布了一项研究,对 2024—2025年间280万条搜索结果进行了系统分析,试图回答一个问题:AI搜索到底带来了哪些改变?
结论不算乐观。首先是爆炸式的扩张速度。
2024年,全球只有7个国家可以看到谷歌的AI概览;一年后,已覆盖229个国家。研究提到一个更极端的例子是,当人们在2024年搜索疫情(COVID) 时,只有大约1%的查询会返回AI答案,2025年则飙升至68%。可以看出,科技公司的AI内容策略在变得激进。
第二,两个关键指标,引用信源多样性和信源质量,都有显著偏低。
研究团队分析了280万条谷歌的搜索结果数据,发现AI引用的低可信来源明显更多。以NewsGuard这家独立新闻评级机构的标准来看,“低可信”表示,信源通常有反复传播虚假信息的记录、无纠错机制、不披露所有权、存在误导性标题等。
与此同时,AI明显偏好超级大站,流量排名前1000的网站贡献了约10%的引用结果,尤其集中在Reddit、维基百科、YouTube 等平台。而流量排名前1000至100万的长尾网站,比如个人博客和技术论坛,AI的引用量则显著低于传统搜索引擎。
在所有话题上,AI总结的多样性也明显更低。论文解释,这是因为技术逻辑本身就倾向于单一声音。大模型需要生成流畅连贯的回答,当它把多个链接压缩为一段话时,容易抹掉或者无视有差异的信源,选择更“平均”的观点。
相比AI答案是否足够可信,更值得担忧的问题的是,人们有多愿意相信AI答案?
麻省理工大学的这份研究结果显示,当页面出现AI摘要时,用户的零点击率从60%上升至80%。也就是说,每10个人中有8人看完AI总结便离开,不再进入原始网页。
即使AI的回答经常存在论点和论据“对不上号”的情况,但只要出现了带参考链接的论据,用户信任度就能显著提升。
研究团队对此担忧,过去搜索引擎的设计,鼓励用户进行三角验证——打开多个网页、查看作者名字、看看发布日期,但AI搜索的产品逻辑是快速确认。人们的判断路径在变化,大多数人只在有时间、有足够的怀疑精神时,才会被鼓励继续核查。
在这种结构下,判断错误的风险自然被放大。近年的多项独立研究都指出,即便是顶尖大模型,仍存在约 30% 的陈述缺乏充分支持。我们在 2025 年对 6 款国产大模型进行的 300 次测试中,也发现AI的引用准确率平均只有25%,大约43%的回复提供了无效链接。(详见:《让AI查了330次新闻:平均准确率25%,近一半链接打不开》)
另一个可能被忽视的长期影响是,AI搜索对高流量网站的偏好,可能威胁整个信息系统的健康。“因为大模型只是整合者,而非生产者。如果那些小众网站、深度报道等创作者的流量下降到不可持续的水平,知识生产的商业模式会面临压力,乃至崩溃”。麻省理工大学的研究提醒道。
当下的问题不是AI搜索是否应该存在(它肯定会在),而是怎么才能设计成一个健康可持续的信息系统。
除向用户科普交叉验证、提醒AI不可靠之外,研究向平台和政策制定者提出了几点建议:
比如,AI搜索应该设计为“论文级引用”,方便AI的每一个总结观点都能直接定位到具体来源、具体段落;平台应该遵守多样性配额,尤其是针对医疗健康、公共政策等特定主题,避免依赖单一来源。
最重要的是,AI搜索平台必须公开普及率和影响报告,监管机构同时应当要求平台定期披露“答案引擎透明度报告”(AET)。它应当包括带有AI摘要的查询百分比、引用来源的中位数、引用来源的点击率、按网站类别(比如新闻机构、政府官网)划分的流量分布,以及内部红队测试中幻觉和错误率的结果。