出品 | 虎嗅科技组
作者 | 齐健
(资料图)
编辑 | 陈伊凡
头图 | 视觉中国
ChatGPT加入搜索后,会颠覆Google吗?
这是过去几周里,在科技产业圈里热议的话题。
1月3日,科技媒体The Information爆料了人工智能研究实验室OpenAI与微软Bing最新的合作计划。两位直接参与该计划的人士称,微软正与OpenAI一起研究一款具备AI对话能力的新版Bing搜索引擎,预计将于3月底前公布。该版本将融合了OpenAI最新推出的对话大模型ChatGPT,与以往单纯罗列网页链接的搜索模式不同,ChatGPT可以直接回答搜索查询。
DA Davidson分析师甚至因此给予了微软“买入”评级,并称,短期内OpenAI的ChatGPT,将会转化为Azure的增量。从长远来看,将ChatGPT功能整合到必应(Bing)可能会为微软提供十年一次的推翻谷歌搜索主导地位的机会。
在此合作之前,微软一直出钱出力,支持OpenAI业务。2020年,微软以10亿美元投资OpenAI。同年,微软Azuer云也成为了OpenAI的独家算力伙伴。在此之前OpenAI曾一度成为Google云的五大企业客户之一,年单1.2亿美元。不过,微软收购OpenAI之后,似乎从微软拿到了极低的云计算折扣。有数据显示,在2021财年中,OpenAI在微软产品上的开支仅为92000美元,而以OpenAI运维、研发GPT-3和GPT-3.5等大模型的进度来看,云计算用量并未有明显下降。
与Bing的合作被曝出之后,OpenAI 在1月6日早些时候又传出出售股票的消息。据《华尔街日报》报道,OpenAI正在与Thrive Capital、Founders Fund两家基金谈判,以 290 亿美元的估值出售至少价值 3 亿美元的股票。2021年,OpenAI员工向红杉资本、老虎环球出售股票时的估值约为200亿美元。
AI对于搜索行业太超前?
既然通用大模型如此厉害,为何在搜索上积累最深的Google不做,毕竟要论搜索,Google在业内有绝对优势。
据《纽约时报》报道,ChatGPT发布之后不久,Google首席执行官Sundar Pichai就在内部动员研究人员团队想办法应对ChatGPT,并宣布这种情况是“红色代码”的威胁。
其实Google也并非没有尝试,在2021年5月的I/O大会上Google就展示了语言类通用大模型LaMDA,并持续对其进行迭代研发。然而直至目前,Google都没有向公众发布LaMDA,Google方面称,部分原因在于LaMDA目前尚不完美,其中存在较多错误。
事实上,在大模型尚未成熟的时代,搜索引擎就已开始尝试AI技术了。在查询过程中,搜索引擎利用自然语言处理(Natural Language Processing,NLP)分析和理解用户输入的查询词语。在搜索过程中,利用深度神经网络(Deep Neural Networks,DNN),解决“隐式搜索”问题。
“隐式搜索是百度内部的说法,也可以叫做‘真正的语义搜索’。”一位百度搜索技术专家告诉虎嗅,隐式搜索不再是单纯的字面搜索,而是利用AI分析用户关键词语的深层意思。例如,搜索“现实版钢铁侠”,得到的搜索结果就都是马斯克相关的内容。
此外,Google、百度、Bing等还利用AI实验了类似ChatGPT的AI功能,使搜索呈现出的结果不只是罗列网页,更能从搜索结果中筛选内容,直接回答用户的问题。
例如搜索“ChatGPT是什么”。
Google会在侧边栏直接引用维基百科:“ChatGPT是由OpenAl开发的一个人工智能聊天机器人程序,于2022年11月推出……”
百度则会筛选搜索内容,并摘取答案直接回答在第一条的显著位置:“聊天机器人,chatgpt是OpenAl开发的一个大型预训练语言模型……”
不过这种技术在搜索行业并没有得到广泛认可,甚至没有统一的名字。“你可以管这种技术叫精准搜索,也可以叫唯一答案或阿拉丁。”
即便是ChatGPT搜索,也仍存在一些问题。
首先,AI挑选出的内容很难确保准确性,连OpenAI的CEO Sam Altman都认为,“现在依赖它(ChatGPT)来做任何重要的事情都是错误的。”如果把ChatGPT提供的搜索结果作为“唯一答案”呈现给用户,却无法保证其准确性的话,那么在错误的答案面前,再好的交互体验,都会成为笑话。
此外,有的时候用户使用搜索引擎的目的是直接得到答案,比如你搜“ChatGPT是什么”时,你想看到的就是一个定义。但当你搜“关于AI通用大模型的技术文章”时,你可能需要的是搜集广泛、全面的资料,如果AI筛选了部分内容,则可能影响你在搜索结果中博采众长。
更重要的是经济账
不过,虽然搜索引擎很早就融入了AI技术,但却很难有更深入的应用,其中的原因就是算不好经济账。
通用AI大模型的研发、运维投入都不是小数目,更别说加入了搜索。
“搜索”是一项开销巨大的业务,要利用爬虫从互联网海量数据中抓取搜索结果,背后需要大量的算力支持。据业内人士透露,百度搜索处理的网页数量在七八年前就已达到千亿级别。服务器用量超过一万台,每年纯设备成本超50亿。如果算上研发、运营和维护的人工成本,总开销可能会接近100亿。虽然近两年服务器成本或有下滑,但人力成本会一直随着通胀逐年上升。
而这只是不包含ChatGPT情况下的纯搜索成本。
数据显示,GPT-3的训练成本约1200万美元,而ChatGPT的运行成本大概是单轮回答(Single Turn)几美分,听起来不多,但叠加到搜索引擎每天处理的数亿、数十亿次搜索中,产生的开销就高得过分了。如果按照每天10亿次搜索量来计算,把ChatGPT的回答成本压到最低的1美分,那么按照现在的汇率看,这样一个搜索引擎2天的“答题成本”就要一个半“小目标”。
由于ChatGPT的训练并不是基于非实时更新的数据库(数据皆采集于2021年以前),它的搜索功能无法解答2021年以后的新问题。目前要对ChatGPT进行实时训练,就要面临新的技术挑战和成本问题。
不过也有AI行业专家认为,实时更新的AI搜索引擎实用价值并没有想象中那么大。虽然互联网中每天新增的数据量很大,但真正有价值,值得沉淀下来的知识非常有限。用户对于这些知识的需求,也是随时间推移阶段性增长的。这样就可以把重新训练大模型或更新数据库的时间拉长,从而摊薄成本。
那么花大价钱融入搜索引擎的ChatGPT能带来多少回报呢?
与上边提到过的“精准搜索、唯一答案、阿拉丁”技术相似,ChatGPT也无法直接提供经济效益。曾经的谷歌广告团队负责人Sridhar Ramaswamy就表示,ChatGPT的使用,从一定程度上阻止了用户点击带有广告的谷歌链接。Google在2021年的广告业务收入为2080亿美元,占Alphabet总收入的81%。
为何Bing可以去做与ChatGPT结合的尝试?
“单看搜索业务,国内头部搜索引擎的利润率大概在65%左右。”一位搜索行业专家向虎嗅透露,虽然成本会随着服务器和人员的多少增减,但要保证搜索引擎可用,单个服务器的成本差距不大,广告规模却会差很多。因此营收规模越大,利润率也越高。放在任何一个成熟的海外市场,头部搜索引擎的利润率也都差不多是这个数。
据微软财报显示,在截至2022年6月的财年数据中,搜索、MSN.com和其他新闻产品的广告收入共116亿美元,其中搜索业务占比较大。相比之下,Google搜索业务的同期收入至少是Bing的10倍。
据海外多家调研机构的统计显示,Bing在美国本土的市场占有率远低于Google,目前全球搜索市场中Bing的市占率不超过10%,而Google的市占率保守估计也不低于80%。从市占率看来,Bing和Goggle二者的竞争关系似乎并不明显。
因为市场占比小,搜索利润率相对较低,Bing很自然地不承担过多的营收压力,也就可以放心大胆地尝试ChatGPT这种未来的颠覆式创新,而不需要考虑太多成本。
技术创新的故事就是如此充满戏剧性和残酷性。有时候赌对了一个技术路线,就能赢下未来十年甚至几十年的商业战争。而原有技术路线的优势者,往往由于自身的路径依赖,反过来被自己的优势地位掣肘,难以在新技术上勇往直前。正如曾经的光刻机霸主尼康赌错了技术路线,在浸润式光刻机上被荷兰ASML公司捷足先登,丧失了此后几十年的市场领先地位;诺基亚在智能手机时代被后继者超越,跌下神坛。ChatGPT大规模商用后会怎么样,谁也不知道,而一旦爆发,将是颠覆式创新,谁赢下了这场赌注,谁就能赢下下一个人工智能时代。