AI大模型狂潮下,文心一言全面开放之路与迷局
8月30日的晚间,百度旗下的AI大模型文心一言宣布向全社会全面开放,使得所有用户都能够亲身体验这款AI大模型的魅力。
而时隔一天,百度方面再次传出消息,仅仅经过12小时的开放下载,文心一言App就荣登苹果商店免费应用榜的首位,成为首个在中文AI原生应用领域达到如此高度的应用。
与此同时,多家媒体纷纷报道,国内将有11家大模型陆续通过审批备案,从8月31日起,将逐步向全社会公众开放服务。而值得一提的是,文心一言无疑是这些大模型中最早与用户见面的那一个。
这一系列的消息也引发了互联网和科技圈的热切关注,各种观点、分析和报道不断涌现。然而,尽管在互联网和科技领域引发了热烈反响,普通用户对于文心一言乃至整个AI大模型的了解似乎并不深入。
小编随机询问了多位非互联网和科技圈的用户,普遍的回答是并不了解文心一言以及其他众多AI大模型。即便是在之前引起轰动的AI大模型ChatGPT方面,普遍的了解也仅限于听说过名字,对于其具体功能和内容却不太了解。
从数据上看,这种情况并不罕见。更多的人或许还未能深入了解和关注AI大模型的特性。根据百度搜索指数显示,文心一言和ChatGPT的相关搜索热度一直保持着相对平稳的曲线,未出现大幅波动。相对而言,这两者的热度数值明显低于一些主流应用如抖音等。
这种现象实际上可以解释为大模型尚处于发展的早期阶段。相关平台需要经历漫长的迭代过程,以完善其内容生态和用户体验。因此,即便是现在面向社会开放的文心一言,依然存在一些不尽如人意的方面。
根据百度方面的介绍,文心一言并非仓促推出的项目,而是经过多年的发展积累。文心一言的基础模型文心大模型于2019年首次发布,最近升级的文心大模型3.5在国内外权威测评中多次位居榜首。
举例来说,今年7月,多家媒体报道,人民数据研究院对文心一言、讯飞星火、通义千问、ChatGPT等四款主流AI大模型进行了评测。结果显示,文心一言在这次评测中名列第一。
从评测的多个维度来看,文心一言在内容生态、数据认知、逻辑推理等方面都具备一定的优势能力。这一点并不难理解,毕竟百度在人工智能领域有多年的积淀,其在AI技术方面有着强大的底蕴,作为头部搜索平台,百度在大数据方面自然拥有一定的优势。
尽管文心一言在各类测评中取得了不俗的成绩,但实际使用体验仍然存在不少用户吐槽之处,其AI智能水平似乎未能达到部分用户的期望。
举例来说,文心一言在登顶苹果商店的应用中,用户的评论几乎全都是负面的。这些负面评论主要集中在回答与问题不符、内容错误等方面。事实上,类似的负面评论也出现在华为应用商店、Vivo应用商店的文心一言评论区。
通过实际体验,小编还发现了一些事实错误的情况,同时也发现了一些表现得不够智能、不够出色的地方。
例如,在百度搜索中找到了罗纳尔多的照片,然后向文心一言询问时,却得到了关于贝利的回答。同样地,在百度搜索中找到了姆巴佩的照片,向文心一言询问后,得到了一个不太确定的回答,表示这个人可能是姆巴佩。然而,法国队并没有在2022年获得世界杯冠军,甚至在2018年的世界杯中也没有制胜一球的情况,法国队在那届比赛中共进球4粒,而只有1粒来自姆巴佩,所以无论从哪个角度看,文心一言给出的信息都是不准确的。
此外,小编在实际体验中还遇到了一个有趣的情况,当询问一些与百度公司相关的负面话题,如“百度遇到过什么失败”等问题时,文心一言要么拒绝回答,要么直接结束对话。然而,当问题主体换成其他企业时,文心一言却会正常地提供回答。当然,作为百度开发的AI大模型,维护百度的形象、避免涉及负面内容或许是可以理解的,但若能在这方面保持客观公正的态度,例如像对待阿里巴巴失败案例一样坦诚回答百度的不足,将更具“出彩”的表现。
回到文心一言被用户吐槽的错误内容问题上,值得注意的是,文心一言的回答实际上取决于多方面因素。这个问题“为什么AI大模型总会给出错误答案?”引起了小编的兴趣,同时也向文心一言提出了这个问题,获得了一份相当诚实的回答。
文心一言将错误答案的原因分为几点。首先是数据训练不足。AI大模型的准确性与其所依赖的训练数据的多样性密切相关。如果训练数据不充分或多样性不足,AI大模型可能无法准确解读结果。
其次是语义理解存在挑战。AI模型通常通过深度学习算法来学习和理解文字、图像等内容形式。然而,这个过程充满了各种困难和挑战。例如,当面对抽象画或具有多重含义的内容时,AI大模型可能无法准确解释。
文心一言还表示,为了克服这些问题,研究人员可以通过增加训练数据、改进模型架构和提高算法精度等方式来优化AI大模型。对于带有特定语义信息的图像,例如抽象画,可以通过额外的标注或特殊的训练来提高模型的解释能力。
简而言之,为了使AI大模型变得越来越完善、使用越来越便捷,就需要更大规模的数据库、更精准的训练算法以及更频繁的使用次数。
那么,应该如何更好地解决这些问题呢?在AI领域有一条非常明确的原则,即“人多力量大”。如果能够面向大众开放,让更多的用户参与进来,那么是否能够满足关键条件呢?
这一点可以通过一个故事来更好地理解。人工智能和计算机视觉科学家李飞飞在2009年发表了一篇论文,讲述了来自167个国家的近5万名工作者,通过三年的众包方式,标注了1500万张图像。正是这5万人的努力,为人工智能产业赢得了一个标志性的数据集,这个大规模的标注数据在推动计算机视觉技术发展方面起到了重要作用。
类似的情况也出现在游戏领域。在正式上线之前,一个网络游戏必须经历内测和公测阶段。公测旨在邀请更多的用户参与,测试客户端问题、测试服务器性能和查找程序错误等,以便在正式运营和持续优化过程中起到必要作用。
因此,可以将文心一言的“对全社会开放”视为公测阶段,只有大量用户的参与、不断产生的使用体验和反馈数据,才能更好地完善功能、实现迭代发展。
实际上,从文心一言的功能设计中可以看出用户的真实体验和反馈对其AI大模型发展的重要性。每次与用户的互动后,文心一言都会显示一个明显的按钮图标,鼓励用户对回答内容和互动体验进行评价。用户可以点击“赞”或“踩”按钮,无论点击哪个,文心一言都会弹出新的窗口,期望用户能详细记录和反馈真实意见。
值得注意的是,百度创始人李彦宏曾说过一段话:“当文心一言向数亿互联网用户开放服务后,获得大量真实世界的人工反馈,将进一步改进基础模型,以更快的速度迭代文心一言,创造更好的用户体验。”这句话意味着,文心一言之所以向全社会开放,并不仅仅是百度单方面给予社会和用户的好处。用户的体验和反馈对于文心一言而言,可能更具有重要的意义和价值。
然而,小编需要强调一个极其重要的问题,那就是在文心一言面向全社会开放的阶段,是否应该先解决核心问题,即信息错误问题,而不是指望在后续用户使用中由用户来解决。如果将这种情况类比为一款新汽车上市,制造商告诉消费者,我们的车可能会偶尔失灵、失控、行驶错误,存在许多安全漏洞和不完善之处,希望用户在使用过程中多提供反馈……那么这家汽车制造商还有存在的必要吗?
回顾文心一言,用户在使用过程中如果得到的信息和内容本身就存在错误或疏漏,可能引发无法估量的负面后果。特别是当文心一言向全社会开放,大量用户加入后,这种风险和危害可能会成倍增加。
设想一下,如果每天有一定数量的虚假或错误信息通过AI大模型传播给大量用户,可能会导致无数个现代版的“三人成虎”事件。如果严重的话,互联网可能会充斥着谣言、虚假新闻、错误信息等不可信内容。
简而言之,AI生成的内容并非无中生有,而是需要一定的信息素材作为基础。一旦AI因各种原因生成错误或虚假信息,这些信息可能成为另一个AI生成内容时的素材。
当互联网空间充斥着由AI生成的垃圾信息时,这种无限循环的AI信息传递就会成为输入和输出都是垃圾信息的恶性循环。这是一个非常可怕的情景。
这不仅仅是文心一言面临的问题,而是所有AI大模型都必须认真对待的问题。
无论是文心一言还是其他AI大模型,都需要回答一个核心问题:为什么用户需要你,你有什么能力替代原有的工具平台。以文心一言为例,当提问“李白是谁”时,所得到的只是两段简要的介绍。然而,在传统主流搜索引擎中搜索这个问题,用户可以得到丰富多样的内容展示,包括图片、视频、文章等多种形式,从李白到杜甫,再到盛唐历史等更具创意的内容延伸,以及体验和需求满足等多个维度,都是文心一言等AI大模型无法媲美的。
在此要强调的是,文心一言在其App中还提供了一个“发现”专区,内含丰富的预设主题和场景,被称为“灵感小工具”。从表面看,这有助于用户更好地利用文心一言的功能,从而提升用户的使用场景和需求频率。
然而,小编同样在其中发现了许多在违规边缘游走的所谓AI大模型使用情境。例如,AI生成淘宝评论、外卖点评、小红书店铺探寻文案、知乎回答等,而这些恰恰是各大平台当前正在严厉打击的虚假内容。
以“知乎回答生成”这个所谓的灵感小工具为例,一旦点开,就会进入到一个预先设置好的对话框。文心一言会提供一系列预设问题供用户选择,然后自动仿效知乎平台的回答内容,生成相应文案。当然,用户也可以随意发挥,提出特定问题,让文心一言生成AI式答案。
实际上,可以毫不夸张地说,从理论上来看,AI大模型在工具属性和用户体验方面,都能为用户带来极大的效率提升和创意空间拓展。然而,同时也存在着被人刻意利用、造成网络空间信息污染、不法商业谋利等恶劣后果的风险。
综上所述,避免这种状况,仍需回归本文一再强调的核心问题。用户为何需要AI大模型?AI大模型如何在塑造一个更美好的世界方面发挥作用?又该如何避免AI大模型可能带来的负面“恶果”?
这是一系列需要深思熟虑的问题。未来我们可以期待文心一言以及更多AI大模型,能够呈现出尽可能完美的答卷。