APP推广合作
联系“鸟哥笔记小乔”
权威+AI,百度百科打出王炸
2024-12-28 01:42:00

消灭大模型幻觉,它是最大的利器。

作者|文昌龙

编辑|杨舟

“未来我们得到的内容可能是AI生产的东西占主导,这些东西又成为新的语料喂给AI,然后AI又会加工AI生产的东西,不断反复。这就会出现‘递归效应’,出现尼采讲的‘永恒循环’。”

中国人民大学新闻学院教授刘海龙在采访中指出,AI带来的信息传播负面效应日益显现。这一现象并非难以察觉,越来越多的人已开始感受到AI对信息传播的颠覆性影响。

随着AI信息循环的加剧,信息传播的失真也愈发严重。打破这一恶性循环,一个解决思路是,牢牢把控源内容。换句话说,打破AI大模型“幻觉”链条的关键,在于保证训练数据的质量与权威性。

根据公开信息,大型语言模型(LLM)数据集可以简单的概括为通用预训练语料库和特定领域预训练语料库,前者的来源也就是网页、语言文本、书籍、学术资料、代码、平行语料库、社交媒体和百科全书。

其中,百科作为训练数据集的核心组成部分,已经成为AIGC时代数据权威性的关键。

维基百科百度百科等平台已经意识到这一点,并纷纷采取措施,确保数据的可信度与权威性。作为全球词条数量最多的中文百科全书,百度百科近期也有了进一步的举措。

12月27日,在百度百科在和中国科协、中国科学院大学联合举办的史记2024·科学百科100词发布会上,发布了「繁星计划」,将AI与知识内容的融合推向了新的高度。这一举措并非简单地像维基百科排斥AI,因为AI本身也具备创造力,更像是在AI与权威之间架起了一座桥梁。

毫无疑问,在不广为注意的领域,百科的内容保卫战已经拉开帷幕。

01 消灭大模型幻觉,百科是利器

百科的重要性在于,它是AI是否生成幻觉的训练数据集源头之一。

大模型训练数据集,是指用来训练大型人工智能模型(如GPT、文心一言等大语言模型)的大量数据集合,对大模型的性能和表现至关重要。

打个比方,如果将大模型比作一个学生,那么训练数据集便是教材与练习题。教材的质量与练习题的数量和种类,直接决定了学生的学习效果与知识掌握程度。一个优质的训练数据集,能够帮助大模型这个“学生”走得更远,提供更有价值的服务。

大模型的训练数据集来源广泛,因此质量参差不齐,优质数据源往往需要付出不小的代价。

以OpenAI为例,2024年5月22日,OpenAI宣布与新闻集团达成多年期协议,获得其主要新闻和信息出版物的当前与存档内容,包括《华尔街日报》《巴伦周刊》《纽约邮报》《泰晤士报》《太阳报》等十余家知名媒体。

这一切背后,OpenAI支付了不小的代价。根据外媒报道,该交易为期五年,交易金额可能超过2.5亿美元(约合人民币18.1亿元)。

OpenAI也提到了这笔交易的原因,“最终目标是让人们能够根据可靠的信息和新闻来源做出明智的选择。”

当然,如果其他大模型机构不像OpenAI那样财力雄厚,那么最常见的选择便是单单使用一些通用的预训练语料库和特定领域的语料库,其中百科语料库尤为普遍。

最常见的百科语料库包括维基百科和百度百科,它们以免费、开源、多语言支持和高文本价值为特点。这些知识经过人工精心整理,准确性较高,能够帮助模型建立对各类事物的基本认知,如历史事件、科学概念等。

由于这些百科内容易于获取,机构通常会选择特定语言的百科数据进行爬取和过滤,作为预训练语料库的一部分。因此,它们在预训练语料库中的出现频率较高,是大语言模型(LLMs)知识库的基础。

今年年初,斯坦福大学的研究人员发布了WikiChat,宣称这是首个几乎不产生幻觉的聊天机器人,他们的信心来源于基于维基百科的知识进行训练。

然而,随着AI进程的加速,百科也不能再百分百保证其准确性。即使是知名平台,依然存在信息错误或不完整的情况。

可见,要解决大模型幻觉的问题,必须保证其训练数据集的质量和权威性。尤其是在百科类内容中,内容的准确性和专业性是大模型稳定输出的基础。

02 如何保证百科的权威

目前,维基百科为应对人工智能生成内容带来的挑战,推出了维基人工智能清理项目(WikiProject AI Cleanup),并强调内容的可验证性:要求编辑在文章历史中注明是否使用了大型语言模型(LLM)。

作为百科的另一极,百度百科早在2006年就开始为百度搜索引擎提供知识源。公开资料显示,截至2024年12月,百度百科已经收录了超2860万个词条,参与词条编辑的网友超过795万人,几乎涵盖了所有已知的知识领域。

百度百科拥有一支专家团队,用来确保所有内容的准确性与权威性。毕竟,在AI幻觉出现之前,虚假信息和利用百科进行商业宣传的行为已影响了百科产品的公共性与中立性。

回顾过去,百度百科在提升内容专业性方面做出了努力,包括组建更专业的编辑团队、加强内容审核力度,以及与行业机构合作等。

例如,2009年,百度百科推出了权威共建专项活动,联合各行业专家和机构,共同构建专业品类词条;2014年,在卫健委的指导下,百度百科联合打造了“权威医学科普传播网络平台”;2015年,百度百科与中国科协达成合作,共同完善科学类科普词条的准确性。

专家团队的参与有效抵消了大众编辑带来的非专业性问题,但如今进入AIGC时代,百度百科在权威性树立上拿出更多砝码。

从外部信息来看,为了进一步提升百度百科的权威性,百度的策略是“以AI规范AI”。即在依赖人工编辑和专家审核的基础上,结合AI技术,通过智能体等手段,进一步提升内容的准确性和智能化水平。

核心动作之一是这次的“繁星计划”,该计划可概括为四大特色:专业标识、编辑特权、技术共享和精准流量。

以“专业标识”为例,当用户在百度搜索时,专家的个人词条会以专门标识的形式展示,彰显其权威性。在信息泛滥的时代,百度百科通过识别真正的专家和优质内容,给予专业标识,帮助大众分辨真假。

过去,百度通过参考资料来定义知识,这虽然精准,却也误伤了不少专业内容,许多专业人士想要参与,但由于工具不便、门槛过高,常常被排除在外。如今,百度去除了这些繁琐的流程,为专家提供了编辑特权,降低了参与的门槛。

通过“繁星计划”,百度百科还将整合百度的AI技术,包括文心智能体平台等,通过智能体和数字人技术,帮助专家免费制作数字分身,既降低成本,又提高产量,使科普变得更加容易和权威。

此外,百度百科还将立足于百度搜索,提供亿级的精准流量分发,助力知识的全民普惠。据透露,“繁星计划”将覆盖 10 万个权威专家,覆盖超100万知识内容。有关人士表示,这或许是业内规模最大的 AI 科普计划。

百度百科正在利用AI技术架起与权威之间的一道桥梁,试图为解决AI幻觉问题、树立权威科普提供一种解决方案。

03 从图文到AI时代,百度百科始终手握王牌

一个现象是,百度百科频繁被国内媒体作为资料来源引用,既表明其权威性已广泛认可,更重要的是,这种权威性逐渐被潜移默化地接受,成为了百度的一张核心底牌。

一方面,作为简体中文互联网体量最大、用户最广泛的搜索引擎,百度是大多数网民查找信息的首选平台。百度搜索对百度百科赋予了更高的权重,使得其内容更易被用户找到,逐步培养了用户的依赖习惯。另一方面,百度百科作为一款精准总结信息的产品,其权威性始终有保障。

因此,百度百科的内容权威性正逐渐成为百度搜索的核心护城河,不仅有效消除AI幻觉,也增强了其在激烈竞争中的优势。

这种权威性的塑造并非一蹴而就,而是经过长期的战略规划与持续打磨。从时间轨迹来看,无论处于何种内容时代,百度百科始终坚守权威性门槛,并在不同阶段不断强化这一特质。

回顾百度百科的发展历程,可划分为三个具有标志性的阶段:

1.0阶段:处于移动互联网尚未普及的图文时代,百度百科通过广泛的知识收集与整理,为百度搜索提供大量可靠的知识内容,成为用户信赖的知识源,奠定了其权威性基础。

2.0阶段:随着移动互联网的兴起,百度百科进入视频化时代。以秒懂百科等创新功能为标志,视频形式极大丰富了知识的呈现方式,使其能够以更直观、生动的方式触达用户,进一步提升了其权威性。

3.0阶段:在AI技术的浪潮下,百度百科结合文心大模型等百度AI技术体系,融入智能体和数字人等先进技术,实现知识生产与传播的智能化升级。

近期推出的繁星计划便是这一阶段的重要成果,通过AI优化知识服务,提升了百度百科的权威性,并为百度搜索提供了更强的支持。

未来,随着百度百科AI化进程的不断深入,它将不仅仅是一个知识平台,还将成为推动知识生态发展的智能工具。随着内容权威性的进一步增强,特别是在AI技术的深度融合下,百度百科或将进入新的发展阶段。

市象
公众号二维码
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
市象
市象
发表文章54
市象
世界视野,市象洞察。
确认要消耗 羽毛购买
权威+AI,百度百科打出王炸吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接