APP推广合作
联系“鸟哥笔记小乔”
对比了6家国产智能体,我找到了企业落地AI的方向
2024-11-18 13:54:00

在最近落幕的百度世界大会(Baidu World 2024)上,百度创始人李彦宏提到百度文心智能体平台已吸引15万家企业、80万名开发者使用,并称11岁的小学生也成功搭建了智能体。

这个数据的确惊人,其实智能体(AI Agent)这一概念,以及其同义术语如数字员工、AI助手等,均已不再是新鲜话题。

尽管目前市面上智能体的种类繁多,但大多面向个人用户,作为企业经营者,我更关心的是智能体在企业方面的应用。随着智能体在商业领域的讨论愈发热烈,我对智能体在企业中的实际应用价值抱有一定的疑虑:

·智能体是否能感知用户提问的真实意图?

·智能体是否能理解复杂语境和非标准表达?

·智能体是否能从丰富的知识库完整抽取信息?

·智能体是否能保持上下文、甚至多文档之间的语义连贯性?

·智能体是否能准确提取复杂数据,判断多元数据?

为了验证以上问题,本篇文章将从以下两个方面来探讨智能体(AI Agent):

1.企业级智能体测评(从3个维度出发,测评10个问题)

2.目前智能体们能为企业做什么?

智能体测评

为了寻找合适的国产智能体(AI Agent)进行测评,我在不同的AI平台搜索:

 

试用下来,从操作便捷性和功能实用性方面考虑,最终筛选出了6家功能相似的企业级智能体(或数字员工):扣子、文心智能体、司马诸葛、智谱清言智能体、腾讯元器、LinkAI。

我准备了4份文档,以同样的提示词,同样的文档,分别在这6家平台创建了一个企业常见的智能体:行政小助手sunny。围绕行政方面的场景,还原企业内部员工之间真实沟通场景。

 

为了保证公平性,同时也考虑到智能体发挥不稳定,这次共设置了10个问题(从易到难)进行测评。分别从精确度、完整性、逻辑性方面,检测智能体们的回答质量。

先上结论:大部分智能体都具备了理解简单指令的能力,扣子和司马诸葛的表现最令人满意,不偏离事实,基本能达到企业使用的需求,适用于严肃商业场景,但仍有进步空间。LinkAI、智谱清言智能体和腾讯元器的表现比前两者稍逊,勉强可使用。文心智能体表现一般,有较大的升级空间。

【提醒:评分结果只代表智能体们当下在企业应用场景对问题的回答质量,且评价维度有限,不代表产品整体水平。】

一、正确理解语义,回答准确度

正确理解语义,能理解上下文,具备回答的准确度,是衡量智能体是否可用的首要考量因素。

为了测试智能体是否能正确理解语义及基础的信息抽取能力,针对公司的行政制度,我提出了4个问题。

第一个问题:“请一天事假,怎么请?”

原文如下:

 

扣子从知识库直接提取了信息,不做过多发散,回答正确。

文心智能体的回答很有趣味性,对原文做出了正确理解,回答无误。

司马诸葛分步骤列出,思路清晰,回答正确。

智谱清言智能体虽然也给出了请假步骤,但他给出的审批人是直接主管领导,而原文中正常流程中请假单的审批人是总经理,回答错误。

腾讯元器同样给出了正确答案,步骤清晰。

LinkAI的回答也正确理解了原文,回答准确。

第二个问题:“可以在卫生间抽烟吗?”

原文如下:

扣子理解正确,给出了精确回答。

文心智能体没有提取出相关信息,无法给出卫生间是否可以抽烟的相关建议。

司马诸葛正确理解原文语义,给出了精确的答复。

智谱清言智能体也回答正确。

腾讯元器首先给出结论,然后给出相关制度条款,回答正确。

LinkAI的答案错误,遗漏了“指定地点外。”

第三个问题:“入职第一天,迟到半小时怎么扣钱”

原文如下:

扣子未能给出具体扣钱金额,回答错误。

文心智能体给出的答案是第一次迟到会被罚20元,回答准确。

司马诸葛首先给出迟到的定义,再根据原文档信息进行准确回答。

智谱清言智能体未能回答出具体的扣钱金额。

腾讯元器先给出了迟到的定义,然后再给出了扣钱的情况,回答准确。

LinkAI同样先给出了迟到的定义,然后再回答第一次迟到罚20元,回答正确。

 

第四个问题:“我是财务,因为个人疏忽给公司造成了2000元的损失,会赔钱吗”

原文是这样的:

 

扣子给出的答案同样是需要赔偿200元,回答正确。

文心智能体没有给出有效回答。

司马诸葛回答的是需要赔偿200元,正确理解了原文意思,输出的结果准确。

智谱清言智能体没有给出具体赔偿比例和金额,回答得不理想。

腾讯元器的回答忠于原文档,条理清晰,给出了正确的回答。

LinkAI的回答干脆利落,与原文档也是相符的。

第一个维度测评下来,可以看出,在对基础信息提取方面,司马诸葛和腾讯元器具有较高的准确度,全部回答正确,扣子、LinAI回答对3道题,信息抽取能力也表现优秀,文心智能体和智谱清言智能体表现较为一般。

二、归纳总结能力,回答完整性

智能体若要提高生产力,那么它就必须具备较强的信息归纳总结能力,能从大量数据和信息中过滤掉冗余或次要的信息,提取出关键要素并进行整合,以简明扼要的方式陈述出来。

第一个问题:“我去年考核90分,可以升职吗?”

原文如下:

智能体需要提取出4个晋升资格,缺一不可。

扣子给出了4项需同时满足的晋升条件,回答完整。

文心智能体给出文档中对应的4项具体晋升条件,但遗漏了“无受过处罚”,整体回答缺少完整性。

司马诸葛给出了需同时满足的全部晋升条件,回答完整。

智谱清言智能体完整地整理了晋升条件,回答正确。

腾讯元器给出的晋升条件和原文相差较大。

LinkAI给出了完整的4项晋升条件。

第二个问题:“除了法定假,公司的福利假还有哪些?”

原文如下:

从原文中可以看出,除了法定假,公司的福利假还有7项:年假、婚假、丧假、病假、产假/陪产假、哺乳假、工伤假。

扣子回答的也是除了法定假还有年假、婚假等七种福利假,并做出解释。

文心智能体的回答中漏掉了产假/陪产假。

司马诸葛完整地总结出了法定假期以外的七种福利假,并对每种福利假做了解释。

智谱清言智能体给出了7个福利假,同样做了相应的解释,回答完整。

腾讯元器智能体的回答缺少了工伤假。

LinkAI只给出了四种福利假,缺少了3个,回答不完整。

第三个问题:“哪些报销项目报销时需附上总结”

原文如下:

智能体需要根据全文档,归纳出报销团队建设费和市场推广费时需附上总结,不能有遗漏。且文档中提到的招待费只是需要事后总结,并不需要在报销时附上总结。

扣子回答的是市场推广费和团队建设费需要总结作为报销附件,信息归纳得很完整。

文心智能体归纳信息错误,错误地认为报销招待费也需要附上总结。

司马诸葛归纳信息不全,缺少了团队建设费。

智谱清言智能体归纳了5个项目报销时需附上总结,回答错误。

腾讯元器同样归纳信息错误。

LinkAI输出的答案是“所有出差项目的报销都需要附上出差总结作为报销附件”,回答偏离事实。

第二个维度测评下来,扣子回答的完整度表现最好,全部回答正确。司马诸葛和智谱清言智能体次之,回答对了2道题,LinkAI、文心智能体、腾讯元器表现平平。

三、数据处理能力,回答逻辑性

对复杂数据进行处理和分析,能基于事实和数据进行合理推导,并在生成回答时具有逻辑性,这是拉开智能体差距的核心竞争力之一。

第一个问题:“5个人团建,吃饭600块预算可以吗”

原文如下:

这个问题只需要智能体进行简单的数据计算,并判断出是否超出限额标准。

扣子数据计算正确,并判断出600块超出预算。

文心智能体同样判断出600超预算了,回答正确。

司马诸葛回答“吃饭600块预算是可以的”,回答错误。

智谱清言智能体判断出600元超过了公司的规定标准,数据计算正确。

腾讯元器判断出600元的预算是合理的,认为还有100元的预算可以灵活使用,判断错误。

LinkAI无法回答该问题。

问题二:“我的各项费用都符合公司的报销标准,得到了公司的允许。其中交通费和住宿费花了3000元,招待客户花了800元,我报销差旅费3800元对吗?”

原文如下:

这道题需要智能体判断出招待费报销并在不差旅费项目中,而应以招待费项目报销。

扣子回答正确,明确指出招待费不在差旅费中报销,由此给出报销的差旅费应是3000元。

文心智能体没有给出是否应以差旅费报销的答案,没有做出正确的判断。

司马诸葛提到交通、住宿费3000元属于差旅费,800元属于招待费,应分开报销,判断正确。

智谱清言智能体给出的结论是总差旅费是3800元,回答错误。

腾讯元器同样也做出了错误的判断。

LinkAI 提出最终报销的差旅费是3000元,做出了合理的判断。

问题三:“行政部经理去大连出差的住宿标准”。

原文如下:

智能体需要先从「差旅费报销标准」表格中判断行政部经理在表格中对应的级别为三级人员,再通过「地区分类及住宿标准」表格中判断大连属于二类城市(省会城市),并正确推理出正确答案。

扣子回答的是每晚不超过400元,对应的是三级人员去一类地区的住宿标准,回答错误。

文心智能体回答的是不超过500元,回答错误。

司马诸葛回答的是每晚300元,回答正确。

智谱清言智能体没有给出具体的答案。

腾讯元器回答的是300元,且推理思路清晰,先给出行政部经理的级别,再结合大连属于二类地区,给出正确答案。

LinkAI回答的是180元,这个数字并没有在表格中出现,回答错误。

在第三个维度中,没有任何一家智能体全部回答正确,扣子、司马诸葛、LinkAI的表现尚可,回答对了两道题,其他智能体的回答结果令人不太满意。

测评全部结束!本次测评重点只是企业级智能体在AI知识库领域的应用能力。受限于本次测评的提示词、提问方式及文档内容的差异,测评结果无法全面反映智能体们的真实水平。因此,本次测评结果更多地是为企业家们提供了一个企业应用的参考方向。

目前智能体们能为企业做什么?

从测评结果看来,目前智能体们已具备了基本的能力,可在企业的某些领域发挥价值。

1.优化企业内部流程

智能体可以通过在线企业内部知识库,帮助员工快速获取所需信息,减少重复沟通。智能体可以使任务自动化,通过自动执行重复性、低价值的任务,智能体能够释放员工的时间,帮助团队合理分配人力资源,让他们专注于更高价值的工作,适用于企业行政、培训等环节。

2.为企业客户服务提供支持

企业可以利用智能体处理常见咨询,提供即时反馈,减少客户等待时间,提高客户满意度。此外,在处理复杂问题时,智能体能够准确识别用户意图,从而给出个性化的解决方案,适用于企业客服、销售等环节。

3.为企业提供决策支持

智能体通过分析大量的背景资料和数据,提炼出关键信息,并将其以结构化的形式呈现。这种能力在企业进行市场调研和数据分析时尤为重要。企业可以利用智能体快速获取市场趋势、客户反馈和行业动态,风险管理和预测提供了强有力的支持。

作为一个企业经营者,我深知智能体在推动企业数字化转型中的重要性。每个智能体都具备独特的优势和专长,随着技术的不断升级和迭代,这些智能体在不断提升自身能力,赋能企业的未来。我期待看到这些智能体能够跨越界限,形成强强联合,以其各自的优势相互融合,为我们企业带来真正的解决方案,帮助企业突破瓶颈,实现高效运营与创新发展。我相信,通过协同合作和智慧共享,企业AI的全面落地指日可待。

刘小锋
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
刘小锋
刘小锋
发表文章1
琢磨AI生产力
确认要消耗 羽毛购买
对比了6家国产智能体,我找到了企业落地AI的方向吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接