APP推广合作
联系“鸟哥笔记小乔”
Siri打开了手机的嘴,豆包接通了大脑和手脚
2025-12-03 10:40:40

作者|古廿

编辑|杨舟

吃上豆包的手机先迈一步。

12月1日,字节跳动豆包团队发布了一段视频,演示了豆包手机助手的一系列能力。

从视频中的场景看,豆包手机助手的能力覆盖跨应用执行流程、屏幕内容读取、多模态识别、系统级唤醒、跨平台比价下单、远程控制汽车等操作。在开启记忆功能后,执行路径所需的询问也明显减少,具备一定连续任务能力。

这些能力几乎覆盖了过去数年间用户对于“AI手机助手”想象中的典型使用场景。因此尽管目前仍处于技术预览阶段,但还是使语音助手这个沉寂多年的手机能力,被重新放到了主流视野的讨论范围。

这款手机助手并非单一的App,而是以和手机厂商合作的形式推出。目前演示所用机型来自豆包与中兴合作的一款设备,前者主导AI助手的产品定义与交互体验,后者负责硬件研发与制造。

发售仅一天,12月2日据中兴商城显示,首款搭载豆包助手的合作机型已显示“售罄”。对于备货和销量数据,努比亚方面对外公开表示,“目前暂时没有销量数据,因为是第一款,少量对外发售。”

在二手平台闲鱼上,该机标价普遍在4200元至4999元之间,较官方定价溢价700至1500元不等。豆包方面表示,目前并没有开发手机的计划,现阶段推进的方向是与多家手机厂商进行合作落地。

手机助手并非新鲜概念,其在智能手机中存在已久,但定位始终模糊。几乎所有主流厂商在系统更新中都延续了语音助手的入口设计,但它从未成为用户购机决策的关键因素。

背后的原因并不复杂。在多数用户的真实体验里,语音助手能回应,却帮不上忙。过去十年来,语音助手的能力上限基本停留在识别语句、回答问题、打开应用,长期游走在对话交互的界面。

从时间线来看,2011年Siri随iPhone4s推出;2016年Google Assistant发布;国内手机厂商也在此后不断补齐本地化能力。从用户视角看,它们仍然属于同一代产品:可以理解意图,但无法真正代替用户完成任务。

近期行业出现了久违的变化。先是谷歌上个月宣布将在2026年停用Assistant语音助手,把系统级交互入口迁移至Gemini;接着国内本月,字节发布豆包手机助手预览版,实现让AI执行跨应用操作,而不是仅停留在语义对话。

这两件事虽然相隔不同市场,但方向一致:手机助手或许将要走出嘴勤手笨的体验困局了。

01 从一问一答到跨应用执行

乔布斯曾在介绍Siri时说,它不是搜索引擎,而是人工智能。如果语音助手具备学习能力,且长期与数亿用户交互,照理说,它的表现应越来越接近自然语言交流,而不是反复回到“对不起,我不明白你在说什么”的原点。

2011年,iPhone 4S发布会上,Siri首次亮相,标志着语音交互作为系统级能力被引入智能手机。Siri的英文全称是“Speech Interpretation & Recognition Interface”,也即强调语义识别而非命令触发。

在当时,这种一问一答的模式代表了人机交互的一次方向性突破。接下来的十年,这个方向并没有持续推进。

以Siri为代表的语音助手,其功能范围不断从语音控制电话、短信,扩展至语音字幕、智能通话、识屏、家居联动等系统能力。但最核心的能力:理解并执行任务,一直停留在语音问答阶段,几乎没有实质性进展。

这也是为什么,豆包手机助手的演示视频能重新激发行业关注:它不再是对话界面,而是执行界面。产品的核心转向,是将语音助手从“信息返回”升级为“任务完成”,将用户语义直接转译为一整套操作路径。

它关注的不是陪你说学逗唱解闷,而是可以帮助你完成什么任务。

例如,在比价购物场景中,用户只需说一句:“帮我把这瓶洗发水在我所有购物软件上比价并选最便宜的下单”,助手便会自动在淘宝、京东、拼多多、抖音商城等App中依次搜索、比价、自动领券,筛出最低价后停在支付页,等待用户确认,避免自动扣款带来的误操作或越权风险。

再如图片处理,用户说“把这张照片里的人去掉”“把背景清理一下”,助手可以自动识别目标区域、调用图像编辑工具并完成操作,无需用户打开App逐步执行。

甚至在更复杂的跨场景链路中,豆包也游刃有余。用户可一次性发出多个指令,如:“订阅这个播客的更新并加入播放列表 → 打开特斯拉前备箱 → 订一个今晚八点半的餐厅”,助手将依次在对应App中完成操作,串联起本地应用与线下行为。

手机助手从回答问题,到完成任务,这一步花了十二年才真正走出来。

02 原生的AI交互体系

能够实现跨应用、多场景执行的手机助手,并不只是语义理解能力的堆叠。支持豆包手机助手能力的,是两个体系的同时成立:模型的执行规划能力和系统层面的原生接入能力。

首先是模型层面。豆包模型不仅做语义理解,还做界面理解与操作规划。它能够识别屏幕中的文本、按钮、布局、步骤逻辑,从而生成稳定的操作路径。最终呈现出不是“告诉用户怎么做”,而是“手机助手完成一系列点击和输入”。

这与传统语音助手停留在响应指令不同,本质上是一套GUI操作能力。

这套能力的核心是豆包在推理、视觉理解、图像创作、视频生成、语音等方面的性能达到国际一流水平,图形界面操作能力更是在多项权威评测中获得业界最佳成绩,可以像人类一样操作手机,完成各种复杂任务。

其次是交互层面。豆包手机助手并不是一个独立App,而是通过与手机厂商合作,在操作系统层获得了调用权限。这意味着模型不再运行在应用层,而是能够调度系统资源,跨应用组织动作。

在豆包手机助手发布的技术预览版演示视频中可以看到,AI助手在与手机厂商深度合作后,可以将豆包大模型融入原生交互体系,在手机使用的任意环节实现直接调用。

从演示视频看,两种能力结合后呈现的交互方式发生了明显变化:

用户无需复制内容或切换App,在任意界面都可以直接发起询问;屏幕内容会被即时理解,例如对照片提问“这个景点在哪”“是从什么视角拍的”,助手直接返回信息;原豆包生态中的语音通话、视频通话、屏幕共享等能力被系统级集成,仅需双击AI键即可进入实时对话。

两种体系能力的叠加下,豆包手机助手不再是一个额外功能,而是成为融入系统底层的能力。这意味着,大模型第一次不是作为“插件”存在,而是开始嵌入到系统级交互之中,成为手机操作链路中的一个原生AI节点。

03 AI原生手机的完全体

从演示内容来看,目前展示的能力还可以自定义个性化。豆包手机助手提供可选的记忆功能。在用户授权情况下,助手可以通过常用的个人偏好,提供更符合个人习惯的执行路径规划。

同时,豆包还探索了操作手机Pro模式。相较于基础模式依赖GUI Agent的逐步点击,Pro模式可以直接调用系统工具,并结合记忆数据规划操作方案。这一模式的关键转变,在于从逐条指令执行转向对用户真实意图的整体把握。

发布视频中的示例体现了这种差异:

用户说“帮我给女儿推荐几个礼物放进购物车”,在基础模式下,这是一个至少包含多个搜索、筛选和下单动作的复杂任务;而在Pro模式中,如果记忆中已记录孩子的年龄和兴趣,助手会直接聚焦与其匹配的商品并加入购物车,无需用户逐条补充条件。

跨应用执行解决了能做,记忆和Pro模式尝试解决该怎么做才合理。

需要强调的是,尽管此次演示内容为真实录制,但豆包仍将其定义为技术预览版本。官方提示,大模型当前阶段仍存在不确定性,无法保证在所有场景中稳定复现。这意味着方向已经清晰,但距离产品层面的完全体,仍有一定距离。

不过,即使尚在早期阶段,豆包手机助手在“执行权的可控性”上,已体现出一套较为完整的系统设计。当前演示中至少呈现出三层可控机制:

其一,任务状态可视化。当手机由助手执行任务时,屏幕将呈现动态光效提示;即便用户中途接管操作,屏幕边框仍显示任务提示,避免后台运行造成的信息不对称。

其二,状态栏胶囊机制。在无前台界面的情况下,所有任务进展均通过胶囊形式呈现在状态栏,涉及支付或授权等关键节点时,系统亦会发出明确提醒。

其三,信息补充机制。用户可在任务执行过程中随时进入交互界面,通过补充入口增补必要信息,保障任务结果的准确性和实用性。

这些机制背后的核心逻辑并非追求“最大限度自动化”,而是在明确边界下实现“透明、可中断、可协商”的自动执行能力。

值得注意的是,豆包手机助手的出现并不是一项孤立现象,而是在全球智能手机产业中出现的同类指向。

谷歌上月宣布2026年停用Assistant,将系统级入口迁移至Gemini;Gemini与三星合作的系统级Agent也正在落地测试。行业共识逐渐显现:手机厂商+大模型厂商的深度合作,而不是厂商单独构建语音助手,是新一代手机落地AI的主路径。

从助手入口向系统能力跃迁,手机行业关于AI操作系统的探索,可能正进入到更清晰的阶段。

市象
公众号二维码
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
市象
市象
发表文章182
市象
世界视野,市象洞察。
确认要消耗 羽毛购买
Siri打开了手机的嘴,豆包接通了大脑和手脚吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接