APP推广合作
联系“鸟哥笔记小乔”
快手可灵比肩Sora,能否成为快手新引擎
2024-07-11 11:40:26

去年生成式AI大语言模型引发了一波前所未有的科技狂潮,无论是科技巨头还是新兴独角兽都在争前恐后研发规模更大、性能更强的模型,言必称“GPT4”对标程度超越曾经的苹果。

不过国内大模型这么多哪家是第一,各种榜单给了我们不同的答案,或许“文无第一”吧。但在生成式视频领域,快手的可灵模型可以说是暂时领先没有对手。

01、国内视频大模型可灵暂时领先

就在六月初,猎豹移动董事长傅盛在体验过后甚至表示,“甚至我觉得也吊打了Sora,我认为这个产品今天,在我能使用的范畴内就是全世界第一的。”而他口中,能吊打国内外各个文生视频模型的产品,就是快手可灵视频生成大模型。

有业内人士指出,Sora是今年2月公布的,其训练有可能在去年年底就完成了,可灵多出几个月的训练时间。更进一步来说,能调用更多的训练算力,是可灵的优势。但论算力的话,快手只能算国内第二梯队,只有大约数千张大卡,根据多方信源估计,文生视频大模型生成一分钟1080P视频至少要消耗100万Token,推理算力需求远大于文生文。所以这并非大力出奇迹的故事,那么快手是如何做到的呢?

在架构选择上,快手大模型团队采用的方案,是类似Sora模型的DiT结构,使用Transformer替代了传统的卷积U-Net。这一转变增强了处理和生成能力,解决了U-Net在处理复杂任务时冗余、感受野和定位精度的问题。

三个问题的优化,使得模型效率和性能提高、能够捕捉到更宽广的特征范围,模型对细节的识别能力也随之增强。

而快手自研推出的3D VAE网络,实现了时空同步压缩,相较于Stable Diffusion所用、存在明显的信息冗余的2D VAE空间压缩方案,获得了较高的重建质量的同时在训练性能和效果也取得了最佳平衡。

简单来说“可灵”大模型采用了类Sora的技术路线,并结合了多项自研创新技术。这些技术使得生成的视频不仅展现出电影级别的画质与动态效果,还能模拟大幅度的物理运动。

那么该如何评估快手可灵的技术水平?还是用傅盛的话来评价,用猎豹傅盛的话来说,“可灵的成功,更加证明了,Sora并不是一项技术性突破,而是产品型图片”。这并不是说快手的技术不行,而是目前在视频生成领域并不存在断层式的技术领先,也就意味着可灵的成功是算法、算力、产品之间最优的商业产品,是足够快手人骄傲的产品。

但也正因为如此,因为不存在绝对领先接下来还是要卷算力、卷数据、卷同行,一场没有终点的消耗综合实力的长期马拉松。

02、商业化落地是最难的路

科技媒体The Information报道称,包括微软、亚马逊和Google在内的云厂商和其他销售该技术(指生成式AI)的公司,正在降低自己的预期。一些人已经在担忧生成式AI吹出来的泡泡会不会已经太大了,它是未来,但可能不是现在,就像互联网如今已经是一门万亿美元级别的生意,但并不妨碍千禧年时吹出的互联网泡泡的爆炸结局。

一大批在2023年晋升为独角兽的美国AI公司,已经落入理想难以兑现的窘境。曾经在AI独角兽上排名前3的Inflection两位联合创始人跳槽,微软以6.5亿美元价格获得其模型授权。

排名仅次于Inflection的另一家AI独角兽Cohere也被传出融资困境。这家公司自去年12月就开始寻求以60亿美元估值融资5亿美元,迄今没有确定交易,而它上一轮融资还停留在去年6月。

AI现实主义投资人朱啸虎指出,大模型是很差的商业模式。问题是技术没有差异点,而且每一代技术比如3.5可能就要几千万美金,4.0可能要几亿美金,5.0可能要几十亿美金,每一代模型你都要重新去砸钱,而且你变现周期可能就两三年,这比发电厂还要差。

对于快手来说,融资问题可能并不紧张,但目前可灵并没有展现很强的业务能力实现商业闭环。单点工具的价值目前认可度并不高,国内有妙鸭相机,国外有Suno、midjourney。往往这类产品盈利模式单一,主要就是充会员和买积分购买服务。更何况目前还是免费的可灵。

好用也不等于付费高。

典型的就是GPTs应用商店多数应用需要付费使用, The Information 的报道提到,一位开发人员分析了 3.6 万多个 GPTs,其中约有 5% 每天有 150 至 500 名活跃用户,但绝大多数每天只有 1 到 2 个用户。

就连GPT本身地表最强AI付费用户比例也不能算高,2023 年 11 月,ChatGPT 的每周活跃用户数已达 1 亿。热闹归热闹,付费率没有想象得高。有人估计,ChatGPT 付费用户大概在 500 万到 800 万之间。

而快手可灵的数据相比就更一般了,可灵唯一的使用渠道就是快手创作工具快影 App,但快影 App 的下载数据并没有太大的波动。根据七麦数据,App Store 近七日日均下载量仍旧维持在 2 万左右,在应用(免费)和摄影与录像(免费)榜单上的排名依然保持稳定,并没有太大的变化曲线。

未到终局“群狼环伺”。

事实上,腾讯和字节等互联网公司,同样拥有视频生成大模型,只是尚未完全公测或者效果不尽人意。字节跳动剪映旗下的产品「即梦」就具备短视频生成功能,可以选择运镜类型、视频比例和运动速度,生成 3-6 秒的视频,但在视频呈现效果和时间长度上,并没有展示出比肩 Sora 的优势。不过字节已经计划重新发布类Sora产品。

来自生数科技的Vidu 发布时,一度宣称自己是「中国版Sora」,官方演示的确不错,但后续乏力,还需要更多观察。另一个被认为可与 Sora 对垒的是 PixVerse,来自爱诗科技,五月时发布了最新的「魔术笔刷」功能,能够更精准地控制画面局部动态。

更不要说老牌生成式 AI 平台 Runway 近期在官网宣布,其文生视频模型 Gen-3 Alpha 向所有用户开放使用。Gen-3 在转场设计和镜头运动方面提升明显效果惊艳,意味着有一定创作能力的用户,可以这样关键的创意节点上,借助文生视频工具生成影像方案预览。这样的应用才意味更多创作可能,离商业会更进一些。

可灵大模型很强但还不够强。

可灵在技术上还和Sora有一定差距,除了语义理解问题、生成画面有时不符合物理世界规律、真实性差等“硬伤”外,“画风质感一言难尽”“美观性欠佳”“快手味过浓”也是被频繁提及的关键词。

根据接近快手人士透露,当下,可灵暂无商业化计划,也不对外提供API。这就意味着,从投资层面来看,可灵对于快手近几个季度的业绩并无太大贡献。而从快手近期在二级市场的表现来看,也可以印证,可灵似乎对于快手的帮助不大。。

在快手视觉生成与互动中心负责人万鹏飞演讲中,在谈到可灵的未来时曾提到,“视频创作的门槛和效果的ROI大幅度提升,视频创作者和消费者界限逐渐模糊。越来越多消费者变成创作者,对于视频创作生态的繁荣是非常有价值的。”

快手可灵比肩Sora,能否成为快手新引擎

不过目前惊艳的AI作品还比较少,更多是关于影视的一些梗图创作,低质量的AI作品充斥平台。快手显然也明白这一点,今年6月,快手电商发布了使用AIGC能力直播的倡议公告,称“我们更希望看到真实的直播内容,鼓励商家/达人和老铁们进行实时良好的互动,建立更加深厚的情感,同时,有意利用AIGC的低成本优势生产出的低质量内容更是平台不愿意看到的内容生产行为”。因此,“使用AIGC能力辅助创作的内容相较于其他实时直播内容,平台不会给予特殊的流量扶持。”

快手可灵比肩Sora,能否成为快手新引擎

可灵在投入上限上快手并没有计划表,烧钱以亿的大模型是个无底洞的吞金猛兽,如果快手不能提供无限子弹后续还真不好说。大模型行业此前公开过相关数据,大模型要实现 Sora 类似的水平,就需要有千卡级别的算力,进一步优化能力则需要万卡级别的算力,这意味着需要大规模算力集群的调动能力,比黄金还贵的AI显卡在当下是稀缺资源。

相比快手可灵的C端打法,投资人更青睐字节的大模型策略,快手在大模型上的策略仅仅有可灵依然是不够的。字节跳动豆包大模型最明显的策略和标签就是成本低,通过价格战大幅降低模型推理的单位成本,吸引 B 端客户进入火山引擎的云服务之中。有了大量B端付费用户其运营成本会进一步降低,实现效益更好的生成式视频模型不在话下。可灵一定需要商业化,C端跑通可能比B端更困难。

03、大模型卷起来不是坏事

大模型竞争依然处于初期,语言大模型还是多模态大模型都是如此,如何把应用落地做好,把成本最低,依然是当下大模型行业面临的共同命题。

从某种程度上,目前可灵战略意义大于商业意义,快手需要大模型在行业立足,无论是对快手内容生态还是商业开发上面,做好视频大模型有益无害,比别人多走一步同样是领先,这点不用质疑。

正如百度创始人李彦宏在 WAIC 上所说:

去年的百模大战造成了社会资源的巨大浪费,尤其是算力浪费,但同时也使得中国追赶世界上最先进基础模型的能力得到了建立。

李彦宏呼吁行业不要卷模型,要去卷应用,没有应用,光有一个基础模型,不管是开源还是闭源都一文不值。

所以属于可灵们的时代才刚刚开始。

巨头财经
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
巨头财经
巨头财经
发表文章42
初心向善,陪伴成长。公众号:巨头财经(jutoucaijing)
确认要消耗 羽毛购买
快手可灵比肩Sora,能否成为快手新引擎吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接