APP推广合作
联系“鸟哥笔记小乔”
文生视频大模型,短视频的过弯点?
2024-07-30 16:34:51

来源 | 伯虎财经(bohuFN)

作者 | 楷楷

随着今年初Sora的横空出世,这个可以创建长达一分钟视频的文生视频模型就成为了国内厂商追逐的焦点。

6月初,快手自研的视频生成大模型“可灵”正式上线。可灵AI采用了与Sora相似的技术路线,能够生成具有合理运动和模拟物理世界特性的视频。

截至目前,已有超百万人排队申请内测资格,其中超30万人已获得试用资格,累计生成超700万条短视频。近日,可灵AI终于宣布全面开放内测,同时上线付费会员体系。

其他厂商也在迅速跟进。7月,智谱AI 推出AI生成视频模型智谱清言,用户可在30秒内免费生成6秒视频。

目前来看,被称为“国产版Sora”的可灵AI不仅热度颇高,用户对其评价也不错,在Sora横空出世却迟迟未有完善产品落地的背景下,可灵AI甚至被视为“业内最佳”。

文生视频大模型目前效果如何?为什么厂商们纷纷开始卷文生视频大模型?对于短视频的竞争格局会有哪些影响?

1、剑走偏锋,“可灵”大力出奇迹

可灵AI上线至今还不够两个月,已经经历了三次迭代更新,从最开始的文生视频,到现在已可支持图生视频、视频续写、多尺寸选择,在生成细节、构图、运镜美观性、光影方面都有很大改善。

据快手视觉生成与互动中心负责人万鹏飞表示, 可灵AI生成的视频分辨率高达1080p,时长最高可达2分钟(帧率30fps),单次文生视频时长已增至10秒,这一指标已超越了目前市场上大多数视频生成工具。

当下,布局文生视频赛道的大厂和创业公司并不少,不过大部分都没有公布文生视频模型的参数量级,快手也表示“不便透露”。因此,各企业均主要围绕生成视频的时长、视频的分辨率等指标展开比拼。

目前来看,能实现“分钟级”内容生产能力的,之前仅有Sora一颗独苗,能够生成长达60秒的高清视频,现在可灵AI则刷新了这一指标,将生成视频时长拉长至2分钟。

纵观其它同类竞品,腾讯宣布旗下文生视频模型生成时长达到了16秒,预计在三季度达到20秒;字节旗“即梦”最长支持生成12秒视频;美国创企Runway支持生成10秒左右的视频,最多可延长至18秒,但大部分文生视频产品的生成时长都在10秒左右。

所以,光看“时长”这一点,可灵AI确实暂时处于领先状态;而从“生成内容”这点来看,大部分用户的评价均是“远超预期”。

比如跟Runway的Gen-3相比,其只有文生视频功能,但没有图生视频功能;而可灵AI通过迭代新增的运镜控制、首尾帧自定义等功能,也获得了用户的一致好评。

当然,可灵AI也还称不上“完美”,有用户认为其对艺术风格、摄影语言容易把握不准确,但在“吃东西”这一领域,可灵AI的表现要比其他产品更优秀,这可能也跟快手短视频更擅长真实画风有关。

虽然,目前还不能说可灵AI已经能在业内“一骑绝尘”,但至少已做到了“一鸣惊人”,这样的成绩背后,则是快手版的“大力出奇迹”。

程序员出身的快手CEO程一笑,早在去年初快手就启动新的AI战略,聚焦大语言模型、视觉生成模型、多模态模型等方向。

去年10月,快手重启了一个名为“噗叽”的项目,是一款将静态图片生成Gif表情包的工具软件,这也是可灵AI的前身。

真正的变量则是今年初Sora的重磅发布,这让万鹏看到了DiT(新型视频生成架构)的可行性,快手才开始探索打造“中国版Sora”。

据自媒体“硅星人Pro”报道,可灵项目开始后不到一个月,就获得了程一笑的支持,上升为公司战略级项目。可灵团队也很清楚,项目就是要赶在前面,抢先市场,否则就没有意义。

可灵AI从3月立项到6月上线,仅仅花了3个月的时间,除了快手内部的资金、资源向其倾斜之外,技术大牛的加入也加速了可灵项目的研发创新,比如曾任腾讯AI实验室高级研究员的王鑫涛加入了快手视觉生成与互动中心。

引用知乎用户“小林不加班”的回答,可灵AI采用了类Sora的技术路线,并结合了多项自研创新技术,对视频处理、生成能力以及空间压缩,这三个问题进行优化,使得模型效率和性能提高、能够捕捉到更宽广的特征范围,模型对细节的识别能力也随之增强。

文生视频大模型,短视频的过弯点?

2、大厂加速,押注下一个爆款

想做“中国版Sora”的可不止快手,据晚点LatePost报道,今年一季度,字节 AI 研发团队将视频生成模型的优先级排在了前面;百度在年初推出的视频生成模型UniVG,也被业内视为与Runway Gen-2相当。

另外,文生视频领域开源产品的能力也在提升。今年3月,潞晨科技开源了旗下Open-Sora 1.0视频生成模型,目前能单次生成大概20秒的视频,随着开源平台的普及和能力提升,未来或许还会有更多文生视频应用落地。当然,还有业内公认最强的对手Sora。

厂商们之所以纷纷下注,一方面是因为行业内确实存在海量的需求。相比于语言,视频和图片更接近文字,国内一些企业包括美图等,早已支持“一键AI美颜”的功能。

另一方面,随着“百模大战”逐渐退烧,当下的大模型企业已经不再盲目追求通用大模型的规模,而是更倾向将大模型集成到产品和服务,解决实际问题并创造真正的商业价值。

而快手之所以能够先拔头筹,首先是因为快手作为头部短视频平台,积累了大量的视频内容,同时还通过智能算法对这些内容进行细致的分类和标注,这些视频数据已经被“清洗干净”,可以直接供可灵AI使用。

而在硬件储备方面,一直以来,快手与英伟达就基于视频处理有着深度合作。早在2019年,快手便联手英伟达部署GPU计算基础架构,能让业务性能平均增长了2倍,成本较之前节省了 30% 以上。快手在算力方面的未雨绸缪,也为可灵项目的快速推进打下了基础。

最后,当然是快手给了可灵项目最大的资源协调,有别于字节、阿里、腾讯等大厂,它们不仅要投入通用大模型的研发,旗下也有不止一个AIGC项目,“桃子”那么多,哪个最先成熟,似乎还得看时机。

不过,即便可灵AI已经“先跑一步”,也并不意味着其就能安枕无忧。一来,目前在文生视频领域并不存在断层式的技术领先。

爱诗科技创始人王长虎表示,Sora最重要的贡献是验证了视频生成的规模定律。今年以来,文生视频领域之所以能够快速发展,正是因为Sora的出现验证出了一条技术可行性的道路。

但既然文生视频在技术上没有秘密,接下来类似产品拼的无非是算力规模、训练数据等。业内人士预计,目前各家大模型厂商都具备了视频生成能力,只是碍于算力成本以及视频效果而未有全面铺开,但这也不过是时间的问题。

二来,若只论算力,快手在国内只算是第二梯队。中信证券曾简单估算,生成一个60帧的视频(约6至8秒),Sora要生成至少约120万个token,推理算力需求远大于文生文。

如果可灵AI持续迭代,将会对快手提出更高的算力要求,在全面公测以后,快手还能否继续向用户增加生成视频的时间,等待时间会否越来越长,其算力“天花板”到底在哪里,恐怕只有快手自己知道了。

事实上,包括快手在内,国内同行在文生视频领域均采取较为现实的推进方式,即保持研发进度,阶段性地产出落地。简单来说,就是先做产品再优化,赶进度先拿下市场。

3、快手试水商业化,意在生态

Similarweb数据显示,可灵AI在6月初开放之后,网站用户流量呈现上升态势,7月用户峰值接近10万DAU水平。月狐iApp数据显示,接入可灵AI的快影App,7月后周均DAU较6月初提升了100万左右。

可灵AI用户快速增长背后,一方面是因为用户对文生视频的“好奇”。月狐数据对与可灵AI相关的社交媒体用户评论数据进行了分析,用户情绪主要表现为好奇、兴奋、期待和满意。

文生视频大模型,短视频的过弯点?

另一方面也少不了快手的助推。比如在快手平台中,带#可灵#相关话题标签的作品会获得更多流量扶持;可灵AI也推出了AI相关的内容创作活动,包括可灵AI x 快影视频创作大赛、复活古画定向话题投稿活动。

用户规模是产品商业化的土壤,基于此,外界对于可灵商业化的想象空间也被进一步打开。目前,可灵AI已经上线了付费会员体系,分为黄金、铂金、钻石三个级别,月卡价格分别为66元、266元和666元,对应生成约66个、300个或800个标准视频。

对比Runway Gen-3 Alpha最低12美元/月;Luma Dream Machine标准版29.99 美元/120次的价格,可灵AI的定价并不算高。而且,据接近快手人士透露,可灵AI暂无商业化计划。

这就意味着通过会员模式来盈利,还不是可灵的首要目的。万鹏曾公开表示,(可灵出现以后),视频创作的门槛和效果的ROI大幅度提升,视频创作者和消费者界限逐渐模糊,越来越多消费者变成创作者,对于视频创作生态的繁荣是非常有价值的。

以最近的《山海奇镜之劈波斩浪》和《三星堆:未来启示录》为例,前者是抖音和博纳合作的AI科幻短剧,后者则是快手原创的AI奇幻短剧。毫无疑问,AI技术可以极大程度的丰富平台内容。

因此,争夺更多内容创作者,繁荣快手平台生态,才是可灵AI的当务之急。据快手2024年一季度财报显示,快手实际月活人数为6.97亿,较上一季度环比下降0.4%,呈现流失趋势。

通过引入可灵AI,不仅能帮助创作者降低创作门槛,提升短视频制作质量和效率,也能为快手的内容生态注入新鲜能量。比如在B站等内容平台中,用AI二创视频就成为了热门话题,在快手平台也有不少关于影视的梗图创作。

但在帮助内容创作者变现的同时,快手也打好了“提前量”。今年6月,快手电商发布了使用AIGC能力直播的倡议公告,鼓励商家/达人和老铁们进行良好互动,但对于使用AIGC能力辅助创作的内容相较于其他实时直播内容,平台不会给予特殊的流量扶持,避免商家滥用AIGC带来大量低质量视频内容。

或许,可灵AI不是快手内容生态的“灵丹妙药”,但有噱头就有热度,目前快手需要的正是这份“繁荣”。

近年,快手的直播收入出现了下滑的趋势,但今年一季度其广告、电商业务都有双位数的增长,这意味着快手从去年底开始放开泛货架场景流量入口的策略已经起效。但货架电商的核心是搜索,这就驱使快手不得不将内容繁荣放在第一位,只有更多的人气,才会有更多的搜索。

接下来,探索新的内容形态将会是AIGC时代下的短视频发展的必经之路,而快手的“一小步”,将是整个短视频行业的“起步”。

虽然快手似乎无意加速商业化,但可灵AI却一定需要商业化,毕竟烧钱以亿级起算的大模型是个无底洞的吞金猛兽,快手也不能无限地提供子弹。

将目光从C端转移到B端或更有可能,据内部人士透露,可灵AI将部分内测名额给了电商合作比较频繁的MCN机构如遥望科技和大品牌,或许也有测试电商行业素材的考虑。

有业内人士表示,拍摄一条高质量3D动画视频,成本要按秒来计算,几十万成本也下不来,而可灵、Sora的出现可以起到增强作用,比如视频某个镜头不行就用AI视频来填充。

当然,要实现这样的效果,整个视频生产大模型行业还需要持续进化,但对于“可灵们”来说,这样的路径才更为现实,不仅能够改变短视频生态,还可以赋能产业端,比如通过学习爆款视频的文本结构,一键生成与商家产品素材匹配的视频。

目前,各大厂都在卷大模型,但诚如百度李彦宏所言,应用才是大模型落地的根本。“可灵们”的第一步是繁荣内容生态,但更关键的却是第二步,如何让大模型赋能生态,为平台带来增量效益,才是“可灵们”要思考的问题。

伯虎财经
公众号二维码
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
伯虎财经
伯虎财经
发表文章367
伯虎财经
超100万人关注的财经媒体。伯虎团队聚焦头部企业,以深度原创为特色,为你发掘精彩的商业价值。公众号:伯虎财经(bohuFN)
确认要消耗 羽毛购买
文生视频大模型,短视频的过弯点?吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接