很可惜 T 。T 您现在还不是作者身份,不能自主发稿哦~
如有投稿需求,请把文章发送到邮箱tougao@appcpx.com,一经录用会有专人和您联系
咨询如何成为春羽作者请联系:鸟哥笔记小羽毛(ngbjxym)
作者 | 浩然
来源 | 商隐社
OpenAI在2月16日凌晨发布了文生视频大模型Sora,在科技圈、媒体和朋友圈引起一连串的震惊和感叹。
一时间,OpenAI官网公布的由Sora生成的炸裂般视频在网上广为流传。
利用Sora,只需要输入一段文字提示语,就能得到一段长达60秒的视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动,几可乱真。
网友纷纷惊呼AI要让电影、短视频、游戏等行业变天,更有人夸张地惊呼“现实世界不存在了!”。
人类被AI替代似乎又近了一步。
这件事让我们惊叹Sora掀起的新一轮技术变革浪潮,或许不久之后,普通人制作视频的门槛大大降低,复杂的拍摄、剪辑等工作都会被略掉,人们的想象力和创造力成为视频内容竞争力的最核心来源。
于是,“一人公司”和极小规模团队也有机会完成以往投入巨大人力、成本的电影和视频内容。
技术浪潮卷起千堆雪,我们有惊叹和期待,也有被替代和拍碎的担忧。
但这几天我观察到,站在技术制高点上的科学家和很多业内人士讨论最多的还是Sora的“世界模型”问题。
Sora生成视频具有极其逼真的画面和连贯性,有的不仔细看几乎看不出是AI生成的,这并不简单,需要机器懂现实世界的结构、细节、运动足迹、光影变幻等规律,不违反人的认知,之前一些大模型生成让人啼笑皆非的图片,就是明显不符合现实世界事物的运行规律。
所以有人认为Sora懂物理世界,有了“世界模型”的雏形。
AI的世界模型其实可以看作是其心智模型,反映了人工智能系统对自身和外部世界的认知和期望。
拿人类的世界模型来说,“模型”这个词意味着我们了解的所有知识不是以一堆事实的形式储存起来的,而是以一种能够体现世界和它所包含的一切这种结构组织起来的。
我们不会记住关于每件物品的一系列事实,而是在大脑中构建了无数个模型,像“城门楼子”“胯骨轴子”的模型,就不是一回事,各自是什么形状、怎么排布以及不同的部分是如何移动和配合工作的。
而为了认出某样东西,我们会知道它的外观和触感;为了实现目标,我们会了解世界上的事物在与我们互动时的典型表现,比如咬了一口苹果,会有什么样的咬痕。
但很多科学家认为Sora并不懂物理世界,没有“世界模型”。
比如图灵奖得主杨立昆(Yann LeCun)就认为,仅根据prompt生成逼真视频并不能代表一个模型理解了物理世界,生成视频的过程与基于世界模型的因果预测完全不同。
而深度学习框架“Keras”的作者、谷歌人工智能研究员弗朗索瓦·肖莱(François Chollet)认为,像Sora这样的视频生成模型确实嵌入了「物理模型」,但问题是:这个物理模型是否准确?它能否泛化到新的情况,即那些不仅仅是训练数据插值的情形?
Sora生成视频也确实出现了不少瑕疵,比如“蚂蚁巢穴内爬行”的POV镜头,仔细看只有4条腿;“人在跑步机跑步”的视频是反方向;“一只大鸭子走过波士顿的街道”中鸭子把人踩没了。
对此,英伟达高级研究科学家范麟熙(Jim Fan)表示,我们可以从两个角度来解释这个问题:
(1)可能是因为这个模型根本没有掌握物理知识,它仅仅是在无序地拼凑图像像素;
(2)模型确实尝试构建了一个内部的物理引擎,但这个引擎的表现还不尽人意。
业内人士认为,Sora用了“大力出奇迹”的方法,用大量数据、大模型和大量算力,底层采用了游戏、无人驾驶和机器人领域验证的世界模型,构建文生视频模型,达到模拟世界的能力。
但这就像通过大量“读图”学习世界运行的规律,虽然也是合理的,但类比人,仅“睁眼看世界”是学不会牛顿定律等物理学可以演绎的世界规律的。
人类最终不是通过模仿鸟类,而是通过理解空气动力学而发明了飞机。
Sora确实是AI的又一个里程碑时刻,必将大力简化人的劳动,减少人的“工具人”属性,可以用来辅助甚至部分担纲某些工作,但真正替代人或者说颠覆现实似乎还为时尚早。
所以关键或许还是在“世界模型”,那问题来了,我们自己是怎么构建世界模型的?
前段时间读了一本书——计算机科学家与神经科学家杰夫·霍金斯写的《千脑智能》,恰好回答了人类是怎么建立起世界模型的,而他认为AI要真正实现智能,还是得从人的大脑中探寻。
一般来说,复杂动物的大脑会随着时间推移不断进化,在旧部分基础上进化出新部分,从而能操纵越来越复杂的行为。
旧脑部分控制着更原始的行为,比如呼吸、饥饿、反射反应。而新脑部分也就是“新皮质”则创造出更复杂的行为,大多是有智能成分的,比如视觉、语言、音乐、数学、科学和工程。
我们思考问题时,主要也是新皮质在思考。
新皮质虽然展开像桌布那么大,厚度大约2.5毫米,但却有着非常复杂的皮质算法——
它有几十个区域,分别负责视觉、听觉、触觉、语言、计划等,而且各区域通过神经纤维束连接;
1平方毫米的新皮质中就有大约10万个神经元,5亿个神经元之间的连接(称为突触),以及几千米长的轴突和树突;
新皮质中随处可见精确且极其复杂的神经回路。
新皮质中的连接
新皮质的基本单位,也可以称为是“智能单位”是“皮质柱”,大约有15万根皮质柱像乐高积木一样并排堆叠在一起,每个都可以计算任何刺激或感觉(听觉、嗅觉、触觉、味觉和视觉)
它能分析和处理输入信号,无论信号类型如何。因此,每个也可以预测一个输出。这意味着每个瞬间有15万个预测。大脑皮层以连续时间步长预测了数以千计的现实。
我们目光移动时,皮质柱就对它将要看到的东西进行预测;
要拿起东西,皮质柱就会预测每个手指应该有什么感觉;
想做一个动作时,皮质柱也会预测将发生什么。
新皮质能预测最小的刺激物,如杯子把手的质地,而且每根皮质柱,都在进行预测。
但预测是前提是新皮质要知道什么才是准确的。这主要基于过去的经验中进行的学习。
新皮质学习的就是世界模型,这种模型是感官输入、参考系和位置的组合。
感官输入就像是我们喂给机器的海量数据,不过人的输入是通过眼耳鼻舌身,基于两种变化:世界在不断变化,各种风吹草动都是新的输入;人在不断移动,每次移动输入到大脑的信息会完全改变。
新皮质在事件和感觉之间建立联系。此外,它将能学习它产生的动作的效果。这是感知运动学习。
感知运动之中,皮质柱也在一刻不停地预测,预测得到验证时,就意味着大脑中的世界模型是准确的。如果有任何信息输入与新皮质的预测不一致,那就会提醒新皮质,它需要更新这部分世界模型。这是在错误中分析学习。
还有很重要的一点就是,模型一定要有参考系和位置,皮质柱如果要预测下一个输入,也必须知道感官的移动方式。
而人的大脑也有对参考系和位置的感知,比如我们把手放在一个物体上,就能大体知道手相对于物体的大体位置,往上碰可能就是杯口,然后意识里有杯口的形状、触感,往下的一系列结构、细节也有意识。
假如没有参考系和位置的感知,完全不知道相对于物体的位置,就很难预测下一段输入。
数学中我们用x、y和z坐标轴来定义某物在空间中的位置,而地理上用经纬度定义地球表面的位置,大脑也会把类似参考系的东西附着在接触和感知的物体上。
参考系和位置能给大脑带来三点,一是使大脑了解某物的结构,各部分在空间中怎么排列。
二是利用参考系来定义一个物体,大脑便可以一次性操纵整个物体。比如一旦我们了解了一辆汽车,就能想象它从不同的角度看是什么样子,也能辨别出它在某个维度上是否被拉长了。
三是提供了下一步计划和移动的方向。比如拿着手机,想按下手机的电源按钮,大脑知道当前位置和电源按钮的位置,它就可以计算出手指需要怎样从当前位置移到新位置。这种计算需要一个与手机位置相关的参考系。
大脑自带的参考系可能与位置细胞和网格细胞有关,位置细胞能让人知道身在何处,网格细胞就像纸质地图上的行和列,覆盖在所处环境上,两者一起为人所处环境创建一个完整的模型。
大脑不会保存每个事物的图像,而是保存兴趣点。这就像你的脑海中有世界的多重网格。对于大脑来说,世界是一系列记忆(动态)。需要位置来关联位置和记忆,因为它可以让你找到自己的路并移动。
大脑中的连接存储着我们通过经验学习的世界模型。每天我们都会经历新的事物,并通过形成新的突触来为模型添加新的知识片段。
15万根皮质柱每根都是一个完整的系统,它们可能会对同一个动作同时做出成千上万种预测,每根皮质柱的感知都会进行传播,同时接收来自其他皮质柱的预测,最常见的猜测会胜过最不常见的猜测,直到整个网络确定一个答案。有种类似“票选”的机制。
所以依据人脑的原理,作者认为智能系统可以用四个标准来构成:
一是机器需要不断学习。机器需要从错误中学习以更新其世界模型。
二是机器需要通过运动来学习。运动可以表征位置。如果缺少的话,对世界的表示将有偏差。
三是机器需要创建很多模型。新皮质的每个皮质柱学习一个包含数千个对象的模型,解决绑定问题(一个独特的感知)的过程是通过投票进行的。一台机器需要获取相同的进程。
四是机器需要使用参考系来存储知识。思考是一种运动。它是通过连接参考系中的点而出现的。如果机器不能使用运动,它就不能思考。
可能在未来几十年里,我们不用担心人类被彻底替代,更不用担心科幻小说里那种AI产生意识、奴役人类的噩梦。但我们可能会越来越依赖机器和算法为我们提供便利,甚至做决定。
杰夫·霍金斯在他的书中反复提及人其实对自己的大脑知之甚少,有很多未解之谜,对人的研究太少,这才是我们更应该担心的。因为与跟发展人工智能的热情相比,我们不太注重研究人的意识,那么计算机有了极先进的人工智能之后,可能只会增强人类的“自然愚蠢”。
当先进的算法更了解我们,更会触发我们的情绪,并且运用这种神奇的能力找到我们深层次的焦虑、恐惧来推销,甚至操纵。当我们沉浸于Sora为我们打造的视觉盛宴和奇幻世界而不再对现实和自然进行感知运动学习,不再丰富我们自己的世界模型。这才是最危险的。
事实上,人工智能还没来操纵我们,就有很多卖课人仅利用人工智能的概念就捕获了几十万人的焦虑,赚得盆满钵满。
Sora还没让我们沉浸于视觉盛宴和虚拟世界难以自拔,我们就被直播和短视频撩得难以脱身。
大家都在玩手机,只有人工智能在翻资料,啃数据。
参考资料:
1、[美] 杰夫·霍金斯《千脑智能》,浙江教育出版社
2、机器之心《Sora到底懂不懂物理世界?一场头脑风暴正在AI圈大佬间展开》
3、新智元《Sora不懂物理世界,翻车神图全网爆笑!LeCun马斯克激辩世界模型》
4、尤瓦尔·赫拉利《今日简史:人类命运大议题》,中信出版社
5、赛博禅心《中学生能看懂:Sora 原理解读》
本文为作者独立观点,不代表鸟哥笔记立场,未经允许不得转载。
《鸟哥笔记版权及免责申明》 如对文章、图片、字体等版权有疑问,请点击 反馈举报
Powered by QINGMOB PTE. LTD. © 2010-2022 上海青墨信息科技有限公司 沪ICP备2021034055号-6
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)