开云电竞GPT-4o亮相:OpenAI发布了钢铁侠的贾维斯

  新闻资讯     |      2024-06-08 16:05

  开云电竞GPT-4o亮相:OpenAI发布了钢铁侠的贾维斯昨天凌晨,OpenAI开了一个简短的发布会,没有豪华的剧场,没有提前制作视频和动画,一如既往朴实无华地现场演示,推出了

  有的朋友可能会有疑问,以前ChatGPT4也可以输入图片啊,甚至手机App版本也能输入语音啊,这不等于没更新吗?

  就拿语音交流来说。以前需要经过三个步骤,第一步是把人类的语音,通过Whisper语音识别模型转成文字;接着,转好的文字再传给GPT模型;最后得到的回答再通过一个简单的模型转成语音。

  也就是说,经过了:语音转文字-文字理解输出-文字转语音3个模型,最直接的后果就是,在语音转文字这一步,你说话的语气,你独特的气泡音等等特征信息都被抹去了,到最后输出的时候,AI也很难表现出回答中的感情。

  比如你在打球,这时候接到AI来电问你在干嘛,你气喘吁吁地说:“呼哧呼哧,我在加班,呼哧呼哧。”

  因为GPT-4o是用一个模型来处理以上所有的输入,可以通过你的语气开云电竞,观察你的表情,甚至聆听你的喘息惊叫,来理解你当下的心情,你想要什么;

  并且抛弃了在不同模型中传递信息的步骤之后,GPT-4o的反应变得非常快,语音交流的响应时间从之前的2到3秒提升到了0.2-0.3秒,这TM已经比我快了。

  我经常用AI总结会议纪要,操作步骤是先用手机录下来,然后用软件转成文字,再丢给ChatGPT或者Kimi总结,虽然说不上有多麻烦吧,但这个感觉就是牛马在操作工具搬砖。

  有了这个GPT-4o之后,我就开着他让他自己听,自己看就行,就仿佛会议室里面多了一个看不见的人。

  更加直观、傻瓜的交互,必定会带来AI应用更大面积的普及,AI走入千家万户的前景可能已经不再遥远。

  从GPT3.5到GPT4用了不到一年时间,而GPT4发布到现在已经1年零2个月了,GPT-5却迟迟不见出场。

  我认为,GPT5的难产,一个最重要的原因,就是地球上可以喂给AI的文字资料已经接近干涸了,AI再想取得长足的进步,发现已经没有书可以读了。

  比方说,我们找两个女明星的正脸照片,杨幂(整容前)和韩红,可以直观的看到,杨幂的脸比较方,韩红的脸比较圆;杨幂的脸比较长,而韩红的脸比较短。

  我们只选取这两个人正面的照片,然后把这些照片中的人,按脸圆的程度,和脸长的程度,数据化(0到1),就得到了一个二维平面上的点,左上方这些蓝色的点,代表杨幂,而右下角这些红色的点,代表韩红。

  如果发现没画好,就调整一下,反正终归是能画出这么一条线,把代表杨幂的点,和代表韩红的点,给区分出来。

  这根经过调整的线,就是一个简单的AI,功能在于区分杨幂和韩红,而这里的a和b,就是这个AI的参数。

  我们通过选定a和b这两个参数(训练的过程),神奇地记住了关于杨幂和韩红的一些脸部特征,以后任何一张她俩的正面照片,我们都能分辨出来,非常的自动化,非常的。

  ChatGPT做的工作是根据前文,不停地往文章的末尾填单词(token),前文就是不同的情况(照片),而可以选择的单词,就是输出的结果(杨幂或者韩红),只不过人类的语言非常的复杂,上文可以有无数种情况,而接下来要填的单词,以英文为例,有5万个可供选择。为了记住这些复杂的特征,ChatGPT 3.5用了1750亿个参数,而ChatGPT4据说是用了1.2万亿个参数。

  神经网络的基本假设就是,不管我们面临的情况是多么的复杂,不管场景是说话、是开车、还是做视频、还是机器人走路,只要参数够多,它总能把其中的特征提取出来并且记住,然后用来对未来的情况进行分类预测,这就是所谓的,完成了神经网络的训练。

  但前提是,我们有足够丰富的已知的情况(类似标注好杨幂或者韩红的图片),可以喂给我们的神经网络。

  根据AI研究机构Epoch的预测,全球互联网上的文字资料将在2026年被AI训练用尽。而更明显的迹象来自于各大AI企业的成绩。

  OpenAI在去年3月份发布了GPT-4,当时的水平可谓遥遥领先。而在整整一年零两个月之后的今天,GPT-4的智能水平并没有显著的提升,而包括Anthropic的Claude3,月之暗面的Kimi和阿里的通义千问在内的一些大模型,都已经赶上甚至超过了GPT-4,逼得OpenAI不得不多次下调收费标准和使用门槛来试图留住用户。

  它最初能取得领先并非掌握了什么秘密的高级模型架构,而是因为它走在了前面,更有钱,投入了更多的英伟达H100,更高的算力开云电竞,抢先消化了人类几十年来储存在互联网的知识,而它的竞争对手们或是因为没它有钱,或是因为被制裁限制,没有它那么大的算力,所以消化得就慢,就落后了。

  但慢不等于闲着,慢慢地月之暗面们也把那些知识消化得差不多了,存在了自家神经网络的参数中,自然就追上来了。

  由于中国的AI团队跟OpenAI差的主要就是算力,于是我们就发现这波追上来的公司大多是中国公司。

  那么很显然,随着ChatGPT-4o的出现,OpenAI抢先把能用于训练的资料,扩展到了音频图片特别是视频领域,再度取得了先手优势。

  我仿佛听见山姆·奥特曼摸着AI的头说,你看,人类交流的维度是多么的丰富,你还有很长的路可以走!

  以前的GPT相当于是一个憋在家里看了很多书,但是从来不出门也不跟人交流的究极宅男。基于GPT-4o的框架训练的下一个模型,是真正的读万卷书,行万里路。

  就先不说在训练素材总量上几何倍数的增加了,我们都知道,有很多东西,是必须图文并茂或者边听边看,才能理解的。

  今天我在看一篇有关光子芯片加工工艺的论文,《Lithium tantalate photonic integrated circuits for volume manufacturing》(用于大规模生产的钽酸锂光子集成电路),作者是来自中科院上海微系统所和瑞士洛桑联邦理工学院的一个合作团队,发表在《Nature》,内容可以说是光子芯片加工领域划时代的发明,我觉得很有必要品读一番。

  以前用大语言模型辅助看理工科论文,最大的问题在于它会忽略里面的插图。然而理工科论文的核心数据和操作步骤,一般都是用插图体现的,忽略插图那还看个毛?

  在图1a中展示的几片圆盘实际上是在描述钽酸锂晶圆(LTOI)的制备流程,特别是晶圆键合工艺的各个步骤。具体来说,这个流程图展示了以下几个关键步骤:氢离子注入:这是晶圆技术中的第一步,使用氢离子对晶圆进行注入。键合:将处理过的晶圆与另一块晶圆进行精确对准并键合。:通过注入的氢离子层使晶圆在预定区域内。化学机械抛光(CMP):对后的晶圆表面进行抛光,以确保表面的平整和光洁开云电竞。这些圆盘代表的是晶圆在各个阶段的视图,用于说明从晶圆制备到制成钽酸锂薄膜的整个工艺流程 。

  图1a展示了LTOI晶圆键合的工作流程,其中包括几片不同阶段的圆盘(晶圆)。以下是每片圆盘的详细说明:氢离子注入:圆盘1:525微米厚的散装钽酸锂(LiTaO3)晶圆,经过氢离子注入(100keV,7.0×10^16 cm^-2)。注入后晶圆表面形成了一个受损层,该层将在后续的热退火过程中用于剥离薄膜。晶圆键合:圆盘2:注入后的钽酸锂晶圆(圆盘1)翻转并与覆盖有4.7微米厚热氧化硅的高阻硅载体晶圆进行键合。通过这种键合,可以将LiTaO3薄膜粘附到硅载体上。晶圆:圆盘3:经过190°C热退火10小时后,残余的散装钽酸锂晶圆与剥离的钽酸锂薄膜分离。此时,薄膜已经从原始晶圆上剥离并转移到硅载体上。化学机械抛光(CMP):圆盘4:剥离后的钽酸锂薄膜经过化学机械抛光(CMP),去除粗糙和缺陷层,并将薄膜抛光至所需的600纳米厚度。抛光后的薄膜具有平整光滑的表面,可以用于后续的光子集成电路制造。这四个阶段展示了从散装钽酸锂晶圆到薄膜钽酸锂光子集成电路基板的关键步骤,每一步都在图1a的示意图中以圆盘的形式表示出来。

  相信这波GPT-4o会给各大AI公司带来不小的压力,特别是今晚马上要开I/O大会的从不作假的谷歌,简直是汗流浃背。

  不过对于我们这些用户和下游的AI应用创业公司来说,这是一个利好,OpenAI已经打开了局面,AI交互上的鸿沟已经被填平,国内和开源的大模型公司也会很快跟进,真是一派勃勃生机,万物竞发的境界。