油价“闪跌”带崩美元!霍尔木兹海峡前景现转机,美元指数创两月最大跌幅
自 OpenAI 推出 GPT-4V,让大模型拥有了前所未有的图像语义理解能力。现如今,很明显趋势,AI新的方向就是多模态,业界也普遍认为「AI多模态」是下一个爆发的赛道。
AI进入多模态时代
多模态模型具备处理多种数据输入的能力,其设计更为复杂,可能需要整合多个子网络的输出。这种设计使多模态模型能够捕捉不同数据源之间的交互和相关性,为任务提供多维度的信息。
多模态能力使模型能够获取更多种类的现实世界数据,可以处理文本、音频、图像、视频和工业领域代码等多种形式的内容。
大模型不仅在模型深度训练上进入了新的阶段,还在多模态融合上进行了一系列引领式的创新。在未来,多模态能力还有助于模型在实际应用中识别更丰富的场景,满足人工智能技术的重要需求,实现通用人工智能的持续发展。
多模态AI龙头梳理
放眼全球AI产业,大型科技公司正在转变传统的AI解决方案商业模式,将重点转向AI大语言模型的研发,并进一步深入探索前沿的多模态大模型领域。
谷歌(NASDAQ:GOOGL)
在此前的谷歌开发者大会,谷歌再一次对外证明自己的机会。在此次大会上,谷歌成功地展现了自身在人工智能领域多年来深厚的积淀,稳定了外界对这家公司未来的预期,发布了自研的PaLM大语言模型,以及一系列旗下产品的AI化进化,并且重磅推出 Gemini 成为了业界第一个原生的多模态大模型。
Gemini1.0号称具有原生多模态能力,能够处理视频、音频、图像、文本和代码等多种形式的内容,且性能优于现有的“拼接型”多模态大模型。从谷歌官方公布的技术文档中的示例来看,Gemini不仅能够进行双模态之间的转换(如文生图或文生视频),亦能处理需要进行多模态转换的复杂任务。
微软(NASDAQ:MSFT)
有消息指出,微软GPT-4的多模态的能力是它相对于GPT-3提升的最为重要的点。其实在GPT-4之前,微软的KOSMOS-1就已经在多模态方向取得了非常令人惊讶的效果。KOSMOS-1是一个可以将图像和文本作为输入,并生成一段文本的多模态模型,KOSMOS-1在多模态对话,多模态QA以及多模态推理,OCR,看图计算,图像数字识别上的示例。
据了解,一共6个不同的多模态任务上的表现效果。KOSMOS-1可以看做是GPT-4在多模态能力上的前身,它两个重要的理论基础思维链和涌现能力也是GPT-4最基础的理论基础。GPT-4也有一定可能借鉴了KOSMOS-1的某些思想。
苹果(NASDAQ:AAPL)
1月30日消息,据报道,近日,有开发者在iOS 17.4的开发者预览版Beta中发现了与大模型相关的技术代码。这些代码表明,苹果正在开发一个由大模型支持的新版本Siri。代码显示,这个新版本内包含有一个名为“SiriSummarization(Siri 总结)”的私有框架,该框架调用了OpenAI的ChatGPT API。
有了这个框架的加入,可能会让Siri在处理信息和回答问题时表现得更加出色。同时,这段代码还显示,苹果正在测试四种不同的AI多模态模型,其中包括他们自己开发的“Ajax”,以及OpenAIGPT和谷歌的Flan-T5两个外部大模型。
Meta(NASDAQ:META)
前不久,Meta 的研究人员近日推出了 AnyMAL。这是一种能够理解多种模态信号并生成文本回应的强大语言模型(包括图像、视频、音频和 IMU 运动传感器数据)。近日,Meta正式宣布推出全新开源大模型Code Llama 70B。
据悉,Code Llama70B在HumanEval基准测试中的准确率达到了53%,超过了GPT-3.5的48.1%,并且接近OpenAI的一篇论文报告的GPT-4的67%,是目前评分最高的开源大模型。
Code Llama 以 Llama 2 为基础,可以帮助开发者根据提示创建代码,并调试人工编写的代码。据 Meta 表示,Code Llama 70B 可以处理更多的内容,更好的帮助开发者处理AI多模态时代时遇到的问题。
微美全息(NASDAQ:WIMI)
资料显示,微美全息作为布局AI多模态领域众多厂商之一,面对AI细分领域的创新机会,微美全息凭借AI技术基础实现自有业务的降本增效,同时随着多模态新产品和新技术的不断迭代,在多模态领域取得新突破,微美全息有望在行业扩展应用,进一步打开B、C端市场,提升商业化价值。
凭借卓越的AI图文理解和对话生成能力,微美全息研发大模型取得了领先成绩,展示了在技术上的强大实力。当下,微美全息全面围绕多模态语言大模型机遇挖掘,这是个能‘换道超车’的难得机遇。
在多模态的基础上,微美全息的人工智能可能会更多朝着与空间相结合的方向进展,也就是不仅让模型理解文本、图像、视频等,还能够结合这些能力引向了人形机器人领域。微美全息融合AI视觉、语音和数据处理技术,极大丰富了人形机器人认知和决策层面,有望使机器人在复杂交互、自然语言理解和环境适应等领域取得重大进步,激发其作为高度自主助手或劳动力的无限可能性。
结尾
整体而言,AGI 通用人工智能渐行渐近,大模型走向多模态,或将成为未来交互新入口。多模态能力将成为未来AI领域巨头竞争的重要焦点,面对未来,多模态能力的发展将为AI技术的广泛应用带来更多可能性,将持续看好后续AI产业的前景。
