进入多模态AI时代，5只核心龙头股逐鹿新兴蓝海赛道或将破茧而出！

发布时间 2024-1-31 14:04

自 OpenAI 推出 GPT-4V，让大模型拥有了前所未有的图像语义理解能力。现如今，很明显趋势，AI新的方向就是多模态，业界也普遍认为「AI多模态」是下一个爆发的赛道。

AI进入多模态时代
多模态模型具备处理多种数据输入的能力，其设计更为复杂，可能需要整合多个子网络的输出。这种设计使多模态模型能够捕捉不同数据源之间的交互和相关性，为任务提供多维度的信息。

多模态能力使模型能够获取更多种类的现实世界数据，可以处理文本、音频、图像、视频和工业领域代码等多种形式的内容。

大模型不仅在模型深度训练上进入了新的阶段，还在多模态融合上进行了一系列引领式的创新。在未来，多模态能力还有助于模型在实际应用中识别更丰富的场景，满足人工智能技术的重要需求，实现通用人工智能的持续发展。

多模态AI龙头梳理
放眼全球AI产业，大型科技公司正在转变传统的AI解决方案商业模式，将重点转向AI大语言模型的研发，并进一步深入探索前沿的多模态大模型领域。

谷歌(NASDAQ:GOOGL)
在此前的谷歌开发者大会，谷歌再一次对外证明自己的机会。在此次大会上，谷歌成功地展现了自身在人工智能领域多年来深厚的积淀，稳定了外界对这家公司未来的预期，发布了自研的PaLM大语言模型，以及一系列旗下产品的AI化进化，并且重磅推出 Gemini 成为了业界第一个原生的多模态大模型。

Gemini1.0号称具有原生多模态能力，能够处理视频、音频、图像、文本和代码等多种形式的内容，且性能优于现有的“拼接型”多模态大模型。从谷歌官方公布的技术文档中的示例来看，Gemini不仅能够进行双模态之间的转换（如文生图或文生视频），亦能处理需要进行多模态转换的复杂任务。

微软(NASDAQ:MSFT)
有消息指出，微软GPT-4的多模态的能力是它相对于GPT-3提升的最为重要的点。其实在GPT-4之前，微软的KOSMOS-1就已经在多模态方向取得了非常令人惊讶的效果。KOSMOS-1是一个可以将图像和文本作为输入，并生成一段文本的多模态模型，KOSMOS-1在多模态对话，多模态QA以及多模态推理，OCR，看图计算，图像数字识别上的示例。

据了解，一共6个不同的多模态任务上的表现效果。KOSMOS-1可以看做是GPT-4在多模态能力上的前身，它两个重要的理论基础思维链和涌现能力也是GPT-4最基础的理论基础。GPT-4也有一定可能借鉴了KOSMOS-1的某些思想。

苹果(NASDAQ:AAPL)
1月30日消息，据报道，近日，有开发者在iOS 17.4的开发者预览版Beta中发现了与大模型相关的技术代码。这些代码表明，苹果正在开发一个由大模型支持的新版本Siri。代码显示，这个新版本内包含有一个名为“SiriSummarization（Siri 总结）”的私有框架，该框架调用了OpenAI的ChatGPT API。

有了这个框架的加入，可能会让Siri在处理信息和回答问题时表现得更加出色。同时，这段代码还显示，苹果正在测试四种不同的AI多模态模型，其中包括他们自己开发的“Ajax”，以及OpenAIGPT和谷歌的Flan-T5两个外部大模型。

Meta（NASDAQ:META)
前不久，Meta 的研究人员近日推出了 AnyMAL。这是一种能够理解多种模态信号并生成文本回应的强大语言模型（包括图像、视频、音频和 IMU 运动传感器数据）。近日，Meta正式宣布推出全新开源大模型Code Llama 70B。
据悉，Code Llama70B在HumanEval基准测试中的准确率达到了53%，超过了GPT-3.5的48.1%，并且接近OpenAI的一篇论文报告的GPT-4的67%，是目前评分最高的开源大模型。

Code Llama 以 Llama 2 为基础，可以帮助开发者根据提示创建代码，并调试人工编写的代码。据 Meta 表示，Code Llama 70B 可以处理更多的内容，更好的帮助开发者处理AI多模态时代时遇到的问题。

微美全息（NASDAQ:WIMI）
资料显示，微美全息作为布局AI多模态领域众多厂商之一，面对AI细分领域的创新机会，微美全息凭借AI技术基础实现自有业务的降本增效，同时随着多模态新产品和新技术的不断迭代，在多模态领域取得新突破，微美全息有望在行业扩展应用，进一步打开B、C端市场，提升商业化价值。

凭借卓越的AI图文理解和对话生成能力，微美全息研发大模型取得了领先成绩，展示了在技术上的强大实力。当下，微美全息全面围绕多模态语言大模型机遇挖掘，这是个能‘换道超车’的难得机遇。

在多模态的基础上，微美全息的人工智能可能会更多朝着与空间相结合的方向进展，也就是不仅让模型理解文本、图像、视频等，还能够结合这些能力引向了人形机器人领域。微美全息融合AI视觉、语音和数据处理技术，极大丰富了人形机器人认知和决策层面，有望使机器人在复杂交互、自然语言理解和环境适应等领域取得重大进步，激发其作为高度自主助手或劳动力的无限可能性。

结尾
整体而言，AGI 通用人工智能渐行渐近，大模型走向多模态，或将成为未来交互新入口。多模态能力将成为未来AI领域巨头竞争的重要焦点，面对未来，多模态能力的发展将为AI技术的广泛应用带来更多可能性，将持续看好后续AI产业的前景。

查看所有评论（0）0

名称	最新价	涨跌幅	交易量
长电科技	66.84	+0.94%	3.13亿
中芯国际	127.22	-4.92%	1.55亿
澜起科技	262.17	+1.89%	1.12亿
光迅科技	217.30	-8.08%	8,991.49万
兆易创新	431.90	-2.95%	6,323.98万
中际旭创	993.34	-4.21%	2,377.26万
寒武纪	1,290.90	-5.25%	1,533.95万

名称	最新价	涨跌幅	交易量
龙腾光电	5.39	+20.04%	7,475.78万
金利华电	44.06	+19.99%	51.83万
聚光科技	15.61	+14.70%	6,642.06万
昊志机电	86.97	+14.68%	6,136.56万
元道通信	6.66	+14.63%	3,871.20万
雷曼股份	9.98	+11.63%	1.11亿
大族数控	249.46	+11.37%	1,144.65万

名称	最新价	涨跌幅	交易量
慧博云通	45.05	-18.56%	5,590.86万
上海合晶	26.90	-16.36%	5,321.47万
东芯股份	138.70	-15.81%	4,697.92万
灿勤科技	37.85	-15.80%	3,002.26万
Lians Tech	13.28	-15.58%	4,857.63万
金太阳	37.14	-15.15%	2,624.92万
Beijing Victory Electric	91.87	-14.95%	2,063.81万

名称	最新价	涨跌幅	交易量
华电新能	6.04	-1.47%	1.25亿
新电信SingTel	4.700	-6.37%	1.18亿
扬子江船业	3.700	-2.89%	2,332.98万
腾讯控股	439.00	-3.56%	3,965.38万
星展集团控股DBS	61.75	+0.73%	507.31万

热门搜索

请尝试其他搜索

进入多模态AI时代，5只核心龙头股逐鹿新兴蓝海赛道或将破茧而出！

最新评论

热门股票