智通财经APP获悉,中信建投证券发布研究报告称,2024Q3,AI应用的落地进一步加速。除了之前热度很高的比如Perplexity等继续保持快速增长,AppLovin、Palantir等应用也进一步看到了AI带来的生产力变革。同时涌现出了新的一批爆款应用比如Hailuo、快手可灵、Pika等,而且值得欣喜的是其中国内优秀的AI应用开始逐渐崭露头角。随着技术的不断进步,更多创新型产品将涌现出来,特别是在AI营销、AI图像、AI虚拟陪伴,以及AI军事等领域,这些细分市场的竞争将更加激烈。随着用户对AI工具需求的增加,可能会看到更多针对特定行业需求的定制化解决方案出现,从而推动整个行业的进一步发展。
AI应用:百花齐放,赋能千行百业
伴随大模型能力的提升,海内外AI应用蓬勃发展,B端垂直企业服务、C端应用等层出不穷。据SensorTower数据显示,2023年全球AI应用年度下载量和内购收入分别上涨60%和70%,超过21亿次和17亿美元,而经过2023年的爆发式增长,2024年AI应用市场更加成熟。得益于头部应用的强势增长,2024年1-8月全球AI应用收入同比激增51%至20亿美元,预计2024年全年收入将达到33亿美元。
OpenAI推出新型语言模型o1,经过强化学习训练来执行复杂推理任务。o1在回答之前会思考,可以在响应用户之前产生一个很长的内部思维链。通过强化学习训练,大模型学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。在OpenAI的测试中,该系列后续更新的模型在物理、化学和生物学这些具有挑战性的基准任务上的表现与博士生相似。OpenAI还发现它在数学和编码方面表现出色。o1-preview在高阶推理(SC-Reasoning)上表现惊艳,总分达到85.27分,比全球其他厂商的通用大模型高出15分以上,当前遥遥领先。
ChatGPT正式开放AI搜索功能。11月,OpenAI宣布为ChatGPT推出最新的人工智能搜索体验,付费订阅者(以及SearchGPT候补名单上的用户)将获得可联网的实时对话信息能力,免费用户、企业用户和教育用户也将在未来几周内陆续获得访问权限。在正常的对话时,ChatGPT可以根据具体需求决定何时利用网络中的搜索结果,用户也可以主动触发网络搜索,同时包含了天气、股市、地图等小组件。AI搜索的核心能力体现在提升简单问题的解决效率、提升复杂性问题的处理能力以及多模态AI搜索能力方面。
智谱推出AutoGLM,可以模拟人类操作可视化电子设备。AutoGLM,只需接收简单的文字/语音指令,可以模拟人类操作手机,包括进行微信朋友圈评论、在携程上预订酒店、在12306上购买火车票、在美团上点外卖等,理论上,通过对GUI的深刻理解,AutoGLM可以完成人类在可视化电子设备(电脑,手机,平板……)上能做的任何事。它不受限于简单的任务场景或API调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似,真正做到在日常生活、工作中辅助人类。通过综合应用智谱自研的基础智能体解耦合中间界面和自进化在线课程强化学习框架策略,AutoGLM在PhoneUse和WebBrowserUse上都取得了大幅的性能提升。例如,在AndroidLab评测基准上,AutoGLM就显著超越了GPT-4o和Claude-3.5-Sonnet的表现;在WebArena-Lite评测基准中,AutoGLM更是相对GPT-4o取得了约200%的性能提升,大大缩小了人类和大模型智能体在GUI操控上的成功率差距。
大模型技术不断演进,赋能千行百业的能力不断提升。短期看,金融、教育、文娱传媒、办公、营销等领域能够实现快速场景落地;中期看,政务、制造、智慧城市等领域市场潜力不断释放;长期看,大模型有望为医疗、汽车、科研等领域带来颠覆性变革,推动生产力高质量发展。
AI不断突破传统科学研究的边界,加速科学发现的进程。2024年诺贝尔物理学奖、化学奖授予者均与AI相关。2024年的诺贝尔物理学奖授予了约翰-霍普菲尔德(John J. Hopfield)和杰弗里-辛顿(Geoffrey E. Hinton),“以表彰他们利用人工神经网络进行机器学习的奠基性发现和发明”。2024年诺贝尔化学奖一半由美国科学家David Baker因其在计算蛋白质设计方面的贡献而获奖,另一半奖项则授予了英国科学家Demis Hassabis和John M. Jumper,以表彰他们在蛋白质结构预测方面的成就。
国内模型经过不断迭代,Top1模型表现不断提升。据SuperCLUE,总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距在持续缩小,从2023年5月的30.12%的差距,缩小至2024年8月的1.29%。目前国内大模型正在持续接近Claude 3.5 Sonnet和ChatGPT-4o-latest的能力,但o1-preview的推出进一步拉大了与其他模型的差距,国内大模型与o1-preview在中文难任务(Hard任务)上相差约为14%,在中文通用能力上相差约8%。