支气管扩张专科治疗医院

注册

 

发新话题 回复该主题

大模型专题报告从技术路径,纵观国产大模型 [复制链接]

1#

(报告出品方/作者:德邦证券,陈涵泊、王思)

海外龙头轮番抢占第一宝座,比拼整体性能和多模态交互

高速迭代,海外龙头轮换占领大模型之巅

OpenAI、Google、Antropic三大厂商竞相轮换大模型第一宝座:自23年初GPT-4发布以来,在1年左右时间内基本稳定处于大模型最强位置。年海外大模型迭代速度有所加快,龙头竞争格局悄然发生变化。1)5月,OpenAI发布新的旗舰模型GPT-4o,实现跨模态即时响应,相比GPT-4Turbo,刷新SOTA实现性能飞跃。2)5月,Google发布Gemini1.5Pro进阶版,实现万tokens上下文,具备更强大的推理和理解能力。3)6月,Antropic发布Claude3.5Sonnet,具备更强的代码和视觉能力,基准测试结果全方位碾压Gemini1.5Pro和Llama-b,大部分优于GPT-4o,一定程度上暂时代表着当前大模型性能最高水平。

初代:GPT-4o自我革命,持续刷新综合性能

在传统基准测试中,GPT-4o在文本、推理和编码智能方面实现了GPT-4Turbo级别的性能,同时在多语言、音频和视觉功能上达到了新的高水位线。文本推理:GPT-4o在0-shotCOTMMLU(常识问题)上创下了88.7%的新高分。此外,在传统的5-shotno-CoTMMLU上,GPT-4o创下了87.2%的新高分。相较于GPT-4Turbo而言,GPT-4o文本推理能力有一定提升。多语言识别:与Whisper-v3相比,GPT-4o在多种语言的识别中表现优异,尤其是资源匮乏的语言。音频翻译:GPT-4o在音频翻译表现上达到新的高水准,且在MLS基准测试中优于Whisper-v3。

二代:谷歌Gemini更极限的上下文理解、更低延时

(高性能)进阶版Gemini1.5Pro:谷歌5月发布,上下文窗口翻倍、具备更强大的推理与理解能力。上下文:过往Gemini1.5Pro支持万tokens上下文,升级后可支持万tokens(理论极限为0万tokens),意味着可输入分析2小时视频、22小时音频、超过6万行代码或者多万单词。这使得Gemini1.5Pro能处理更大量的复杂信息,生成更准确、更细致的输出。性能:通过数据和算法改进,升级版的Gemini1.5Pro增强了模型的代码生成、逻辑推理和规划、多轮对话以及音频和图像理解能力,在MMMU、AI2D、MathVista、ChartQA、DocVQA等多项公共基准测试中取得了显著改进,在多项图像和视频理解基准测试中也实现了最先进性能。价格:输入7美元/百万tokens;3.5美元/百万tokens(k上下文)。

翘楚:Claude3.5聚焦视觉和交互体验

Claude3.5Sonnet:Anthropic迄今为止最强大的视觉模型。在解释图表、图形等视觉推理任务中改进明显。可以准确地从粗略图像中转录文本,并输出更多洞察,这也是零售、物流和金融服务等领域的核心能力。引入Artifacts变革交互方式。当要求Claude生成代码、文本或网站设计等内容时,Artifacts会出现在对话旁边的专用窗口中,供用户实时查看、编辑和构建Claude的创作。相当于形成了一个动态工作空间,将AI生成的内容更无缝集成到自己的项目和工作流程中。这项功能标志着Claude从对话式AI向协作工作环境的演变,未来将拓展至团队协作中。

最终判断依据:多模态的理解、生成和响应

多模态理解与生成,毫秒级响应,实现即时语音对话。GPT-4o实现毫秒级视觉理解,GPT-4o能够接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。使用语音模式与ChatGPT对话当中,GPT-3.5与GPT-4平均延迟分别为2.8s、5.4s,而GPT-4o对音频输入的响应时间最短为毫秒,平均为毫秒,这与人类在对话中的响应时间相似。更先进的视觉与音频理解能力,智能感知语气与语态。与现有模型相比,GPT-4o展现了出色的视觉和音频理解能力:首先,用户可在对话中随时打断;其次,可根据场景生成多种音调,带有人类般的情绪和情感;直接通过和AI视频通话让它在线解答各种问题。

技术争夺:端到端原生多模态技术,统一神经网络

在语音对话场景,传统语音AI通常经过三步法实现对话功能,在这过程中会丢失很多信息且不能判断情绪变化。三步法具体为:1)语音识别或ASR:音频到文本,类似Whisper;2)LLM计划下一步要说什么:文本1到文本2;3)语音合成或TTS:文本2到音频,类似ElevenLabs或VALL-E。GPT-4便采用该模式,在这过程中不仅响应速度更慢而且丢失了大量信息,无法直接观察语调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感等。GPT-4o为跨模态(文本、视觉和音频)端到端训练新模型,意味着所有输入和输出都由同一神经网络处理,成为真正的多模态统一模型,带来性能的飞跃提升。

比较维度升级:叠加终端,跨设备的使用效果体验

谷歌推出AIAgent项目Astra模型,具备类似GPT-4o的能力,可以实现跨文本、音频、视频多模态实时推理。Astra和GPT-4o的使用效果类似,用户可以通过它和AI实时对话,以及视频聊天。在发布会上,工作人员在演示视频中将手机镜头对准身边的物品,并向ProjectAstra提出一些疑问,它几乎能做到零延时地准确回答。Astra特点:1)利用用户设备上的摄像头和麦克风为日常活动提供无缝辅助;2)具备多模态能力,无缝处理音频、图像、视频和文本输入,为用户提供全面的体验;3)深度理解视觉内容,并具备内容回溯能力;4)语调丰富。AstraVS.GPT-4o:两者均具备音频、图像、视频等多模态处理能力,不同的是,GPT-4o专注于对多模态输入的实时交互,Astra专注于通过外界设备无缝捕获和解释视觉信息,使其能够根据现实世界的观察提供与上下文相关的响应。

国内大模型逆袭之路:聚焦长文本,降价迭代提升竞争力

先文后理:理科能力差距较大,注重文科能力的提升

整体比较而言,国内大模型与GPT4(

分享 转发
TOP
发新话题 回复该主题