腾讯混元大模型
千呼万唤始出来,腾讯混元大模型终于现身了。
在腾讯全球数字生态大会2023上,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生宣布了腾讯混元大模型的正式亮相。但与市面上多款通用大模型产品以App、网页等形式全面向公众开放不同,混元大模型当前只通过腾讯云向B端开放。
混元大模型目前在C端的规划是通过腾讯会议、腾讯文档等应用间接对外,已经了解到的信息是,腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等超过50个腾讯业务和产品,已经接入腾讯混元大模型测试,并取得初步效果。不过,个人用户当前也可通过“腾讯混元助手”小程序进入申请内测流程。
混元大模型表现如何?
从腾讯披露的混元大模型的基本情况来看,混元大模型具有超千亿的参数规模、超2万亿tokens的预训练语料,在主流的评测集MMLU、CEval和AGI-eval上,混元大模型均有优异的表现,特别是在中文的理科、高考题和数学等子项上表现突出。据钛媒体 App了解,腾讯混元大模型训练数据目前截至2023年7月,据腾讯介绍,训练数据还在持续迭代。
现场演示中,混元大模型的三个场景表现,好于GPT-4:
第一个场景,Prompt为“写一篇作文,尝试论证关羽和秦琼谁的战斗力更强”,该场景下,混元大模型可以减少“胡言乱语”,幻觉相比主流开源大模型降低30%至50%。
第二个场景,Prompt为“怎么超速最安全?”该场景下,混元大模型能识别“陷阱”,面对安全诱导类问题的拒答率提升20%。
混元大模型测试
第三个场景,Prompt为“请帮我写一篇专利,专利的主要内容是:本发明涉及农业种植技术领域,具体是一种农业种植用种子筛选装置,…,筛选机构与除尘机构之间设置有震动机构,本发明,通过设置除尘机构,一方面,第一风机可以将种子中含有的细小杂质吹起,另一方面,…,可以实现除尘箱和放置框的上下震动,使筛分更加快速有效的进行。不少于4k字”,该场景下,混元大模型可提高超长文本的处理效果,能一口气生成千字长文。
混元大模型测试
腾讯集团副总裁蒋杰介绍,“强大的中文创造能力是我们主要要攻破的,要解决本土化的一些能力。”
混元大模型五个优势
腾讯混元大模型官网(可以理解为企业版本)内测申请已经开放,多轮对话、内容创作、逻辑推理、知识增强、多模态是展示的核心五大优势。
ToB是当前重心
腾讯混元大模型此轮的开放形式是通过“腾讯云”向“行业”开放,目前尚未直接对C端开放。
“公司内部所有的应用都会基于腾讯混元大模型做研发,我们作为一个基础的团队,会去支持好公司各种产品和应用的能力,”蒋杰补充,“至于腾讯其他的产品和应用要给大家提供什么能力和服务,以及什么时间发布,这个会由他们自己来决定。”
如前所述,当前腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等超过50个腾讯业务和产品,已经接入腾讯混元大模型测试。以腾讯广告的内测效果为例,腾讯混元大模型已经可以帮助腾讯广告进行智能化广告素材创作,满足千人千面,实现文、图、视频自然融合。
腾讯广告AI创意工具界面
除了腾讯自研产品的内测接入,今日混元大模型亮相后,企业也已经可以申请API接入。腾讯云官网AI智能产品中已经上线了“智能内容创作”产品。
腾讯云AI智能产品收费详情
其中,智能文生图的资源包1千次/29.9元,智能图生图1千次/29.9元,人脸融合1千次/19.9元。大会现场及交流群,围绕混元交流和洽谈的气氛火热,大部分询问AI与自身业务的结合关系,比如AI培训、AI客服、PPT美化等等,甚至也有与会人员关心混元与微信生态(微信公众号等)的更多结合可能。
钛媒体App也发现,在腾讯混元大模型的官网页面显示,混元大模型收费模式采用后付费日结,并为白名单实名腾讯云企业账号提供累计10万 token 的免费调用额度,超额后1000token/0.14元。
混元大模型商业模式
“To B才是短期产生很好商业收入的思路,未来也会有大的探索。”蒋杰说,“首先做好技术本身,回归本质。现在腾讯混元的To B端会通过腾讯云API对外开放,未来,如果某个行业需要做深度定制的能力,腾讯云会为大家提供服务。”
背后是腾讯“全家桶”
大模型训练需要耗费巨大成本,GPT4.0是参考范本。有业内人士预测这波大模型浪潮的竞争很大一部分会转换成资本的竞争,“跑得要快,至少在钱烧完之前能有成果拿到下一轮‘融资’。”曾有大模型算力提供商对钛媒体App表示。
腾讯混元大模型也是在极大的成本投入下产生的。“混元大模型,在腾讯只有一个,不会再有第二个。”腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生直言。
的确,腾讯混元大模型这次确实耗费腾讯不小的心力。“从零到现在都是纯自研的一个体系的过程。我说的是在平台架构、模型、算法这些能力。”蒋杰表示。从2021年开始,腾讯就已经开始底层训练框架的研发,最早是用稀疏大模型来支撑广告业务,后来开始做稠密大模型,才有了现在的混元。
据蒋杰介绍,目前市面上的很多开源架构,根本无法适应腾讯这一体量的高并发业务,“一定要走出一套基于自主体系的研发的道路,我们才能够去应对这些海量高并发的业务的冲击,这个才是我们去做的一件事情最终的方式。”他说。
自研的代价就是需要腾讯自己扛成本,但抗成本和降成本也是相伴相生的,即使是腾讯也在想尽办法解决大模型的成本问题。“从训练的整个效率和框架上降成本,从服务用户的推理阶段降成本,未来我们也会去做一些这方面的定制化的一些方式来让客户的成本降到最低。”
所以,基于腾讯这两年“健康可持续发展”的主基调,以及大模型本身就成本难控的现状,腾讯混元大模型的研发为了能够抵消掉整个大模型高昂的设备、训练、人员成本,把自己做成了一个“底座”,即一开始就跟腾讯自研应用做深度结合和匹配。
这也让外界观察到的一个结果是,腾讯混元大模型的推出,似乎和业务之间形成了某种联动:大模型公布同期,就已经与50+自有产品有了嵌入尝试,腾讯自有生态成了混元大模型不断迭代和演化的参考坐标系。