封面新闻记者 欧阳宏宇
“多模态大模型正在加速到来,并将重构整个内容产业。”腾讯云副总裁、腾讯混元大模型负责人刘煜宏在成都表示,大模型加速发展的结果是,基于多模态的应用也会呈现出百花齐放之势。
公开资料显示,混元大模型于2023年9月首次亮相,至此,腾讯也与百度文心、阿里通义会师AI大模型赛道。据介绍,混元大模型技术架构目前已升级为混合专家模型 (MoE) 架构,参数规模达万亿,擅长处理复杂场景和多任务场景,中文整体表现上也处于业界领先水平,尤其在数学、代码、逻辑推理和多轮对话中性能表现卓越。同时,该大模型还提供不同尺寸的模型,适应更多的需要低成本和高推理性能的应用场景。
谈及该大模型的能力,刘煜宏透露, 混元正在积极发展多模态模型,以进一步加强文生图、文生3D以及文/图生视频能力,该大模型正积极推进相关应用落地。“目前,公司内部超过400个业务及场景已接入测试,文生图的能力已经被用于广告素材生成、UGC用户生成内容等领域。”
现场,刘煜宏从技术的角度解密了此前在社交媒体上爆火的AIGC视频《江山如此多娇》。他表示,AI大模型把图片直接变成生动视频的图生视频、把原始视频快速转换成不同风格的风格化视频、把不相关的多张图片素材融合成一段合理视频的视频自动插帧、以及自动生成视频艺术字等视频生成技术能力。
“目前,面对内容制作行业的多样化需求,我们也在探索基于大模型全面升级的数智人、语音对话虚拟人、具身智能机器人等应用。”刘煜宏预测,未来将会有更多的前沿技术和应用引入内容生成领域,提升生产效率和交互体验,为行业带来更多新质生产力。
发表回复