字节跳动发布豆包4.0大模型:多模态能力提升300%,支持实时音视频交互

字节跳动发布豆包4.0大模型:多模态能力提升300%,支持实时音视频交互

5月13日,字节跳动在2026年春季AI生态大会上正式推出新一代通用大模型豆包4.0,在多模态理解、推理速度、实时交互能力等方面实现了跨越式升级,引发行业广泛关注。

字节跳动发布豆包4.0大模型:多模态能力提升300%,支持实时音视频交互

核心能力升级亮点

根据字节跳动官方公布的数据,豆包4.0的多模态综合理解能力相比上一代版本提升了300%,支持同时处理文本、图片、音频、视频四种类型的输入,并且可以直接生成时长最长达10分钟的高清视频内容,生成准确率达到92%,远超行业平均水平。

在推理性能方面,豆包4.0采用了全新的稀疏注意力架构,推理速度提升了2.5倍,同时成本下降了60%,使得大规模C端用户使用高算力AI服务成为可能。字节跳动表示,目前豆包APP的月活用户已经突破2.8亿,是国内用户规模最大的AI应用之一。

行业应用布局

本次发布会上,字节跳动还宣布开放豆包4.0的API接口,面向企业客户提供定制化大模型解决方案,覆盖电商、教育、金融、制造等多个行业。目前已经有超过1200家企业客户参与了内测,包括华为、小米、京东等头部企业,相关AI应用的落地案例已经超过3000个。

值得注意的是,豆包4.0还首次支持了实时音视频交互功能,用户可以直接和AI进行视频通话,AI可以实时识别用户的手势、表情,并且给出对应的反馈,这项功能预计将在教育、远程办公、虚拟主播等场景得到广泛应用。

来源:智晓科创 | 发布时间:2026-05-13 09:05

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
有新私信 私信列表
搜索