发布时间2025-06-24 00:01:37 来源:小编 阅读次数:次
06月13日,2017年7月至今年9月全国检察机关办理公益诉讼案件逾百万件■★★◆★,
作为百度AI技术的核心,文心大模型在过去几年时间已从1.0连续迭代至4.5,再到最新4.5 Turbo和思考模型X1 Turbo的推出,恰为数字人直播提供了强大的支撑。
最终,呈现出一个具备高表现力,内容吸引人■★,人-物-场可自由交互的超拟真数字人。
然而老罗的语气就会从平静到热烈,开始激情澎湃◆◆★■◆:「没错★■★★,青岛啤酒,这可是线年就创立了,这不用说◆◆★■■,真老品牌了吧。来,萧木■★★◆,咱们先倒上■◆■◆★◆,给大家看看这酒体。」
首先,台词本身是有多样化风格的,需要配合主播本人去打造,因此百度团队开展了风格建模★★★■◆,能够实现对不同风格的生成和定制。
「弹幕上问我怎么辨别茅台真假,简单喝一口◆★◆,心疼就是真的★■■,肝疼就是假的■◆。」
多模驱动■★★◆,是指大语言模型基于任务目标与主播人设生成基础台词◆■■■★◆,并同步输出视觉与语音的多维标签★■。
我们在老罗数字人直播间里看到的两位数字人主播自然流畅、抑扬顿挫的语音,百度是如何通过技术手段实现的呢?
直播间直播时,数字人的回应如何照顾用户感受,将体验效果极大化,模型本身又触发的逻辑和策略,但还需要综合考虑产品体验。
06月13日,山西襄汾出土晋国贵族墓 陪葬器物折射诸侯国关系,高考前夕,“清华毕业生35岁再考清华■◆■◆★◆”的消息引发了社会的广泛关注■■★■◆。在社交平台上,李龙的网名为“清华李龙数学”,“考试前我就决定,如果成绩不理想,就想去掉清华毕业生的标签。”李龙介绍★★◆,对于最终的分数不做任何预估 ,只能等结果出来看,如果最终未能如愿只能说明自己能力不足★◆★★,明年不会再次参加高考。,BBIN体育网站■■◆◆,威尼斯登录首页■◆,球探体育比分苹果破解◆★■。
比如下面这段,首先朱萧木在开场时,会语气平静地说:「咱们今天给大家带来一款特别适合夏天聚会喝的啤酒。」
而且在此过程中◆★■★■,能保证语音、口型、表情与动作始终保持高度同步,从而实现真正的「音、容、话」一致。
身在高天上,与云层齐高,向大地望去★■■,可以清晰的见到■◆★,那里有一个巨大的足印★◆★■★,踩塌了一条山脉,诸多山峰碎掉了◆★■◆■■!
动态交互是数字人能够像真人一样◆■★,与用户互动的关键能力,也是体现数字人真实性的关键因素。
可以看出,这个过程中的难点,就在于语音的高度还原,以及双人配合中时常会出现的打断说话、附和说话。
【新智元导读】刚刚过去的618,罗永浩又创下炸裂新纪录——被自己的AI分身打败了!在百度电商直播间,罗永浩数字人强势登场★◆■◆★,不仅爆梗频出◆★★■★★、神似度拉满,还一举打破老罗本人首秀纪录★★★,成交额破5500万★■◆★◆■。这背后,大模型已成为幕后操盘手◆■★■★★!
新闻信息服务许可证音像制品出版许可证广播电视节目制作经营许可证网络视听许可证网络文化经营许可证
另外,看到两位主播在带货过程中有大量讲品的动作跟手势,这种高表现力的动作和标签◆★◆■◆,能给用户更强的感染力■◆■,但对技术的要求极高★★★■。
在以前,语音合成很多都是朗诵式的,非常字正腔圆,但在直播间里,说话就要更加自然◆■★■◆■、流畅◆■★★◆★,在特定场景时,主播还要非常有激情。
而且,直播间中还有一个复杂交互的问题■◆◆■★■,主播本人、面前商品以及背后场景的自由交互★■◆,都需要符合物理世界规律,不能出错。
第三,直播间讲品时◆■,在讲述有吸引力内容的同时要杜绝幻觉出现,因此要平衡内容的创造力和真实性◆■■■◆★,需要引入深度思考和知识增强等★■★■■。
未来,当数字人从直播间走向产业纵深,一场静默的技术渗透早已悄然展开——它们不再是替代人类的「打工人」★★★,而是进化成撬动行业升级的新杠杆。
而具体到老罗直播间◆★★◆★◆,因为整场直播的商品都非常丰富,不仅品类繁多◆◆,体积■■◆★、位置、用途也各异★◆■■,为了实现超长视频的一致性◆★,团队对人的ID和商品ID都进行了专门的建模■★★◆◆。
未来随着AI迭代★■◆,生成制作和在线服务成本,将会进一步下降为规模化应用铺平道路。
百度团队设计了丰富的动态交互模式,还通过视频断点设计,让动态视频片段能够在视频流中顺畅衔接。
这一血腥场景,不要说是现场亲身经历的那些人了,就是在远处观望的石村众人也都一阵发毛■◆■★◆,凶禽猛兽回归了,这是一场灾难!
作为国内最早投入大模型产研的企业之一,百度在芯片★◆★◆■、框架、模型、应用四层技术栈上全面布局,并构建起一套从技术到应用的完整战略打法。
文心大模型的泛化能力和迁移能力,使得数字人技术不仅适用头部主播★◆,也能快速适配中长尾主播■◆。
06月13日,宁波银行全面启动“3·15”金融消费者权益保护教育宣传活动★★★■◆★,
有了语音合成的数据◆■,和剧本对视频的要求之后,在视频的合成和生成时,就能够对高表现力的动作进行对齐,对唇动、表情生成进行对齐,最终实现「声、形◆★■■◆、意」三模态的统一■★★。
在数字人形象生成以及驱动方面◆◆■★,百度通过结合多模态视频理解、跨模态信号生成、视频生成等技术■◆,克服了高可控交互★■◆◆★◆,高精度、长时间一致性保持等难点★■◆■★◆,实现了高一致性超拟真罗永浩数字人长视频生成。
首先就是上文提到的多模协同,需要做到多向的对齐◆★★◆■,从而实现「音、容、话」三者的一致性。
「有人问方便面好不好吃,买回去尝尝,好吃就分给朋友一点■■◆★★,不好吃就全分给朋友。」
同时引入多角色协同机制,对不同主播的表达逻辑进行建模,使对话在语义推进、节奏控制和风格调性上保持协调一致,带给直播观众流畅、自然的观看体验◆★◆。
这次老罗直播的反响之所以如此热烈,一大原因就是两位主播老师活灵活现的台词。
“祭祀的力量果然存在,很不一般,若是举国共祭天,那将会产生怎样一种力量★■★◆★■?”几个族老心头一紧,不敢再多想了。
具体到老罗数字人的实际技术实施中■★◆■★,百度基于文心大模型4◆■■★.5 Turbo■◆★■,投入了他真人直播数据,依托转录挖掘、优质提炼、仿写合成与自动评估等四个环节不断优化训练语料◆■◆◆◆★,使模型学习两位主播的语言特点与思维习惯★★◆◆★★。
这种技术架构,不仅提升了直播的真实感,也为未来千人千面个性化奠定了基础。
最后一个挑战◆■,就是超长时长了。现在的一场直播动辄七八个小时,如何在这么长的时间里保持这种高度的一致性,也是很大的挑战■■◆■■■。
比如在语音合成的时候,会利用剧本当中的段间标签,来完成语音段间语调的协调一致★◆◆★,而文本内容也能驱动TTS完成细颗粒度语调的协调一致◆■★◆★◆。
据预测,数字人市场规模将在2026年突破百亿。而百度凭借先发优势,已经处于行业领先地位。
百度计划,在未来三个月到半年内,进一步优化技术降低成本,推动数字人直播的市场化。
这样◆★◆★,就做到了在很长的讲品时间内,数字人都体现出了令人惊叹的高可控交互■◆◆★★■、人和物品的双高精度,以及长时间的一致性。
村人都被吓坏了,心中敬畏,柳树的表现超乎想象◆■★◆★,很多人都拜倒了下去★■★,祈求它守护石村的安宁。
通过文本自控的语音合成大模型,实现字级别指令遵循的合成能力,控制声音效果的平滑流畅,再结合直播文本及发音人信息,合成风格恰当■■、自然流畅的声音。
而部分3C★◆★◆■■、食品等核心品类商品带货单量■■,老罗的数字人也直接吊打线月份在百度电商直播首秀的同期数据,用户平均观看直播的时长也超过了5月真人首秀。
“吱吱……”毛球握起金色的小拳头,给了他一个大大的白眼,进行鄙视◆■■◆,这打死也不能答应了。
即便是数据量较少的普通主播,模型也能通过其他主播数据,实现个性化数字人的生成■★★。
比如一个数字人举起茶杯★◆◆■◆■,嘴里说出「一起品着茶★◆◆★■,听我娓娓道来」,此外还有语音和动作的配合,这就必须做到人-物-场的信息一致性,才能生成对应的高可控视频。
为什么我们看到的「老罗」★■◆◆★◆,无论是长相、微表情、声音■★■★■■,还是口中爆出的梗,都如此酷似真人,形神兼备◆◆■★■■,模仿出了老罗的「灵魂」?
百度集团副总裁吴甜用了一个生动的比喻:数字人直播就像拍电影,剧本——语言模型提供整体框架◆★■■,而演员——语音和视觉模型在理解剧本的基础上进行个性发挥★■■◆。
该技术方案重点包含剧本驱动的数字人多模协同、融合多模规划与深度思考的剧本生成、动态决策的实时交互、文本自控的语音合成、高一致性超拟真数字人长视频生成五项创新技术,实现了数字人「神、形、音■◆、容、话」的高度统一。
从带货直播间到文旅场景,从在线客服到虚拟讲师……数字分身正在重新定义「生产力」的新边界★◆■★◆◆。
第二,就是打造拟真化的人设,进行不同人设的建模和还原,面对直播间存在多位主播的情况还要在台词生成阶段就考虑不同角色之间的协同。
而为了解决老罗和朱萧木这种老搭档式的双人配合,团队还加入了「对话上下文解码器」■◆★★■,将历史对话和当前对话的信息来统一进行合成时的推理计算,最终顺利实现了大量打断◆◆■★■、复说的场景。
标志人认为,在经济快速发展的时代,健康、生态■◆★◆★、环保将是衡量房地产品质的重要因素。
数字人直播的长期价值,在于对直播生态的重塑。它不仅是技术的胜利,更是市场接受度和生态融合的起点。