当你随意逛进某个直播间,正在滔滔不绝地叫卖商品的主播,有没有可能只是一个虚拟的数字人?6月17日上午,“活力中国调研行”北京采访团来到位于北京经济技术开发区的模数世界,在这个专注于人工智能场景应用与创新的产业园区,记者目睹了一家生成式AI技术供应商在现场“制造”一名数字人主播的初始流程。
“看一号链接,北京人夏天必吃的瓜中顶流——大兴区的庞各庄西瓜,长在沙壤里,昼夜温差大,又脆又甜,放心拍,放心买……”面对一套专用的摄影设备,北京广播电视台主持人贾维琳化身为一名带货主播,在模拟直播间里,为“活力中国调研行”北京采访团现场演示带货场景。通过北京广益集思科技有限公司(以下简称“集思科技”)两年前研发的数字人主播生成大模型,其形象、声音、体态等信息,按照3分钟时长被采集了3份样本,“丢进”集思科技专属电商场景模型,进行两小时的“训练”,一名高度仿真的数字人主播“完美现身”。
“这可不是一名普普通通的带货主播,它可以像真人一样有口音、个性化,但比真人更‘聪明’,可以同时察觉到所有进入直播间的消费者的用户行为,有针对性地做出销售决策,并且,它还可以24小时不间断工作。”集思科技CEO李世尊告诉《金融时报》记者,真人做不到长时间不知疲倦地卖货,更不具备数字人的“分身术”,消费者看到的,是一个主播,其实背后是很多智能体在相互协作,包括提示词工程,最终得到的是一个产出结果。
据李世尊介绍,让数字人变得“很聪明”的做法,是先行采集包括商家提供必备资料在内的有关商品的庞大信息,再输入大模型。倘若遇到一些“刁钻”的用户,还可以通过大模型将数字人主播打造得更加超能,也就是将知识补充得更完整。
数据显示,作为国内数字人电商直播的行业创造者和首批“入孵”模数世界的企业,集思科技自2022年2月全网首发数字人直播带货,在不到3年的时间内,已经为500多家大型品牌客户提供服务,触达消费者逾2000多万人。
“为品牌提供面向消费者的AI销售人力,主要依赖三个技术,一是计算机视觉生成技术,需要对真人形象进行克隆,比如真实的主持人并没有在刚才录制的3分钟内说坏果怎么退、退货怎么办、发哪家快递公司,但生成的数字人可以根据真人形象讲解新内容,因此就有了第二项技术,文字生成语音技术,在这个环节,我们特意针对不同商品的消费数据,为数字人主播加入恰当的地方口音,比如上海口音卖洋酒、闽南口音卖鱼干。”李世尊说。
“第三项技术,就是针对直播场景中的情绪和气氛作大量微调,以避免不真实的销售状态发生,这是最难的技术环节,需要数字人能够及时调动知识库、及时检索,以获取正确的知识点,这显然离不开众多智能体及提示词工程的协同运作,有的智能体负责过渡话术,有的负责决策行为,目的都是为了准确领会消费者意图,既要特别懂商品,又要特别懂买家。”李世尊对记者说,从语音识别、图像识别到自然语言处理,再到复杂的数据分析和预测,人工智能的能力在不断接近甚至超越人类在某些特定任务上的表现——无限个性化、无限多样性,正是那些源于小小一片物理硅芯片、在科幻片中常被描绘成强大且神秘存在的“硅基生命”带给每一个人的“意想不到”。
以大模型为代表的生成式人工智能(AIGC)技术的落地应用,还在层出不穷涌现。作为数字经济发展的重要引擎,人工智能技术在加速扩大应用范围。《“十四五”数字经济发展规划》明确提出,要加快推动人工智能发展,促进数字技术和实体经济深度融合。
2023年,北京市发布旨在加快发展数字经济的北京“数据二十条”,培育和发展数据要素市场,加快建设全球数字经济标杆城市。在“构建适应数据特征、符合数字经济发展规律、保障国家数据安全、彰显创新引领的数据基础制度”的指导思想下,北京数据基础制度先行区创建工作于2023年启动,争取到2030年,完全建成北京数据基础制度先行区,打造数据要素市场化配置的政策高地、可信空间和数据工场。
服务数字经济发展的新型基础设施建设在稳步推进中。来自北京市经济和信息化局的统计数据显示,5G、IPv6、工业互联网、智能算力等取得阶段性进展,累计建设5G基站14.12万个,每万人拥有5G基站数64.7个。2025年一季度北京全市新增智能算力供给1.1万P,供给总规模超3.3万P,形成国内绿色算力资源最丰富的京津冀蒙环京算力供给廊道。
记者了解到,北京数据基础制度先行区公共智算中心作为北京最大规模的公共智算中心,已为政府、科研机构、人工智能企业提供5000P高性能智能算力,相当于同时支持50个千亿参数大模型训练,可使大模型训练周期缩短30%。运营以来,已服务百度、智谱等一百多家企业,为企业提供普惠算力支持。
“先行区打造的产业人工智能赋能中心,已构建起‘算力广场、数据商城、模型超市、调优工厂’的全栈赋能体系,数据商城依托大模型实现供需精准匹配,效率提升三倍,成本降低一半。”北京亦庄智能城市研究院集团有限公司党委书记、董事长、总经理颜敏说。
在算力、高速通信网络等技术支持下,北京数字经济不断发展,取得多项创新成果:豆包大模型对齐GPT4.0水平、统信软件发布国内首个可接入大模型的开源操作系统、智谱首发支持生成汉字的开源文生图模型、Kimi的200万字上下文能力领跑行业、生数科技发布国内首个文生视频模型Vidu、快手可灵大模型支持生成时长3分钟且分辨率达1080P的高清视频、国地共建具身智能机器人创新中心发布首个支持多本体多场景应用的通用具身智能平台——“慧思开物”……目前,北京市超过130款大模型通过中央网信办备案,约占全国35%,生态逐步形成。
全国首个元宇宙数字体验综合体在首钢园落地、北斗产业发展指数位列全国第一、“长安链”2024年市场占有率位居国内第一名、300多万行源代码无保留开放下载……北京市人工智能、元宇宙、区块链、北斗等产业呈现蓬勃发展态势。2024年,北京市人工智能核心企业超过2400家,核心产YY易游体育官方网站业营收近3500亿元。
2024年12月25日,北京经济技术开发区宣布打造模数世界人工智能新质产业社区,以大模型和数据要素为核心驱动,探索人工智能创新生态服务体系、开放场景应用平台,助力北京亦庄打造“人工智能应用发展新高地”,这将成为全国规模最大、北京首个人工智能新质社区集群。首批10家行业领先企业正式签约入驻,整体投资规模突破200亿元。入驻模数世界5层空间的集思科技,是模数世界整体竣工交付之后的首家入驻企业。
“锚定建设全域人工智能之城这一战略目标,模数世界致力于统筹区域场景工作和联动全市场景资源,推动建设高质量标杆场景应用。”模数世界总经理朱璐璐介绍,模数世界将聚焦不同企业的不同成长阶段需求,打造启源、进化、领航三大部落,差异化推动算力调度、数据开放、金融服务、综合服务、人才服务等区域资源供给,推动“入孵”企业“从初创到链主”的全生命周期发展。
所谓场景资源,是推动人工智能技术发展和应用落地的关键因素之一,为人工智能模型提供了丰富的数据素材。记者了解到,以图像识别为例,当模型接触到不同光照条件、不同角度拍摄的同一物体图像时,能够更好地学习物体的本质特征,而不是仅仅依赖于某个特定场景下的图像特征,这使得模型在面对新的、未见过的场景时,也能准确地识别出目标物体,增强模型的泛化能力。
“作为全国唯一一个集六区政策合一的高端经济功能区,经开区将汇聚全区优势资源,为企业绘制贯穿生命周期的成长蓝图,打造成全球‘AI+产业场景应用的标杆阵地’。”北京经济技术开发区有关负责人说。
源于丰富的应用场景、海量的数据资源和领先的技术优势,北京数字经济实现了快速发展。2024年,北京市数字经济增加值突破2.2万亿元,同比增长7.7%,其中数字经济核心产业增加值增速达到10.1%。2025年一季度,北京市数字经济增加值同比增长8.3%,其中核心产业增长9.7%,继续保持增长态势。
“十四五”期间,北京市数字技术与制造业、农业、金融、广告、贸易等各行业深度融合,产业数字化转型升级成效显著。实施制造业数字化转型三年行动方案,2024年度581家企业达标。GE医疗北京基地成为国内医疗设备行业首家“灯塔工厂”;加快农业数字化建设,数字菜田应用物联网设备1.97万套;市管企业数字人民币试点交易规模超190亿元;数字广告业营收规模超过1500亿元;建成北京跨境电子合同签署平台,接入认证企业超过1.4万家。(本文图片 方华 摄)