百度集团副总裁：AI新基建将加速产业智能化发展_人工智能_AI资讯

"新基建"持续升温，人工智能作为其中的重要一环，正在高速发展。4月7日，36氪"超级沙龙"直播栏目举办"新基建"专场，百度集团副总裁、深度学习技术及应用国家工程实验室副主任吴甜以"智能时代的AI基础设施建设与应用"为题，结合百度在人工智能领域的技术成果和落地案例，对"AI新基建"进行了解读。吴甜还在直播中"剧透"， WAVE Summit深度学习开发者峰会将在五月举办，届时会有一系列的核心能力发布。

吴甜在直播中表示，AI新基建是一项全方位工作，AI基础设施则是其中的一个大型技术系统和工程系统。基于AI基础设施的持续应用和创新，将反哺AI基础平台，促进整个AI系统进一步进化。目前百度大脑已经成为软硬一体AI大生产平台，在语音识别、视觉理解、语义理解、深度学习平台等领域取得了重大突破进展，并在工业制造、能源电力等领域落地应用，疫情期间，百度AI测温、智能外呼、AI算法、CT影像分析模型等技术和产品，也在疫情防控过程中发挥了巨大的应用价值。 AI产业化需要社会全方位多方整合力量创新，共生共赢的生态系统应运而生，同时还要重视人才培养，加大力度培养既懂应用场景，又懂AI技术的复合型新型人才，促成应用更加繁荣。

吴甜直播分享包含AI基础设施、AI应用价值、AI生态系统、AI人才培养四个方面，全文整理内容如下：

大家晚上好！最近这段时间随着加快新基建的要求提出，新基建的建设已经成为非常重要的话题，我今天带来的是关于人工智能新型基础设施建的理解，后面我会简称为AI 新基建。新型基础设施建设简称新基建，是以5G、人工智能、工业互联网、物联网为代表的新型基础设施，本质上来说，它是信息数字化的基础设施。AI新基建是非常新的概念，今天我分四个部分来介绍我对AI新基建的理解。

一、AI基础设施

首先介绍的是AI新基建中最基础、最重要的硬核部分——技术平台。以百度为例，我们以AI技术平台为核心构建了一套AI基础设施。

AI技术涵盖的子领域非常广，整个AI技术系统本身开放性很强，它和应用场景也有非常多的结合，和应用紧密相关，而且会随着应用持续进化，所以它也并不是一成不变的，而是一个不断演进、演化的系统。

百度大脑是百度AI技术的集大成，简单的回溯一下百度大脑发展历程。

在百度成立之初就已经在大量使用AI技术了，比如在搜索引擎中使用自然语言处理、知识图谱等技术。2010年开始，百度开始进行基础能力的积累，AI布局也自此开始初具雏形。2016年，百度大脑完成基础能力积累，AI能力开始逐步开放。2017年，百度大脑构建了完整的技术体系，AI能力进入了全面开放的阶段。2018年，百度大脑的核心技术进入到"多模态与深度语义理解"阶段，"多模态"就是综合语音、视觉、文本理解能力，并且是深度、多层次的语义理解，AI在这个时候开始多维度、多层次的开放。2019年，百度大脑进一步升级为软硬一体AI大生产平台，进入到AI能力和应用场景的融合创新阶段，广泛的和各行各业场景结合，成为了AI时代的生产平台。

先看一看AI大生产平台是一个什么样的平台。这个名字大家可能会觉得有些黑盒，打开黑盒看，它的组成部分中，最基础的是算力和数据平台。在整个生产平台上，深度学习平台是底座基础，开发者可以在这个平台进行自己AI应用的开发；这里也会有通用的AI能力，像语音、视觉、自然语言处理、知识图谱一系列AI能力的调用；再结合到场景当中，有大量应场景需要进行定制训练的需求，所以开放了定制训练平台；最终整个平台上积累的能力需要和业务系统进行部署和集成，所以也提供了部署与集成的工具与平台，在此基础上形成技术解决方案。整个大生产平台有AI安全保驾护航，AI应用中安全也是重要的话题。

从平台底层向上，我们逐层看看各部分的含义以及现在的进展。最底层是AI基础架构，这是整个AI大生产平台的计算底层。随着AI算法能力的提升，对于算力的要求是越来越高的，有这些算力的基础资源，才有可能对大数据进行计算，最后产生AI算法模型。AI+5G的时代即将到来，未来计算将会无处不在，它会从云扩展到端、边缘，在我们身边就能够时刻进行各种各样的计算。在百度大脑上全新的AI计算架构通过芯片层、互联层、系统层、调度层，能够进行协同设计和技术创新，最终可以提供百万TOPS量级强大的计算力。与此同时芯片、系统、设备都能够进行互相连接，将不同场景中的计算连接在一起，产生更大的计算能力。

百度在使用经典的芯片基础上，也有自研芯片，一个是云端通用AI处理器"百度昆仑"，针对语音、自然语言处理还有图像进行专项优化，性能可以更加提升，同时百度昆仑和飞桨深度学习平台进行了深度适配，使编程灵活度更高，能够灵活支持训练和预测。同等性能下使用"百度昆仑"，成本上可以降低10倍。这是云上的处理器，还有一款在端上的"百度鸿鹄"，是专用于远场语音交互的芯片，这款芯片采用新的设计理念，遵循软件定义芯片全新设计思路，这里面也有相应的核心参数，能够在100毫瓦功耗情况下，支持远场语音交互核心的阵列信号处理和语音唤醒能力。这些会用于车载语音交互和智能家居产品场景，带来低功耗、高性能的产品，也带来更大的想象空间。鸿鹄芯片已经实现了量产，现在已经在百度相应产品当中使用了。

向下连接芯片，向上连接了应用场景的就是深度学习框架及平台，在AI时代帮助开发者快速便捷完成深度学习技术研发，这是深度学习平台的使命。深度学习平台是智能时代的操作系统。

飞桨深度学习开源开放平台上已经构建起了全方位、全功能的一套平台，从飞桨的全景图可以看出，飞桨在核心框架层能够支持开发者进行开发、训练、预测，整个全流程的研发工作。百度在飞桨上还发布了自己以及百度行业伙伴一起打磨验证的一系列工业级模型，建立了覆盖自然语言处理、视觉、推荐、语音等主流AI算法的官方模型库。

真实在场景当中应用的时候，往往还需要端到端配套的开发套件，让整个开发过程更加便捷、便利，并且能够复用以前做好的各种各样的积累。飞桨在语义理解、目标检测、图像分割、点击率预估四大场景都有配套的套件，可以非常便捷的使用。

在深度学习各个方向上，飞桨平台上也提供了相应的工具组件，从平台层使用的时候提供了服务平台。这样一个全方位的、全功能的平台，其实是针对在众多应用过程当中不断发现的应用难题和挑战建设起来的。飞桨平台在开发的过程中，提供了便捷的框架，在训练过程当中提供了超大规模深度学习模型训练技术，在部署上也是针对多端、多平台全面部署的高性能的推理引擎，还有开源模型库，综合提供出来供产业使用。

介绍了算力、开发框架和平台，再看几大AI算法方向上目前为止最新的进展。

首先看一看语音识别方向，语音识别在AI算法当中是发展历史比较悠久，目前也是可用性非常高的技术，当然它也还持续有技术上的突破。百度上线了首个基于流式注意力的语音识别线上服务，这也是在国际上首次实现在线语音识别中大规模使用注意力模型。这个技术使用以后，在语音输入法场景下相对准确率有50%的提升，在音箱这类产品准确率提升到20%。随着端侧智能设备不断广泛使用，离线语音识别在无网、弱网状态有越来越多的需求，百度语音技术团队通过系统性优化，解决了语言模型裁减性能损失问题，使离线模型有非常高的识别率。

语音合成方面，如果合成出来的声音偏重于机械感，缺少情感，听者在长时间听的情况下会产生疲惫，所以音色模拟、情感模拟等，都会是语音合成技术需要突破的挑战。百度推出的语音合成技术，可以用20句话制作专属的定制语音，将声音当中的音色、风格、情感等要素映射到不同的子空间，使用的时候不同要素进行任意的组合。在百度地图上已经推出了全球首个地图语音定制功能，只需要录制20句话就可以做成一个个人专属的语音包。

视觉理解方面，这些年在OCR物体检测、视频理解、目标跟踪等业界领先的图像视频技术，百度多次在国内外顶级赛事中取得佳绩，并且在机械制造、金融、医疗、教育等领域得到非常广泛的使用。

虚拟形象合成方面，在对大量语音、视觉以及文本的理解能力达到了非常好的水平之后，AI算法也在推进做虚拟形象合成，尽可能形成更加自然、更像真人、更加具有丰富情感的虚拟形象。百度虚拟形象合成技术其实结合了多模态识别和理解，语音识别、视频理解等等，再加上面部、肢体、嘴形的生成能力，还有语音合成TTS的技术，实现了业界首个可以进行量产视频的真人形象的虚拟主播，在多个场景当中应用，央视和百度合作打造过AI虚拟主持人小灵，在央视去年的五四晚会亮相；澎湃新闻和百度打造了第一个虚拟真人形象的主播，用在早晚新闻栏目上；浦发银行和百度合作打造了业界首个金融数字人，有情感有专业的银行知识，能够提升银行的客服体验。

语音、视觉等技术在人工智能技术中属于感知层技术，类比于人的感知能力。人还有非常强的认知能力，对人工智能而言，认知能力主要体现在自然语言处理、知识图谱等语言和知识类技术上。百度构建了超大规模多元异构知识图谱，包括实体图谱、事件图谱、行业图谱、关注点图谱、POI图谱，这些图谱都会根据需求场景需要，不断扩充和延展。

举一个例子，基于知识图谱视频语义理解，从视觉视角上提取特征，通过语音识别对视频当中人物的对话、言论等等进行语音的识别和提取特征，还可以对视频标题以及周边文本进行文本理解。这些基础理解之后，再结合知识图谱中的视频理解子图，在知识图谱中进行计算和推理，对刚刚产生的理解的标签、理解的特征进行补全、关联等等一系列操作，最终用在产品上，将会对整个视频内容有更深度的理解。这是用感知技术和认知技术进行多模态融合的典型例子。

AI技术如果能够完全、充分理解人的语言，将会是迈向通用人工智能技术非常重要的突破。这方面百度也持续有新的突破。百度推出的ERNIE是持续学习的语义理解框架，可以进行增强的语义理解。比如我们想让AI算法理解实体，我们会用百科的内容、网页内容进行实体识别任务的构造，然后由预训练模型进行学习，再对场景上进行针对性的fine-tuning，这样可以得到实体学习更强的语义理解模型。再复杂一点的任务，比如构建因果关系的识别任务，也是通过技术方式，构造大量因果的知识，然后由大的预训练模型进行学习，再进行任务上的调优学习。百度ERNIE模型已经学习了13亿以上的知识，在NLP任务上全面刷新了任务效果，目前在共计16个中英文效果上超过了BERT、XLNet，取得了SOTA效果。这张图展示出来的就是不断加以新的知识，让ERNIE在持续学习过程中，推动自然语言推断、自动问答、文本相似度、情感分析任务上等等有持续不断的效果提升。

以上是AI技术方向最新的进展概览，百度大脑也打造了完整的AI安全体系，从基础开源技术矩阵到开放行业解决方案，到与学术界、企业、政府、机构等开放协作，整个技术产品已经覆盖到了云管端，以及大数据、云计算一系列风险问题，这样的安全体系也是为AI技术产业应用有一个保驾护航的作用，可以推动AI时代安全生态的建设，让大家在使用AI技术开展各种各样应用创新的时候，没有安全的后顾之忧。

刚刚以百度工作为例，详细说明了AI新基建当中最基础的技术平台现在的状态，新基建不仅仅是技术平台，所以接下来进入今天要分享的第二部分，AI应用价值的创造。

二、AI应用价值

百度AI技术应用在互联网产品当中，也已经有大量的实践，比如说AI赋能的智能搜索、信息流推荐、新一代人工智能地图等等，以及AI为核心能力的智能家居小度系列产品，还有自动驾驶阿波罗等等，这些百度已有的产品上， AI已经带来了非常多的价值。另一方面，AI技术其实也已经体现在面向各行各业的应用价值了，我今天还想重点分享一下AI+云赋能产业变革与创新。

先看看这样一个过程。首先我们需要先面对大量数据的生产和数据的应用，所以我们在百度智能云上有推出数据工厂，在数据工厂当中通过数据众包、加工、标注等一系列工作进行数据处理，也结合百度提供的数据集，以及整理的第三方行业数据资源，形成基本的数据集，在应用当中通过数据管理、数据评测的平台等等，使得整个数据能够形成一个闭环效应。完整的闭环数据会充分帮助算法达到最佳效果。数据生产之后会进入到模型工厂，在AI技术平台支撑下，可以融合算力、数据、算法，结合场景产生模型，最终应用到业务系统当中。

我分享一些应用场景的案例。

智能工业巡检。AI应用于智能工业巡检，在针对场景定义的问题上，主要是应用图像的分类、分割、检测的方法，实现快速准确的识别。比如安全帽佩戴的检测，尤其是矿井里的安全帽佩戴检测，烟火的警报，仪器表的读数识别等等，这其中应用了AI的算法，相当于训练除了有经验的巡检员，可以大幅减少人工投入，也降低了人工学习的成本。

智能质检。一线质检里面工人要进行很长时间工作进行零件质检，尤其是精密零件质检，零件非常小，这些质检工作需要在强光下进行，长时间在强光下看微小的瑕疵，容易造成工人眼睛的疲劳。案例里的工厂需要每天对出厂的2000多万的产品进行检测工作，质检员每天要检测多达1万多个零件，每分钟每个工人需要检测19个，还需要对零件从多个不同的角度的多个缺陷进行分类。用AI赋能的表面缺陷视觉检测识别设备，它通过百度AI技术和云技术，自动对物体表面缺陷进行大小、位置、形状的检测，并按照品质分门别类分好，它总体上可以帮助节省90%的人员成本，整个设备相比起原来的工作桌，占地面积减少80%，漏检率也大幅度降低。

这两个都是感知层，视觉技术为主的应用案例。感知层技术加上认知层技术，就可以在智能媒体上发挥作用，通过热点发现、智能写作、智能勘误，以及智能发布整个全流程，可以助力新闻的生产全流程。

今天还带来了几个在最近的抗疫过程当中，给疫情的筛查、管理带来帮助的解决方案。首先是AI测温，AI测温是一套可以非接触进行远距离多人测温的设备，现在也已经在数百个场所部署，帮助全国各地完成了700万人次的初筛工作。AI测温的过程分为几个方面，首先在行人路过的时候，通过红外热像仪能够捕获温度，通过光学相机，摄像头能够不间断地对戴口罩的多人进行远距离的人脸检测。这套方案也在企业内部署，形成企业入场方案，测温之后还可以进行人脸识别、智能监控，并且如果同企业报备系统打通之后，可以自动识别员工是否符合复工入厂的要求。这里面采用的AI技术就是人脸检测、跟踪算法等，可以精准实现人脸定位，即使戴上口罩，现在也可以进行人脸识别。

在过去的两个月大家已经感受到了，社区工作者在整个抗疫管理中做了非常多的一线工作，百度推出的基于智能对话技术的外呼系统帮助进行人员的随访，能够进行批量的外呼，人工智能语音随访通过自动的外呼系统，触达到人群，并和他们交流，进行防疫信息采集和疫情防控相关的提醒。这些信息也可以立即形成结构化数据分析报告，支撑后续一系列的决策或者管理。整个外呼系统应用了语音、自然语言处理、知识图谱等等技术。

在医护人员最忙碌的时候，护理信息数据采集、登记、录入等等也是他们每天非常重要的工作，百度和相关的伙伴一起打造了语音临床护理数据采集系统，让护理人员通过这样的设备进行语音录入。医护人员不用摘掉手套、口罩，不用脱下防护服，可以非常轻松的手持设备进行语音录入，很快就可以输入大量护理信息，并将信息自动上传至医院的电子病历系统。新冠肺炎相对应的临床数据中，有非常多的医疗专用词汇、专业医疗符号等，我们语音系统也快速进行了定制训练，在医护语音录入场景中语音录入准确率可以达到92%以上，这套系统已经在烟台市传染病医院多个科室部署使用。

病毒分析和疫苗研发也是抗疫工作当中非常重要的一个工作，在2019年百度曾提出了Linearfold算法，这个算法可以将病毒全基因组RNA二级结构分析的时间从55分钟缩短到27秒，大幅度提升RNA二级结构分析的速度。我们知道RNA结构分析在病毒分析和疫苗研发当中是非常重要的，这项工作发表了之后，受到了诸多业内专家高度的评价，目前也是在和很多机构进行合作，希望AI算法能够助力医学科技。

最后我还想分享的一个是飞桨和连心医疗开源肺炎CT影像分析模型，能够提升在肺炎CT影像筛查当中医护人员的工作效率，这个模型本身病灶检测精度可以达到92%，召回率97%，湘南学院附属医院在应用当中了。

这些都是AI技术和场景结合之后所带来一系列的价值，这也是我今天分享的第二部分，就是技术不断的在产生应用价值，而这些应用价值恰恰是作为新基建非常重要的。

三、AI生态系统

在我们与广大的行业伙伴进行合作过程当中，我们也看到，对于大量企业来说，业务创新和应用落地过程中存在着一系列的挑战。比如说研发方面，AI技术的应用门槛挺高的，开发周期往往不太可控，有经验的技术人员可以开发周期比较短，但是经验比较缺乏的研发团队可能经过较长的时间才能验证、得到最佳的效果。很多企业在进行了AI加持的产品和解决方案研发之后，也需要有市场营销以及相应的整个过程需要大量的资金投入。我们希望AI技术能够更便利的、方便的被广大企业所使用。

所以百度大脑开放平台构建了多层次开放能力的结构，最基础的有飞桨深度学习平台，面向场景还有定制开发平台以及开放的能力，以及最后的部署集成的一套过程。现在在百度大脑开放平台上已经开放了248项能力，整个百度大脑的日调用量超过万亿，在百度大脑开放平台和飞桨平台上进行开发的开发者超过180万，发布模型10多万以上，这些模型都在大量场景中使用。AI产业化落地整个链条比较长、比较复杂、角色很多，整个生态系统中从硬件供应商到技术平台、到软件供应、到应用开发、到最后的终端场景，也是多层、完整的生态系统，这样一套AI生态系统也已经形成了，并在基础设施上不断发挥作用。

刚才我介绍的应用场景落地的方案，很多都是在百度大脑生态系统中研发落地的。

四、AI人才培养

有了技术平台、终端场景以及生态角色，其实贯穿始终的还有非常重要的人工智能产业智能化相应所需要的人才。AI人才中需要基础的理论人才、算法人才，在应用落地当中既懂应用场景，又懂AI技术的复合型人才，这类人才更加重要。大的技术平台型公司中有这类人才，但是想让AI技术和产业广泛结合时，我们会发现这类复合型人才更需要各个终端场景以及我们生态中的各个生态企业不断培养和积累。技术边界和业务理解本身是存在鸿沟的，怎么弥补鸿沟？就需要复合型人才来做。

所以百度推出了一系列对AI人才、应用型人才的培养计划，我今天介绍其中一个项目，"首席AI架构师培养计划"。怎么定义首席AI架构师？我们认为在企业当中，懂自己的业务场景、懂应用当中的挑战与难题，又懂AI技术和算法，又同时能够落地实施的综合性人才，是企业当中的首席AI架构师。对希望应用AI技术进行智能化转型的企业，这类架构师非常重要。所以我们推出了"黄埔学院"项目，在这个项目当中有深度学习技术专家进行面对面深度交流，会有深度学习技术落地的关键认知传承，会和学员们一起剖析场景需求和AI技术学习的典型案例，最后总结AI思维、学习、工作方案解决实际场景问题，在实际场景当中产生应用价值。

今天分享的主要是四个部分内容，最后用一页进行一个小结。