科技行者
算力行者
今天,首届wave summit 2019深度学习开发者峰会在北京举办,百度展示了paddlepaddle全景图,并发布了11项新特性及服务。
会上,百度高级副总裁、深度学习技术及应用国家工程实验室主任王海峰表示,“深度学习推动人工智能进入工业大生产阶段,而深度学习框架是智能时代的操作系统。”他认为,深度学习技术已经具备了很强的通用性,正在推动人工智能进入工业大生产阶段,呈现出标准化、自动化和模块化的特点。深度学习框架承上启下,下接芯片、大型计算机系统,上承各种业务模型、行业应用,是智能时代的操作系统。
作为最早研究深度学习技术的公司之一,百度早在2013年即设立全球首个深度学习研究院。经过沉淀与积累,2016年百度paddlepaddle 正式开源,成为中国首个也是目前国内唯一开源开放、功能完备的端到端深度学习平台。2017年,由国家发改委批复,百度牵头筹建了国内唯一的深度学习技术及应用国家工程实验室。百度在深度学习领域的实力可见一斑。
核心技术,是国之重器。开源三年的paddlepaddle在深度学习开发者峰会上交出斐然的“成绩单”。
百度深度学习技术平台部总监马艳军首次对外公布了paddlepaddle全景图,集核心框架、工具组件和服务平台为一体的端到端开源深度学习平台,囊括支持面向真实场景应用、达到工业级应用效果的模型,针对大规模数据场景的分布式训练能力、支持多种异构硬件的高速推理引擎等。此次,重磅发布11项新特性及服务,包含paddlenlp、视频识别工具集、paddle serving、paddleslim、autodl design等多种深度学习开发、训练、预测环节的“硬通货”。现场还宣布“1亿元”ai studio算力支持计划,首次公布paddlepaddle中文名“飞桨”。
马艳军表示,“百度为大家提供的不仅是深度学习框架,而是提供一整套紧密关联、灵活组合的完整工具组件和服务平台,全面覆盖初学者、零算法基础工程师、算法工程师、研究者,平台功能覆盖更加完备,覆盖的用户更全面,各部分的打通更加顺畅。”
首先,核心框架层开放了从开发到训练,再到预测的一整套完整能力。开发环节, paddlepaddle已开源60多个经过真实业务场景验证的官方模型,涵盖视觉、nlp、推荐等 ai核心技术领域,成为官方支持模型最多的深度学习平台。全新发布paddlecv及业界首个视频识别工具集。面向工业应用的中文 nlp 工具集 paddlenlp,将自然语言处理领域的多种模型用一套共享骨架代码实现,可减少开发者在开发过程中的重复工作。拥有当前业内效果最好的中?语义表示模型和基于用户大数据训练的应用任务模型,模型源于产业实践,达到工业级的应用效果。
首次重磅发布的视频识别工具集,为开发者提供解决视频理解、视频编辑、视频生成等一系列任务。它开放了7个视频分类经典模型,这些模型共享一套配置文件,并且在数据的读取、评估等方面共享一套代码,覆盖视频识别方向的主流领先模型,还可实现一键式的高效配置来做训练和预测。
训练环节,大规模分布式训练主要从三方面实现了升级。首先多机多卡的全面高效支持,提升了速度;其次是在cpu的应用场景方面,针对大规模稀疏特征设计并开放了大规模稀疏参数服务器,开发者可轻松下载相关镜像使用;大规模分布式训练支持在各种容器上高速运行,同时支持在k8s生态下使用paddlepaddle进行训练。
数据处理方面,优化分布式io,增加远程文件系统流式读取能力。gpu多机多卡同步训练通过增加稀疏通信能力提升带宽不敏感训练能力,在低配网络带宽网络环境下,例如10g网络下,同步训练可提速10倍。
开发和训练后,将模型部署到各种应用场景下是非常关键的一个步骤。部署环节需要高速的推理引擎,在此基础上,为了部署在更多的硬件上往往需要做模型压缩,在真正使用时,还需要软硬一体能力的支持。基于此,paddlepaddle准备了完整的端到端的全流程部署方案,并将持续扩展对各类硬件的支持。基于多硬件的支持,paddlepaddle提供性能全面领先的底层加速库和推理引擎,全新发布paddle serving支持服务器端的快速部署。不仅如此,模型体积压缩库paddleslim也是为开发者准备的“重磅惊喜”,针对体积已经很小的mobilenet模型,它仍能在模型效果不损失的前提下实现70%以上的体积压缩。
灵活、高效、易用是paddlepaddle大受欢迎的重要原因。在多项全新发布及重磅升级中,工具组件方面显得尤为突出。此次,paddlepaddle不仅重磅开源autodl design、升级parl,并首次提出并发布预训练一站式管理工具paddlehub。
传统神经网络的结构设计是由人根据经验设计,并不断的进行调参训练获得最优结果,这个过程较为复杂和费时费力。autodl design自动化网络结构设计是用深度学习设计深度学习,目前已经全面超过人类专家设计的网络效果。升级后的强化学习工具parl,在算法的覆盖、高性能通讯以及并行的训练方面做了大量支持和扩展。简明易用的预训练模型管理工具paddlehub,提供包括预训练模型管理、命令行一键式使用和迁移学习三大功能,10行代码即可让开发者完成模型迁移。
大数据、大模型、大算力是深度学习发展的必备因素,算力的重要性不言而喻。百度豪掷1亿元免费算力,力为普通开发者破除算力桎梏。马艳军宣布,百度一站式开发平台ai studio重磅推出算力支持计划,“我们提供总计1亿元免费算力,助力开发者成功”。据介绍,免费算力主要以两种模式提供,第一种是一人一卡模式,v100的训练卡包括16g的显存,最高2t的存储空间。另外一种是远程集群模式,paddlepaddle提供高性能集群,供开发者免费使用。
深度学习的标准化、自动化、模块化推动人工智能进入工业大生产阶段,也进一步为产业升级提供了强有力的“助攻”。基于paddlepaddle,北京林业大学研发的面向信息素诱捕器的智能虫情监测系统,研究对象是红脂大小蠹。这套检测系统的应用大幅降低虫情监测的人力成本,以往人工检测需要一周的工作量,现在用自动检测一小时内就能处理完。中科院遥感与数字地球研究所应用paddlepaddle faster r-cnn模型,结合特征提取网络vgg16及区域建议网络(region proposal network,rpn),以及融合attention机制的deeplab v3网络对遥感影像进行目标检测与语义分割,从而实现对重大工程目标与建设用地变化图斑的提取。辅助国家进行重大工程用地扩张与变化情况的监测工作,并对土地资源的利用进行有效管理与控制。
深度学习发展一方面是技术的不断创新突破,另一方面需要建设完整健康的生态。高校方面,百度提供深度学习师资培训,并通过协同育人专项基金以及ai studio教育版,培育深度学习领域高校人才;在开发者社区中,paddlepaddle提供免费在线课程、免费算力支持,以及不间断的赛事互动,持续推动深度学习技术发展;企业方面,不仅举办黄埔学院,还发布了“ai快车道”计划以及ai技术的生态扶持计划,预计深度扶植1000家ai企业。
此外,本次大会百度还为开发者们精心打造了属于他们的深度学习“江湖”,不但有传授深度学习“武功秘籍”的公开课,还有“实战过招”的开发者市集,一次性满足深度学习开发者从“心法招式”到“当面切磋”的需求。
这一场过千位开发者组成的深度学习开发者峰会,必将掀起国内深度学习史无前例的浪潮,加速深度学习技术的发展和产业应用,必将成为历史上不可磨灭的一笔。
好文章,需要你的鼓励
“是不是让小牛电动车也拥有siri语音交互”?“是不是也让电动车可以像汽车那样,蓝牙近距离开锁”?