国产AI框架飞桨新进化:Paddle Lite正式发布,支持华为NPU在线编译

  • 时间:
  • 浏览:3
  • 来源:10分6合官网平台_10分6合网投平台_10分6合投注平台_10分6合娱乐平台

8月21日量子位 报道,国产AI框架飞桨带来新进化:Paddle Lite正式发布!高扩展、高性能、轻量化,还是首个支持华为NPU在线编译的宽度学习端侧推理框架,剑指加大力度攻占移动端侧场景。或者 大环境这麼,曾经的自主研发基础框架进展,总要了更多的寄寓。诚意和实力方面也值得称道。针对更广泛、更异构的AI硬件支持,是Paddle Lite的核心亮点之一。

此次升级发布,Paddle Lite的架构有了重大升级,在多硬件、多平台以及硬件混合调度的支持上更加完备。

不仅中有 ARM CPU、Mali GPU、Adreno GPU、华为NPU等移动端芯片,也支持FPGA等边缘设备常用硬件,并具备可兼容支持云端主流芯片的能力。

其中,Paddle Lite还成为了首个华为NPU在线编译的宽度学习推理框架。更早事先,百度和华为表态在AI开发者大会上强强联手。

值得一提的是,对标Google推出的TensorFlow Lite,升级发布的Paddle Lite更是直接围绕前者匮乏进行了补强。

官方表示,不仅支持范围更广的AI硬件终端,增强了部署的普适性,或者 具备明显的性能优势。

AI框架的竞争,愈加激烈,也进入全新阶段。

何为Paddle Lite?

Paddle Lite,是Paddle Mobile的进化版,是一款主打端侧高性能轻量化部署的推理引擎。

核心用途是将训练出的模型在不同硬件平台场景下快速部署,根据输入数据,执行预测推理得到计算结果,支持实际的业务应用。

在AI技术落地中,推理阶段与实际应用相关联,直接关系到用户的体验,是非常具有挑战性的一环。

而更具挑战性的是,当前承载推理的硬件,正日趋异构化。云端、移动端和边缘端对应着各种不同的硬件,底层的芯片架构差异很大。

如可不利于完整地支持这麼众多的硬件架构,或者 实现哪几种硬件之上人工智能应用性能的优化,实现更快的传输速率?

Paddle Lite给出的解决方案是:

通过全新架构高扩展性和高灵活度地建模底层计算模式,加强了多种硬件、量化法律法律办法、Data Layout 混合调度执行的能力,从而保障了宏观硬件的支持能力,并通过极致的底层优化,实现了领先的模型应用性能效果。

Paddle Lite五大价值形式

官方介绍,Paddle Lite一共有五大价值形式:高扩展性、训练推理无缝衔接,通用性、高性能和轻量化。

1、高扩展性。

新架构对硬件抽象描述能力更强,可容易地在一套框架下对新硬件进行集成,具有非常好的扩展性。类式,对于FPGA的扩展支持变得非常简单。

此外,参考了LLVM的Type System和MIR(Machine IR),都可以不利于 模块化地对硬件和模型进行更细致的分析和优化,都可以不利于 更便捷高效地扩展优化策略,提供无限可能性。

目前,Paddle Lite可能性支持21种 Pass 优化策略,中有 硬件计算模式混合调度、INT8量化、算子融合、冗余计算裁剪等不同种类的优化。

2、训练推理无缝衔接。

不同于类式 类式 独立的推理引擎,Paddle Lite依托飞桨训练框架及其对应的充沛完整的算子库,底层算子的计算逻辑与训练严格一致,模型完整兼容无风险,并可快速支持更多模型。

和飞桨的PaddleSlim模型压缩工具打通,直接支持INT8量化训练的模型,并可获得比离线量化更佳的精度。

3、通用性。

官方发布18个模型的 benchmark,中有 图像分类、检测、分割及图像文字识别等领域,对应100个算子Op+8十个 Kernel,相关算子都可以不利于 通用支持类式 模型。

或者 , 还兼容支持类式 框架训练的模型,对于 Caffe 和 TensorFlow训练的模型,都可以不利于 通过配套的X2Paddle工具转换事先进行推理预测。

现在,Paddle Lite可能性与飞桨的PaddleSlim模型压缩工具打通,直接支持INT8量化训练的模型,并可获得比离线量化更佳的精度。

支持多硬件,目前已支持的包括ARM CPU, Mali GPU、Adreno GPU、华为NPU、FPGA等,正在优化支持的有寒武纪、比特大陆等AI芯片,未来总要支持类式 更多的硬件。

此外,还提供Web前端开发接口,支持javascript调用GPU,可在网页端快捷运行宽度学习模型。

4、高性能。

在ARM CPU上,性能表现优异。针对不同微架构,进行了kernel的宽度优化,在主流移动端模型上,展现出了传输速率优势。

此外,Paddle Lite也支持INT8量化计算,通过框架层的优化设计和底层高效的量化计算实现,结合 PaddleSlim 模型压缩工具 中 INT8量化训练功能,都可以不利于 提供高精度高性能的预测能力。

在华为NPU, FPGA上总要很好的性能表现。

5、轻量化。

针对端侧设备特点进行宽度定制及优化,无任何第三方依赖。

整个推理过程分为模型加载解析、计算图的优化分析及设备上的高效运行。移动端都可以不利于 直接部署经过优化分析的图,执行预测。

Android 平台上 ,ARMV7 动态库只需用100k,ARMV8动态库仅有1.3M,不利于否不利于 根据需用,进行更宽度的剪裁。

目前,Paddle Lite及其前身的相关技术,可能性在百度App、百度地图、百度网盘和自动驾驶等产品大规模使用。

比如百度App新近推出实时动态多目标识别功能,在Paddle Lite的支持下,把曾经云端100多层的视觉算法模型优化到10几层,实现100ms以内识别物体,8ms内做出物体位置追踪更新。

相比之下,人类肉眼识别物体,一般需用170ms到100ms,追踪物体刷新需用40ms左右,这是因为其识别传输速率可能性超过了人眼。

而实现你类式 切,正是得益于Paddle Lite强大的端侧推理能力,不利于完美承担飞桨在多硬件平台上的高效部署,并实现了模型应用的极致性能优化。

全新架构详解

背靠百度,Paddle Lite的架构有一系列自主研发技术。

据介绍,Paddle Lite参考了百度实物多个预测库架构实现,以及优势能力整合,并重点增加了多种计算模式(硬件、量化法律法律办法、Data Layout)混合调度的完备性设计,新下发如下:

其中最中间一层是模型层,直接接受Paddle训练的模型,通过模型优化工具转化为NaiveBuffer特殊格式,以便更好地适应移动端的部署场景。

第二层是线程层,是operator序列构成的执行线程。

第三层是另三个 多多完整的分析模块,包括了 MIR(Machine IR) 相关模块,不利于对原有的模型的计算图针对具体的硬件列表进行算子融合、计算裁剪在内的多种优化。

不同于飞桨训练过程中的IR (Internal Representation),硬件和执行信息也在你类式 层加入到分析中。

最底层是执行层,也之后另三个 多多Kernel序列构成的Runtime Program。执行层的框架调度框架极低,只涉及到Kernel 的执行,且都可以不利于 单独部署,以支持极致的轻量级部署。

整体上来看,不仅着重考虑了对多硬件和平台的支持,或者 也强化了多个硬件在另三个 多多模型中混合执行的能力、多个层面的性能优化解决,以及对端侧应用的轻量化设计。

国产宽度学习框架崛起

飞桨(PaddlePaddle)的进化,不仅仅之后另三个 多多简单的产品升级。

插进大趋势与大环境中,意义正在变得不同。

一方面是大趋势。

今年是AI在落地化重要的一年,国内在AI硬件,AI硬件研发,包括百度、阿里、华为等巨头公司总要积极布局AI芯片的设计和制造。

硬件的快速发展这麼来越多能弥补软件端的缺失,国外科技巨头可能性加快步伐,让你占领你类式 市场空白地带。

今年的TensorFlow开发者大会上,谷歌可能性将在边缘部署AI应用的TensorFlow Lite作为重点,显然你类式 框架目前这麼来越多能很好地适配国内公司开发的各种硬件。

国外科技公司之后会去花多量的精力在诸多不同厂商、不同架构的国产芯片上。于是飞桨看过机遇,或者 初见成效。

据百度刚发布的Q2财报显示,飞桨的开发者下载量在2019年第二季度环比增加了45%。

作为目前最流行的国产机器学习框架,飞桨推出Paddle Lite嘴笨 花了多量精力解决国内AI硬件应用范围小、开发困难的局面。

当事人面,绕不开的大形势话题。

相比以往,AI发展中的自主研发和无断供之忧,也始于了了被屡屡谈及。

除了专利、硬件,底层算法框架,在安卓断供华为事先也被抬上桌面。

当前,两大宽度学习框架TensorFlow、PyTorch嘴笨 是开源项目,但总要美国公司掌控之下,都可能性要“遵守美国法律”。

之后也总要这麼“卡脖子”的风险。

事先,该如可发展曾经的底层核心技术励志的话 题,各方专家谈了又谈,热切呼吁,但真正变成行动,依然难加在难。

不仅需用时间、人才、资源等各方面的投入,也需用恰当的时机——合适没到积重难返的事先。

于是Paddle Lite的升级,就显得恰逢其时。一来已有积累,二来时机不晚,都可以不利于 换道超车。

不过,说一千道一万,最终还是上手试试最直接。

话这麼来越多说,亲戚让我们都看货、验货:

传送门

关于本次发布的Paddle Lite,重点功能升级汇总如下:

1、架构重大升级,通过加在Machine IR、Type system、轻量级 Operator 和 Kernel 等,增加了通用多平台和多硬件支持,多 precision 和 data layout 混合调度执行,动态优化,轻量级部署等重要价值形式。

2、完善了Java API,与 C++ API 一一对应。

3、新增NaiveBuffer 模型存储格式,移动端部署与protobuf解耦,使预测库尺寸更小。

4、通过X2Paddle 支持 Caffe 和 TensorFlow 模型的预测,目前官方验证6种模型转化支持。

5、新增对华为海思 NPU 的宽度支持,成为首个支持华为NPU在线编译的框架,已验证

6、支持FPGA ,已验证 ResNet100 模型。

7、对于Mali GPU 和 Adreno GPU,支持 OpenCL 和 ARM CPU Kernel混合调度,已验证了在MobileNetV1、MobileNetV2、ResNet-100等模型上的效果。

8、对于ARM架构的CPU,Paddle Lite增加了对vgg-16、EfficientNet-b0、ResNet-18等常见模型的支持验证。

9、新增各类硬件 Kernel 70种。