除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招

发布时间:2017-08-31 00:00
作者:
来源:StarryHeavensAbove
阅读量:291

今年Hot Chips上和AI(包括自动驾驶)相关的内容(按会议的时间顺序)如下:

NVIDIA: Tutorial: "Building Autonomous Vehicles with NVIDIA’s DRIVE Platform"

The goal of this tutorial is to provide an overview of the autonomous vehicle landscape through NVIDIA’s platform and to highlight how deep neural networks are changing the autonomous vehicle landscape.


这个我没看到具体的内容,就不做评论了。
 

AMD: "AMD’s Radeon Next Generation GPU"

虽然这个presentation中直接涉及AI的内容不多,但有一张slide描述了一下AMD的Machie Learning software stack。



NVIDIA: "NVIDIA’s Volta GPU: Programmability and Performance for GPU Computing"

这个talk的大部分内容和5月发布Volta时的说明差不多,V100的几个主要特点包括:


其中更详细的介绍了一下SM Core和Sub-Core的架构,如下图所示:


Wiseteachers.com: "The Direct Human/Machine Interface and hints of a General Artificial Intelligence"

Abstract: Dr. Alvelda will speak about the latest and future developments in Brain-Machine Interface, and how new discoveries and interdisciplinary work in neuroscience are driving new extensions to information theory and computing architectures.


这个内容看起来挺有意思,可惜没看到具体的材料。
 

Renesas Electronics Corporation: "R-Car Gen3: Computing Platform for Autonomous Driving Era"

Renesas在汽车电子领域里做MCU是比较强的,这次推出的是一个完整的计算平台。从下图可以看出,它是和Nvidia的Drive PX2来竞争的。



而平台中的H3处理器是这个样子的:



Baidu: "XPU: A programmable FPGA Accelerator for diverse workloads"
这次百度的XPU大出风头,很多媒体都有报道。包括Nextplatform也有一篇文章介绍。我就不多说了。
 

Intel: "Knights Mill: Intel Xeon Phi Processor for Machine Learning"


按Intel的说法,Knights Mill(KNM)是“First Knights product designed for Intel Scalable System Framework and targeted at Deep Learning”,它的DL Performance是KNL(Knights Landing)的4倍。(每次我总是想到King's Landing)
这个4倍是怎么得来的呢?首先,KNM增加了新的指令:


使用这个SIMD指令进行乘法运算的例子如下:


另外,KNM还引入了Variable Precision的概念。支持VNNI-16(Vector Neurual Network Instruction),输入INT16,输出INT32,可以并行实现两个16bit乘法并把结果累加到一个32bit的寄存器。VNNI和QFMA结合就有了如下指令:


而从端口的角度可以看出KNM在双精度运算上比KNL慢了一倍,而在单精度和VNNI运算上则是KNL的2倍和4倍。



ThinCI: "Graph Streaming Processor (GSP) A Next-Generation Computing Architecture"

ThinCI这个Startup公司这次介绍了他们的GSP的架构设计目标:


总的来说,特色应该是Graph Processing。他们也介绍了他们实现Task Level, Thread Level, Data Level和Instruction Level并行的考虑。但是单从Slides来看也看不出太多细节,比较失望。如果有亲临现场听了的同学也欢迎留言介绍一下。


Wave Computing: "A Dataflow Processing Chip for Training Deep Neural Networks"

这次Wave Computing做的presentation还是比较细致的。不过,其中很多内容在之前这篇文章“AI芯片|浅析Yann LeCun提到的两款Dataflow Chip”里已经有了比较详细的说明。这里我们主要看一看比较新鲜的信息。首先是一个DPU Board的框图:



对此,Nextplatform的文章[1],中是这么介绍的

The graphic above shows four DPUs on a board with a cascading use of the HMC devices. The DPUs actually have quite a bit of interconnectivity through the HMCs, so if a dataflow graph is being executed, most of the communication is local from node to node in the graph. Wave lightly described a “balancing mechanism” to balance the delays through the execution of the graph via buffers between the nodes. By injecting some latency throughput is balanced through the graph and utilization increases. The tensor data for something like TensorFlow (native in the early access machines) is stored entirely in HMC, which means there is not much networking needed between the DPUs. In short, most of the data rides through the HMCs.
 

第二是时钟的设计。之前关注过Wave Computing的同学可能都会对他们的Clock-less设计印象深刻。他们使用这种技术使得1600多个PE和800多个Arithmetic Units可以工作在大约6.7GHz的频率。这次他们给出了这样的说明:


另外,这次他们还介绍了一下DPU是怎么实现Dynamic Reconfiguration的。



在众多xPU Startup公司当中,Wave Computing是很有技术特色的一个,值得大家关注。
 

Microsoft: "Accelerating Persistent Neural Networks at Datacenter Scale"

微软在Cloud中使用FPGA加速的一些情况。这次微软的presentation内容更加丰富,值得好好看看。
 

首先,这次微软提出了Soft DPU的概念,即在FPGA上实现DNN Processing Unit。并且列出了一些做Soft DPU的公司,包括百度和深鉴科技,以及做Hard DPU(ASIC)的公司(这里国内的公司还要争取知名度啊)。



然后是正式提出BrainWave的名号,并介绍了它的完整Stack。





其中最底层的HW Microservice在我之前的文章中已经介绍过来,不再赘述。
 

我们来看看上面几层。微软这次提出了一个“Persistent” Neural Net的概念。简单来说就是把model的所有参数都放在FPGA的on-chip memory当中。而不是我们常见的把参数放在片外的DRAM当中。这个想法似乎和GraphCore类似。



使用这种架构主要是基于下面的原因。




如果采用通常用来加速CNN的方法(模型参数存放于片外的DRAM),对于LSTM这类compute-to-data比率比较低的网络(相对于CNN),硬件的利用率将受限于off-chip DRAM的带宽。其实,这也是我们看到很多硬件加速器实现CNN效果很好,但对LSTM效率较低的原因之一。所以,微软提出的这个架构,对于特定网络可能有更好的效果,甚至可能好于ASIC。更进一步,在微软的Cloud FPGA架构下,还可以实现multi-FPGA的大规模Persistent Neural Net。当一个NN model在一个FPGA中放不下的时候,还可以这么玩儿。



这次微软还给出了Soft DPU的Architecture和Micro-Architecture,干货不少,大家自己体会吧。总的来说,FPGA的可重复编程的特性可以给我们很大的想象空间。



最后是compiler和runtime,之前的文章“Deep Learning的IR“之争””也提过了。
 

Google: "Keynote: Recent Advances in Artificial Intelligence via Machine Learning and the Implications for Computer System Design"

Jeff Dean这次的Keynote已经被转载介绍了很多了,我就不重复了。贴两张我比较关注的Slides。



这是第一次看到TPUv2的框图,虽然信息很少,应该也可以算是一个重要事件了。



T.S.:

从去年开始,AI相关的芯片越来越热。传统芯片公司都有所布局,很多软件和互联网公司纷纷进入,Startup们的估值越来越高。芯片是未来AI发展的基础,热度高是很自然的,但热度并不意味着成功,希望还在路上的各位最终都能成功。

在线留言询价

相关阅读
随着智能可穿戴设备的发展,语音交互正在迎来一个新的拐点。 它其实早已走进我们的生活,从可智能对话的机器人,到有事没事“嘿 Siri”,再到风靡全球的智能音箱,“小度”、“小爱”……这些指令甚至是三岁孩童也能脱口而出。而随着可穿戴设备的传输、续航、价格等痛点被逐个击破,类似 TWS 耳机这样的设备也有望普遍具备 AI 语音功能,让 AI 能力随身行走。 不过,语音唤醒——作为语音交互的第一步,在超低功耗场景下的性能、集成度、成本等突破就变得更加重要。 为可穿戴设备增加语音唤醒,难在哪里? 针对 TWS 等可穿戴设备,杭州国芯日前专门推出了一款 AI 语音唤醒芯片 GX8002,将 AI 唤醒做到了“微瓦”级别。 为什么要给 TWS 增加专门的语音唤醒能力?主要挑战有哪些?杭州国芯 AI 事业部总经理凌云告诉<与非网>,语音唤醒需要 Always on 工作状态,这样设备在休眠或锁屏状态下也能检测到用户的声音,一旦接收到唤醒词,立刻让设备进入等待指令的状态,开启语音交互第一步。 由于需要持续工作,包含麦克风、ADC、语音处理识别等整个链路都要工作。因此在可穿戴设备中增加唤醒功能,最大的挑战就是功耗,以往一些蓝牙 SoC 芯片做这类应用,待机功耗需要十几毫瓦,这对产品待机时间影响非常大。 方寸之间见天地——超低功耗、高集成度的背后 GX8002 采用了 MCU+NPU 架构,集成了国芯第二代自研神经网络处理器 gxNPU V200、平头哥 CK804 处理器等。经测试,该芯片在 VAD 待机模式下功耗低至 70μW,运行功耗为 0.6mW,支持多级唤醒,通过 NPU 能力,单芯片可实现语音唤醒、指令识别、AI 降噪、声纹识别等众多功能。据了解,GX8002 超低功耗的背后,离不开两大技术突破——自研神经网络处理器 gxNPU V200 和自研硬件 VAD。与第一代神经网络处理器相比,第二代专门针对低功耗进行了优化,计算能效达到了普通 DSP 的 10 倍以上。支持 DNN/CNN/RNN 等各种模型,自动实现网络量化压缩,可以和 TensorFlow 等训练平台直接对接。 同时,国芯设计了全新的 VAD 模块,通过增加更多特征分析来判断人声,过滤能力更强。凌云表示,传统 VAD 大多是基于声音的能量来做 VAD 判断,当处于嘈杂环境时容易失效。为此,国芯设计了全新的 VAD 模块,通过对信号进行频谱分析,抽取语音的多个特征信息,进行智能判断。同时会跟踪环境的底噪,自动调整判决的阈值。而所有的 VAD 处理都是通过硬件实现的,不依赖于主系统,这对于所有的 AI 语音应用都是有效的,对低功耗产品则更加重要。 除了将复杂逻辑硬件化,提升 VAD 的待机比例对于整个产品的功耗降低也非常有价值,根据实际测试,在办公室、地铁、马路、咖啡馆等场合,GX8002 可以让 VAD 待机的比例平均达到 70%以上,即 70%以上时间处于 70μW 的 VAD 待机模式。通过 VAD 的有效过滤,芯片日常使用的平均功耗基本低于 300μW。 “传统的语音 AI 主要还是以 CPU 软解为主,在一些功耗成本不敏感的产品可以继续使用”,凌云表示,“但是在可穿戴设备市场,必须要追求极致。” 为了将唤醒部分所占用的体积尽可能缩减,国芯将唤醒所需的所有部件进行了集成,包括音频 ADC、Flash、电源 LDO 等,甚至还有晶振。单芯片就可以完成所有唤醒工作,无需外围器件。 GX8002 首批产品采用 QFN20,3mm*3mm 封装,五月份已量产,预计今年下半年会有相关产品陆续上市。据称,Q3 还将推出更小的 WLCSP 封装,尺寸可达 1.4*2.4mm,满足更加精密产品的需求。 TWS+语音 AI 是未来趋势 TWS——已经成为智能音箱之后一个新的现象级应用。根据 IDC 数据显示,TWS 耳机 2019 年全球出货量为 1.705 亿台,与 2018 年的 4860 万台相比,增长了 250.5%,占据整个可穿戴设备市场的 50.7%。 剖析 TWS“网红体质”的背后,不仅仅是可观的市场规模,还有它作为 AIoT 智能连接入口的潜质。过去认为 AI 多用于机器人,后来发现似乎不需要这么复杂的身躯,智能音箱爆发了。而仅靠语音唤醒就可以获得 AI 能力,其实这个载体还可以更小。 在 TWS 第一波市场潮流中,主流的蓝牙音频供应商盆满钵盈,于是更多的小玩家涌入,试图切一角蛋糕。但是,正如所有消费电子的发展趋势一样,如果没有差异化卖点和功能创新,市场将很快走向红海,陷入价格的侵蚀之中。 对于广大投身于 TWS 的中小品牌来说,突破无线连接、通话体验的同时,产品本身的创新点也是增加消费者粘性的重要因素。国芯最新的语音唤醒芯片,对于这些厂商显得尤为及时。GX8002 几乎适配市场上所有的蓝牙方案,它与蓝牙芯片搭配使用,就如同增加了一个语音开关按键,通过共用的麦克风,实现语音触发。 这就极大地方便了那些使用成熟蓝牙方案的设备商,在不改变原有主体设计的情况下,叠加 AI 芯片,就可以将蓝牙耳机升级为智能耳机,满足了灵活、快速的设计需求。价格方面,国芯采用了累积采购量的阶梯价格模式,起步价 0.65 美元,尽量减轻成本负担。 TWS 加入语音 AI 将成为趋势。对于品牌耳机来说,能够在硬件方面更进一步,打通硬件品质、软件服务的体验;白牌耳机则可以在保证高性价比的前提下提供更丰富的功能。 目前,国芯已经打通了杰理、恒玄、络达、瑞昱、博通、易兆微、中科蓝讯等蓝牙合作方,这将为设备商大大节省具有 AI 语音能力的 TWS 研发周期。 “国芯尽量通过技术优化提升 AIoT“入口”建设的便利性,并提升产品的体验。通过在 AI 语音领域的持续耕耘,将 AI 技术应用到各种场景,之前已经有了高性能的产品应用在智能家居和车载领域,GX8002 的推出补齐了低功耗和近场的应用”,凌云表示,“目前我们完成了人 - 车 - 家的全场景覆盖,AI 语音产品可以说是国内市场上较为齐全的。” 当前,AI 的两大应用当属语音和视觉,这两大领域之间也有着一定的传承性和关联性。语音 AI 仍是一个早期成长中的市场,国芯一方面在扩大覆盖场景,另一方面也在寻找体量较大的细分市场(例如车载、TWS 等),进行更深入、更有针对性地布局。据凌云透露,未来,国芯会在语音业务的基础上,开拓视觉 AI 业务,以及语音+视觉的多模态产品方向。 
2020-07-27 00:00 阅读量:337
7月17日消息, 寒武纪昨日晚间发布公告,公司将于2020年7月20日在科创板上市,发行4010万股,发行价为64.39元。6月2日上交所披露,国内AI芯片独角兽公司中科寒武纪科技股份有限公司科创板首发过会。7月6日晚,寒武纪公告,确定科创板发行价格为64.39元/股。7月7日,寒武纪完成网上路演。7月8日,投资者将进行网上、网下申购。此次募集资金25.8亿元。此前寒武纪曾披露申请科创板上市拟融资28.01亿元,19亿元用于新一代云端训练芯片、推理芯片、边缘人工智能芯片及系统项目,9亿元用于补充流动资金。实际募资不及预期。据了解,寒武纪战略配售投资者包含中信证券、联想北京、美的控股、OPPO移动、中证投资。财务数据显示,公司2017年-2019年营收分别为784.33万元、1.17亿元、4.44亿元;同期亏损金额分别为3.81亿元、4104.65万元、11.79亿元,三年亏损超16亿元。寒武纪由陈天石、陈云霁于2016年创办,二人均毕业于中科大少年班,寒武纪股东背景强大,阿里创投、科大讯飞、湖北联想、中科图灵、国新资本、中科院创投等皆位列其股东席。寒武纪主打各类智能云服务器、智能终端以及智能机器人的核心处理器芯片,并拥有终端AI 处理器 IP 和云端高性能 AI 芯片两条产品线,成“端云一体化”模式。据此前披露的信息,寒武纪新一代7nm云端智能芯片思元290预计2021年将形成规模化收入,边缘智能芯片思元220及相关加速卡预计在2020年内实现规模化出货。就在这周,国内企业级混合云服务商青云QingCloud宣布与寒武纪达成战略合作,青云QingCloud旗下光格网络在其SD-WAN终端光盒里内置寒武纪思元220边缘端芯片。 
2020-07-17 00:00 阅读量:318
有消息称,为了应对疫情冲击以及连日来中美贸易的紧张形势,除了计划在将300万-400万副无线耳机 Airpods移至越南生产外,苹果公司还计划在越南生产全新耳机 Airpods Studio,这是该公司首次传出在越南工厂生产全新产品...《日经亚洲评论》稍早前引述消息人士称,新冠肺炎加速苹果分散产线,预计该公司本季将首度在越南量产300万~400万副无线耳机 Airpods,约占三成产量。而外媒The Information的最新报道指出,即将推出的头戴式耳机 Airpods Studio,也有一部分将会是在越南制造。消息人士透露,歌尔声学 (GoerTek) 和立讯精密 (Luxshare) 将在越南组装 Airpods Studio,可能在6月或7月出货给苹果,约今年夏末或初秋时可以送到顾客手中。报道称,越南厂过去多用于支援中国产线,主要负责生产旧款产品,若即将推出的Airpods Studio在越南生产的消息属实,将被视为苹果响应美国推动全球供应链“去中国化”的努力之一。报道并称,尽管部分Airpods Studio制造在越南,但有部分仍将在中国生产。彭博社先前的报道指出,Airpods Studio 拥有降噪功能,苹果至少测试了两个版本的耳机,一个是高阶的皮革织品,一个锁定健身族群,使用较轻且透气的材质,至少一个版本将采用可替换零件。Airpods Studio 售价可能为349美元(约人民币2478元),最快在下个月的WWDC亮相。
2020-05-20 00:00 阅读量:361
  • 一周热料
  • 紧缺物料秒杀
型号 品牌 询价
TL431ACLPR Texas Instruments
TPIC6C595DR Texas Instruments
TXB0108PWR Texas Instruments
TPS5430DDAR Texas Instruments
TPS61021ADSGR Texas Instruments
CD74HC4051QPWRQ1 Texas Instruments
型号 品牌 抢购
TPS63050YFFR Texas Instruments
TPS5430DDAR Texas Instruments
TPS61256YFFR Texas Instruments
ULQ2003AQDRQ1 Texas Instruments
TPS61021ADSGR Texas Instruments
TXS0104EPWR Texas Instruments
热门标签
ROHM
Aavid
Averlogic
开发板
SUSUMU
NXP
PCB
传感器
半导体
相关百科
关于我们
AMEYA360商城(www.ameya360.com)上线于2011年,现 有超过3500家优质供应商,收录600万种产品型号数据,100 多万种元器件库存可供选购,产品覆盖MCU+存储器+电源芯 片+IGBT+MOS管+运放+射频蓝牙+传感器+电阻电容电感+ 连接器等多个领域,平台主营业务涵盖电子元器件现货销售、 BOM配单及提供产品配套资料等,为广大客户提供一站式购 销服务。