├── .gitignore ├── _config.yml ├── README.md └── bi-weekly-reports ├── 2017-07-24.md ├── 2018-03-09.md ├── 2018-04-03.md ├── 2018-02-27.md ├── 2018-06-25.md ├── 2018-04-28.md ├── 2017-09-05.md ├── 2017-08-22.md ├── 2018-07-20.md ├── 2018-01-15.md ├── 2018-01-31.md ├── 2017-10-31.md ├── 2017-12-12.md ├── 2018-05-26.md ├── 2017-12-26.md ├── 2017-09-19.md ├── 2017-11-14.md ├── 2017-10-17.md ├── 2017-11-28.md ├── 2017-10-03.md └── 2017-08-07.md /.gitignore: -------------------------------------------------------------------------------- 1 | *~ 2 | *.swp 3 | -------------------------------------------------------------------------------- /_config.yml: -------------------------------------------------------------------------------- 1 | theme: jekyll-theme-cayman -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | # embedded_ai 2 | 3 | For embedded ai bi weekly reports. 4 | 5 | - [Embedded-AI 2018-07-20](./bi-weekly-reports/2018-07-20.md) 6 | - [Embedded-AI 2018-06-25](./bi-weekly-reports/2018-06-25.md) 7 | - [Embedded-AI 2018-05-26](./bi-weekly-reports/2018-05-26.md) 8 | - [Embedded-AI 2018-04-28](./bi-weekly-reports/2018-04-28.md) 9 | - [Embedded-AI 2018-04-03](./bi-weekly-reports/2018-04-03.md) 10 | - [Embedded-AI 2018-03-09](./bi-weekly-reports/2018-03-09.md) 11 | - [Embedded-AI 2018-02-27](./bi-weekly-reports/2018-02-27.md) 12 | - [Embedded-AI 2018-01-31](./bi-weekly-reports/2018-01-31.md) 13 | - [Embedded-AI 2018-01-15](./bi-weekly-reports/2018-01-15.md) 14 | - [Embedded-AI 2017-12-26](./bi-weekly-reports/2017-12-26.md) 15 | - [Embedded-AI 2017-12-12](./bi-weekly-reports/2017-12-12.md) 16 | - [Embedded-AI 2017-11-28](./bi-weekly-reports/2017-11-28.md) 17 | - [Embedded-AI 2017-11-14](./bi-weekly-reports/2017-11-14.md) 18 | - [Embedded-AI 2017-10-31](./bi-weekly-reports/2017-10-31.md) 19 | - [Embedded-AI 2017-10-17](./bi-weekly-reports/2017-10-17.md) 20 | - [Embedded-AI 2017-10-03](./bi-weekly-reports/2017-10-03.md) 21 | - [Embedded-AI 2017-09-19](./bi-weekly-reports/2017-09-19.md) 22 | - [Embedded-AI 2017-09-05](./bi-weekly-reports/2017-09-05.md) 23 | - [Embedded-AI 2017-08-22](./bi-weekly-reports/2017-08-22.md) 24 | - [Embedded-AI 2017-08-07](./bi-weekly-reports/2017-08-07.md) 25 | - [Embedded-AI 2017-07-24](./bi-weekly-reports/2017-07-24.md) 26 | 27 | -------------------------------------------------------------------------------- /bi-weekly-reports/2017-07-24.md: -------------------------------------------------------------------------------- 1 | --- 2 | layout: default 3 | --- 4 | 5 | # 嵌入式AI 双周简报 (2017-07-24) 6 | 7 | ## 业界新闻 8 | 9 | - [OpenBLAS发布0.2.20版本](https://github.com/xianyi/OpenBLAS/releases/tag/v0.2.20) 10 | - [Clarifai launches SDK for training AI on your iPhone | VentureBeat](https://venturebeat.com/2017/07/12/clarifai-launches-sdk-for-running-ai-on-your-iphone/) 11 | - [We ported CAFFE to HIP - and here’s what happened… | GPUOpen](http://gpuopen.com/ported-caffe-hip-heres-happened/) 12 | 13 | ## 论文 14 | 15 | - [1707.01083] [ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices](https://arxiv.org/abs/1707.01083) 16 | - [1608.06993] [Densely Connected Convolutional Networks](https://arxiv.org/abs/1608.06993) 17 | - [1707.01209] [Model compression as constrained optimization, with application to neural nets. Part I: general framework](https://arxiv.org/abs/1707.01209) 18 | - [1707.04319] [Model compression as constrained optimization, with application to neural nets. Part II: quantization](https://arxiv.org/abs/1707.04319) 19 | - [1707.03718] [LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation](https://arxiv.org/pdf/1707.03718.pdf) 20 | - [1707.06342] [ThiNet: A Filter Level Pruning Method for Deep Neural Network Compression](https://arxiv.org/abs/1707.06342) 21 | - [1707.04693] [Binarized Convolutional Neural Networks with Separable Filters for Efficient Hardware Acceleration](https://arxiv.org/abs/1707.04693) 22 | 23 | ## 开源项目 24 | 25 | - [Caffe2-iOS demo](https://github.com/KleinYuan/Caffe2-iOS) 26 | - [Tencent/ncnn: ncnn is a high-performance neural network inference framework optimized for the mobile platform](https://github.com/Tencent/ncnn) 27 | - [jiaxiang-wu/quantized-cnn: An efficient framework for convolutional neural networks](https://github.com/jiaxiang-wu/quantized-cnn) 28 | - [KimDarren/FaceCropper: Crop faces, inside of your image, with iOS 11 Vision api.](https://github.com/KimDarren/FaceCropper) 29 | - [csarron/emdl: Embedded and mobile deep learning research resources](https://github.com/csarron/emdl) 30 | 31 | ## 博文 32 | 33 | - [基于OpenGL ES 的深度学习框架编写 - jxt1234and2010的专栏](http://blog.csdn.net/jxt1234and2010/article/details/71056736) 34 | - [深度学习技术的应用和思考-博客-云栖社区-阿里云](https://yq.aliyun.com/articles/79420) 35 | 36 | ## 硬件加速 37 | 38 | - [解密又一个xPU:Graphcore的IPU | 唐杉 StarryHeavensAbove ](https://mp.weixin.qq.com/s?__biz=MzI3MDQ2MjA3OA==&mid=2247484282&idx=1&sn=65db58a2610e3828c2feea0c6e3de624&chksm=ead1fe6bdda6777dee462d197e7e6d257d312a1879faab13dd2907f507bbe79a3b314b848ac4&mpshare=1&scene=1&srcid=0724s2sVE9TRaszKKRCqSEcB#rd) 39 | 40 | 41 | ---- 42 | 43 | Editor: 张先轶、袁帅 44 | 45 | ---- 46 | 47 | 知识共享许可协议
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。 48 | -------------------------------------------------------------------------------- /bi-weekly-reports/2018-03-09.md: -------------------------------------------------------------------------------- 1 | --- 2 | layout: default 3 | --- 4 | 5 | # 嵌入式AI 双周简报 (2018-03-09) 6 | 7 | ## 业界新闻 8 | 9 | - [移动和嵌入式设备上也能直接玩机器学习 | Arm芯闻](http://mp.weixin.qq.com/s/I8SpOhMbZHQMTMoWpDbKsA)
10 | 简评:Arm推出神经网络机器学习软件 Arm NN。这是一项关键技术,可在基于 Arm 的高能效平台上轻松构建和运行机器学习应用程序。 11 | - [微芯宣布收购美国最大军用半导体设备商 | 新智元](https://mp.weixin.qq.com/s/91JTLUA8YtRlI-PcKN95WA)
12 | 简评:微芯表示,将以约83.5亿美元收购美国最大的军用和航空半导体设备供应商美高森美。微芯目前在航空航天和国防市场的年销售额中仅占2%左右,此次交易将加强微芯在计算和通信领域的基础能力。同时,由于公司数量减少,过去两年半导体产业的并购浪潮在去年有所缓解,随着微芯收购美高森美、博通与高通的收购拉锯战,今年行业里的看点越来越多。 13 | - [Arm推出全新Mali多媒体套件 | Arm芯闻](http://mp.weixin.qq.com/s/I5lF4JCEX0wggu30U-mAIw)
14 | 简评:arm宣布推出包含全新的视频、显示和图像处理器的Mali多媒体套件。新的IP套件可与现有基于DynamIQ的CPU和其他Arm IP无缝集成,从而全面实现Arm新一代针对主流移动设备和数字电视(DTV)的解决方案。 15 | - [英特尔提出新型压缩技术DeepThin,适合移动端设备深度神经网络 | 机器之心](http://mp.weixin.qq.com/s/3oL0Bso3mwbsfaG8X5-xoA)
16 | 简评:英特尔的研究者提出新型深度神经网络压缩技术 DeepThin,适合移动端设备,性能优于其他压缩技术。 17 | 18 | ## 论文 19 | 20 | - [1802.10264] [Deep Reinforcement Learning for Vision-Based Robotic Grasping: A Simulated Comparative Evaluation of Off-Policy Methods](https://arxiv.org/abs/1802.10264)
21 | 简评:该文章提出了一个机器人抓取的模拟基准,它强调了非策略学习和对看不见的物体的泛化。非策略学习可以利用各种各样的抓取数据。 22 | - [1802.09941] [Demystifying Parallel and Distributed Deep Learning: An In-Depth Concurrency Analysis](https://arxiv.org/abs/1802.09941)
23 | 简评:文章呈现了DNN架构的趋势以及由此产生的对并行策略的影响,并且讨论了DNNs中不同类型的并发性;同步和异步随机梯度下降,分布式系统体系结构。 24 | - [1802.05383] [Deep Learning Based Speech Beamforming](https://arxiv.org/abs/1802.05383)
25 | 简评:基于深度学习的增强方法能够学习复杂的语音分布并进行有效的推理,但是它们不能处理可变数量的输入通道。此外,深度学习方法引入了大量的错误,特别是在存在不可见的噪声类型和se的情况下。 26 | - [1802.04868] [SimplE Embedding for Link Prediction in Knowledge Graphs](https://arxiv.org/abs/1802.04868)
27 | 简评:文章作者开发了一个简单的张量分解模型,该模型被称为simple,证明了简单的是完全表达的,并推导出了它的嵌入的大小的完整的表达率。作者以经验证明,尽管它简单,但是简单的胜过了几个最先进的张量因子分解技术。 28 | 29 | 30 | ## 开源项目 31 | 32 | - [(Python/Cython/C++)基于Numpy/CUDA/cuDNN的最小化深度学习库](https://github.com/upul/Aurora)
33 | 简评:Aurora是一个在Python、Cython和c++中使用Numpy、CUDA和cuDNN编写的最小深度学习库。虽然它很简单,但是Aurora有一些先进的设计概念,它是一个典型的深度学习库。 34 | - [微软开源MMdnn:实现多个框架之间的模型转换 | 机器之心](http://mp.weixin.qq.com/s/PxfGcGHbtrILDFmOjSouPw)
35 | 简评:微软开源 MMdnn,可用于转换、可视化和诊断深度神经网络模型的全面、跨框架解决方案,目前支持 Caffe、Keras、MXNet、CNTK 等框架。 36 | - [Keras官方中文版文档正式发布 | 机器之心](https://mp.weixin.qq.com/s/A2WqK0LptxAZWUUD0c-xzw)
37 | 简评:Keras 作者 François Chollet,他已经在 GitHub 上展开了一个 Keras 中文文档项目。François Chollet再一次在推特上表示 Keras 官方文档已经基本完成!他非常感谢翻译和校对人员两个多月的不懈努力,也希望 Keras 中文使用者能继续帮助提升文档质量。 38 | - [OpenAI发布可扩展的元学习算法Reptile | 量子位](http://mp.weixin.qq.com/s/TzgVzyJwVf3joocXiCqJ_w)
39 | 简评:OpenAI发布了一种新型的可扩展元学习算法Reptile,可以在线试玩,这是通过重复对一个任务进行采样、随机梯度下降并将初始参数更新为从任务中学习到的最终参数的算法。 40 | - [OpenAI开放机器人研究模拟环境&Baselines实现 | openai](https://blog.openai.com/ingredients-for-robotics-research/)
41 | 简评:点击[这里查看视频](https://weibo.com/tv/v/G4ZT2z4wy?fid=1034:9e703af3b4e215c07f7495bcfc922adf)。 42 | 43 | 44 | ## 博文 45 | 46 | - [谷歌展示全新移动端分割技术 | 机器之心](http://mp.weixin.qq.com/s/PhMPa-e4sbzqWKmFzRZE4Q)
47 | 简评:为视频中人物实时替换背景的技术能够催生出很多新类型的应用。谷歌最近提出的机器学习视频分割技术首先被应用在了自家的 YouTube app 上,实现了令人惊艳的效果。同时,由于模型被高度压缩,其在 iPhone 7 这样的移动端设备上也可以达到 100+ FPS 的高帧率。 48 | - [使用树莓派实现实时人脸检测 | 机器之心](http://mp.weixin.qq.com/s/1wxA7jnCgmXt5j9DXxH1UA)
49 | 简评:本文介绍了如何在树莓派上,使用 OpenCV 和 Python 完成人脸检测项目。该项目不仅描述了识别人脸所需要的具体步骤,同时还提供了很多扩展知识。此外,该项目并不需要读者了解详细的人脸识别理论知识,因此初学者也能轻松跟着步骤实现。 50 | - [谷歌推出72-qubit量子处理器Bristlecone | 机器之心](http://mp.weixin.qq.com/s/0SKvjeDJPjYjihXTCi2-EA)
51 | 简评:谷歌在洛杉矶举办的美国物理学会年度会议上推出了他们的 72-qubit 超导量子处理器 Bristlecone。本文介绍了他们的成果、近期目标和未来展望。 52 | - [第三个变种 SgxSpectre 来临(附视频、论文) | 云头条](http://mp.weixin.qq.com/s/8ZflgKbe7sDFCggQiOZ6fw)
53 | 简评:今年早些时候全面曝光的 Spectre 和 Meltdown 处理器安全漏洞,让整个计算机行业面临着严重的信任危机,尤其是芯片巨头英特尔。自 1995 年以来的所有现代微处理器,几乎都受到了这两个漏洞的影响,万幸的是当前暂未出现利用它们的严重威胁。不过本文要着重警示的,却是新款英特尔微处理器上所部署的“软件保护扩展”功能(简称 SGX)。此文讲述的主角是SgxSpectre攻击,可以从英特尔SGX Enclaves中提取数据。 54 | - [AI通用芯老玩法新套路:GPU/FPGA脱颖而出,CPU/DSP还有哪些可能 | 与非网](https://mp.weixin.qq.com/s?__biz=MzA4MzU1MDQ4OA%3D%3D&mid=2650326665&idx=1&sn=7c9efe19274e6695f7199a50481a8d0b&scene=45#wechat_redirect)
55 | 简评:芯片作为产业链技术要求最高的环节之一,往往是最难攻克的阵地。2016年,我们谈中国集成电路在芯片环节还比较薄弱;2017上半年,我们说我国与美国的差距主要在硬件方面,尤其是芯片环节;2017下半年及2018年,我们看到一批本土AI芯发布,很多还带有“首款”的荣誉称号,首款嵌入式AI芯、首款人脸识别AI芯、首款AI移动芯片等等。似乎,集成电路最难攻克的环节——芯片,在AI大环境下,一切都变得那么EASY。这是真的吗? 56 | 57 | 58 | Editor: 王建章、袁帅 59 | 60 | ---- 61 | 62 | 知识共享许可协议
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。 63 | -------------------------------------------------------------------------------- /bi-weekly-reports/2018-04-03.md: -------------------------------------------------------------------------------- 1 | --- 2 | layout: default 3 | --- 4 | 5 | # 嵌入式AI 双周简报 (2018-04-03) 6 | 7 | ## 业界新闻 8 | 9 | - [Facebook 宣布 Caffe2 代码正式并入 PyTorch 意味着什么? | 知乎](https://www.zhihu.com/question/270578639)
10 | 简评:贾扬清:因为PyTorch有优秀的前端,Caffe2有优秀的后端,整合起来以后可以进一步最大化开发者的效率。目前FAIR大概有超过一半的项目在使用PyTorch,而产品线全线在使用Caffe2,所以两边都有很强的动力来整合优势。 11 | - [Google 和 Nvidia 强强联手,带来优化版 TensorFlow 1.7 | 雷锋网](https://www.leiphone.com/news/201803/Rp1aDiZlKDYbx94W.html?viewType=weixin)
12 | 简评:谷歌和英伟达宣布将 NVIDIA TensorRT 集成到 TensorFlow 1.7 中。在谷歌开发者博客中,他们介绍了此次合作的详细信息以及整合之后的性能。 13 | - [赛灵思推颠覆性AI芯片 正面宣战英伟达英特尔 | 智东西](http://mp.weixin.qq.com/s/e3-HO5MvHfeH71b7_zIo1Q)
14 | 简评:全球FPGA芯片巨头赛灵思推出全新一代AI芯片架构ACAP,并将基于这套架构推出一系列芯片新品;其中首款代号为“珠穆朗玛峰(Everest)”的AI芯片新品将采用台积电7nm工艺打造,今年内实现流片,2019年向客户交付发货。 15 | - [黄仁勋发布全球最大GPU,超算级逆天算力,仅售39.9万美元 | 新智元](http://mp.weixin.qq.com/s/2LtOvG17k_oPaEIigKtRNw)
16 | 简评:英伟达CEO黄仁勋说两件大事,一是发布了迄今最大的GPU,二是暂定自动驾驶暂停研发。随后英伟达股价下跌3.8%。GPU正在成为一种计算范式,但本质性突破乏善可陈,教主一路回顾过去创下的纪录,而鼎盛之下,衰退的迹象,似乎已经潜藏。 17 | - [联发科P60解析:AI加持,对标骁龙660 | EETOP](http://mp.weixin.qq.com/s/1ECoPW604koqu-lVBC2lbw)
18 | 简评:联发科在北京798艺术中心发布了首款内建多核心人工智能处理器——Helio P60。P60是具有Neuro Pilot AI技术的新一代智能手机SOC,主打人工智能技术,在各家都争相推出AI芯片的今天,联发科也赶上了末班车,今天我们就来看看这颗极有可能成为一代“神U”的联发科P60。 19 | - [AMD,要把嵌入式处理器市场进行到底 | 来自IT的我](http://mp.weixin.qq.com/s/jE40fMgtYArc421k3D5rVg)
20 | 简评:嵌入式不仅是智能手机终端的市场。也是因为如此,AMD一度暂缓了数据中心,进军嵌入式处理器的市场。新年伊始,AMD发布了霄龙嵌入式3000系列处理器、锐龙嵌入式V1000系列处理器,两款最新的产品。 21 | 22 | ## 论文 23 | 24 | - [1803.08375] [Deep Learning using Rectified Linear Units (ReLU)](https://arxiv.org/abs/1803.08375)
25 | 简评:本文介绍了在深度神经网络中使用整流线性单元(ReLU)作为分类函数的方法。传统上,ReLU作为DNNs中的激活函数,以Softmax函数为分类函数。然而,除了Softmax之外,还有一些关于使用分类功能的研究,这项研究是对这些功能的补充。 26 | - [1803.08225] [PersonLab: Person Pose Estimation and Instance Segmentation with a Bottom-Up, Part-Based, Geometric Embedding Model](https://arxiv.org/abs/1803.08225)
27 | 简评:本文提出了一种利用高效单镜头模型对多人图像进行姿态估计和实例分割的自底向上方法。建议的PersonLab模型使用基于部分的建模来处理语义层次的推理和对象部分关联。 28 | - [1803.09050] [Learning to Reweight Examples for Robust Deep Learning](https://arxiv.org/abs/1803.09050)
29 | 简评:深度神经网络已经被证明是非常强大的建模工具,用于许多有监督的学习任务,涉及复杂的输入模式。然而,它们也很容易被训练集偏见和标签噪音所取代。除了不同的正则化器之外,例子重加权算法是解决这些问题的常用方法。 30 | - [1803.08319] [Learning to Detect and Track Visible and Occluded Body Joints in a Virtual World](https://arxiv.org/abs/1803.08319)
31 | 简评:我们提出了一个深层的网络架构,它可以联合提取人们的身体部分,并将其与短暂的时间跨度联系起来。我们的模型明确地处理了闭塞的身体部分,通过产生幻觉的不可见关节的解决方案。 32 | - [1803.08251] [Life in the "Matrix": Human Mobility Patterns in the Cyber Space](https://arxiv.org/abs/1803.08251)
33 | 简评:在本文中,我们将在网络空间和物理空间的运动中引入一个新的类比。这一类比暗示了一种新的研究人类在线活动的方法,即以一种相似的方式,将网络社区的活动建模为地点之间的运动。 34 | 35 | ## 开源项目 36 | 37 | - [enas: TensorFlow Code for paper "Efficient Neural Architecture Search via Parameter Sharing"](https://github.com/melodyguan/enas)
38 | 简评:通过参数共享探索高效的网络结构。 39 | - [caffe-compact](https://github.com/chyh1990/caffe-compact)
40 | 简评:Caffe-compact是一个尽可能简化依赖的Caffe版本。 41 | - [TVM+TensorFlow提高神经机器翻译性能 | AI前线](http://mp.weixin.qq.com/s/HquT_mKm7x_rbDGz4Voqpw)
42 | 简评:阿里巴巴 PAI-Blade 团队发表于 TVM 的最新博文,文中阐述了如何将 TVM 引入 TensorFlow,使 TensorFlow 中的 batchmul 速度提高 13 倍,同时将端到端神经机器翻译性能提高 1.7 倍。AI 前线对原文进行了编译。 43 | - [Uber开源神经进化算法开发的交互式可视化工具VINE | 机器之心](http://mp.weixin.qq.com/s/7g81BnGAD5DpS_1pDxA6QQ)
44 | 简评:Uber 开源了神经进化算法开发的交互式可视化工具 VINE,该工具可以轻松实现神经网络群体的各种特定指标以及适应度分数的可视化和随时间的变化,用户可对其进行实时评估。此外,VINE 还支持默认功能之外的高级选项和自定义可视化。 45 | - [英特尔开源nGraph编译器:从多框架到多设备轻松实现模型部署 | 机器之心](http://mp.weixin.qq.com/s/Xm-D9eVv3eN-QP84cPqLsQ)
46 | 简评:英特尔的人工智能产品团队宣布开源 nGraph,这是一个面向各种设备和框架的深度神经网络模型编译器。有了 nGraph,数据科学家能够专注于数据科学研发,不需要担心如何将 DNN 模型部署到各种不同设备做高效训练和运行。 47 | 48 | ## 博文 49 | 50 | - [百度深度学习平台PaddlePaddle框架解析 | 机器之心](http://mp.weixin.qq.com/s/ync8iu8nmpJoI5Sfnj8DqQ)
51 | 简评:PaddlePaddle 是 2016 年 8 月底百度开源的深度学习平台,并且在短时间内迅速引发全球开发热度,成为 Github Pull Request 数量增速极高的开源深度学习平台之一。 52 | - [中科院计算所研究员陈云霁:深度学习处理器的现状及发展 | 北大AI公开课笔记](http://mp.weixin.qq.com/s/oFNoM0cjLD0CgcdwWojxhw)
53 | 简评:北京大学“人工智能前沿与产业趋势”第五讲,本期中科院计算机所研究员陈云霁授课主题为“深度学习处理器的现状及发展”,分享了深度学习的工作方式、深度学习处理器的发展、寒武纪目前的科研成果等相关内容。 54 | - [如何评价最新的YOLOv3?](https://www.zhihu.com/question/269909535)
55 | 简评:YOLOv3的最新评价。 56 | - [探索嵌入式应用框架(EAF)| 喔家ArchiSelf](http://mp.weixin.qq.com/s/Fni3bO0ap7gHyVnzD8RiTA)
57 | 简评:EAF是Embedded Application Framework 的缩写,即嵌入式应用框架。嵌入式应用框架是 Application framework的一种, 是在嵌入式领域的应用框架。 58 | - [增加深度,加速神经网络优化?这是一份反直觉的实验结果 | 机器之心](http://mp.weixin.qq.com/s/PC5KXU0zmE1eg2k_S9_pQg)
59 | 简评:深度学习的根本理论问题之一是「深度有何作用」?虽然增加神经网络的层数可以提高其性能,但是训练和优化的难度也随之增加。本文却给出了一个相反观点,有时增加深度反而可以加速网络优化;同时提出端到端更新规则,证明深度网络过度的参数化(overparameterization)也可能是件好事。 60 | - [级联MobileNet-V2实现人脸关键点检测(附训练源码)| 机器之心](https://mp.weixin.qq.com/s/ZrnAqDJCLtMy_qTQ2RZT0A)
61 | 简评:为了能在移动端进行实时的人脸关键点检测,本实验采用最新的轻量化模型——MobileNet-V2 作为基础模型,在 CelebA 数据上,进行两级的级联 MobileNet-V2 实现人脸关键点检测。首先,将 CelebA 数据作为第一级 MobileNet-V2 的输入,经第一级 MobileNet-V2 得到粗略的关键点位置;然后,依据第一级 MobileNet-V2 的输出,采取一定的裁剪策略,将人脸区域从原始数据上裁剪出来作为第二级 MobileNet-V2 的输入;最后,经第二级 MobileNet-V2 输出最终人脸关键点定位信息。经初步训练,最终网络单模型不到 1M,仅 956KB,单张图片 inference 耗时 6ms(采用 GTX1080 在未优化的 Caffe)。实验结果表明,MobileNet-V2 是一个性能极佳的轻量化模型,可以采用较少的参数获得较好的性能;同时,级联的操作可达到从粗到精的关键点定位。 62 | 63 | 64 | 65 | 66 | ---- 67 | 68 | Editor: 王建章、袁帅、张先轶 69 | 70 | ---- 71 | 72 | 知识共享许可协议
本作品采用 11 | 简评:Jeff Dean连发十条Twitter,介绍最新发布的测试版Cloud TPU,目前在美国地区开放,每小时6.5美元。谷歌表示,一个Cloud TPU,在一天之内就能在ImageNet上把ResNet-50模型训练到基准精度,成本低于200美元。 12 | - [亚马逊开发AI芯片提升Echo性能,开设云端服务 | 36Kr](https://m.sohu.com/a/222520503_114778/?pvid=000115_3w_a&_f=index_pagerecom_3)
13 | 简评:亚马逊从智能音响切入探索AI的商业化之路,收获了令人惊叹的效果。现在为了保持Echo的优势,亚马逊正在开发一款本地化的AI芯片。 14 | - [外媒称英伟达下月将发布用于挖矿虚拟货币的新型GPU「Turing」](http://mp.weixin.qq.com/s/d8HHoOh2-XUX3B5CV09ApA)
15 | 简评:据路透社最新报道,英伟达将在下月发布新一代显卡 GPU,代号「Turing」,专门用于虚拟货币挖矿。在虚拟货币挖矿大量使用其显卡导致价格抬高的情况下,这是英伟达为保证游戏显卡供应所做的努力。 16 | - [MIT开发神经网络专用芯片:能耗降低95%,适合移动端设备 | MIT](http://mp.weixin.qq.com/s/TT8zDFZK1VWeJpZAIGeAQA)
17 | 简评:MIT 研究人员开发了一种专用芯片,可以提高神经网络计算的速度,比之前的芯片速度提升三到七倍,同时将能耗降低 93% - 96%。这使得在智能手机本地运行神经网络,甚至在家用电器上嵌入神经网络变成可能。相关论文已投中 ISSCC。 18 | - [LG V30s ThinQ 发布:AI 更新为主,配置增强为辅 | 爱范儿](http://mp.weixin.qq.com/s/ZjIMHSN7QsDA0l_zz1ZyUA)
19 | 简评:此次 LG 对 AI 功能的应用并非是我们常见的智能搜索、单词识别、自动开关功能这些方面,而是 AI Vision(视觉)和 AI Voice (语音)两大类。AI Vision 主要是针对相机系统进行优化。通过新增加的 AI 拍照、QLens、明亮模式三项新功能,能为用户带来更便捷、多元的相机使用体验。 20 | 21 | 22 | ## 论文 23 | 24 | 25 | - [从哈希到CNN:AAAI 2018中科院自动化所提出高精度&低功耗训练方法 | 机器之心](http://mp.weixin.qq.com/s/ZmxFyWDvTJzRuyrxbro-nw)
26 | 简评:在美国新奥尔良刚刚落幕的人工智能国际会议 AAAI 2018 上,来自中科院自动化所程健研究员团队的胡庆浩等人报告了一种基于哈希的深度神经网络二值化训练方法 [1],揭示了哈希与二值权重的神经网络之间的紧密关系,表明了网络模型的参数二值化问题可以转化为哈希学习问题,从而大幅提高了二值化深度神经网络模型的性能,使其能在资源受限场景下能兼顾性能和功耗。 27 | - [论文解读:神经网络修剪最新研究进展](http://mp.weixin.qq.com/s/f1SCK0J5oTWNJvtld3UAHQ)
28 | 简评:本文解读了两篇近期关于神经网络修剪的论文,分别是 L_0 正则化方法和 Fisher 修剪方法。作者对两种方法的工作机制进行了精简的总结和解释,可以帮助我们快速领会论文的方法论思想。 29 | - [1802.06501] [Recommendations with Negative Feedback via Pairwise Deep Reinforcement Learning](https://arxiv.org/abs/1802.06501)
30 | 简评:本文提出了一种新颖的推荐系统,在与用户交互的过程中不断改进其策略。我们将用户和推荐系统之间的顺序交互建模为Markov决策过程(MDP)和增强学习。 31 | - [1802.06130] [Fast, Trainable, Multiscale Denoising](https://arxiv.org/abs/1802.06130)
32 | 简评:该文章提出了一种多尺度过滤的方法,允许在低功率设备上实时应用。 33 | - [1802.08195] [Adversarial Examples that Fool both Human and Computer Vision](https://arxiv.org/abs/1802.08195)
34 | 简评:文章中创建了第一个被设计用来欺骗人类的adversarial示例,通过利用最近的技术,将具有已知参数和架构的计算机视觉模型中的adversarial示例转移到其他具有未知参数和架构的模型,并通过修改模型来更接近初始的processi。 35 | 36 | 37 | ## 开源项目 38 | 39 | - [ARM发布Trillium项目:含神经网络软件库和两种AI处理器 | 机器之心](http://mp.weixin.qq.com/s/LtkDbsTiMTxy4MSnmZo9nQ)
40 | 简评:现在 Arm 在人工智能领域厚积薄发,发布了 Trillium 项目,包括一款为移动设备而设计的机器学习处理器、一款目标检测处理器和一个神经网络软件库。 41 | - [Capsule官方代码解读 | 机器之心](https://mp.weixin.qq.com/s/TYE8Z9kogXttvWiL81762w)
42 | 简评:Sara Sabour 开源了一份 Capsule 代码,该代码是论文 Dynamic Routing between Capsules 中所采用的实现。其实早在去年刚公布此论文,机器之心就曾详解解读过核心思想与基本代码,我们采用的代码也是各研究者尝试复现论文结果的模型。而最近 Sara 开放的代码是标准的官方实现,因此我们希望能解读部分核心代码,并探讨其与 naturomics 等人实现过程的差异。 43 | - [上海交大卢策吾团队开源AlphaPose,姿态估计相比Mask-RCNN提高8.2% | 新智元](http://mp.weixin.qq.com/s/-EU4jTElNll9MQomjuqFXA)
44 | 简评:上海交通大学卢策吾团队,今日开源AlphaPose系统。该系统在姿态估计(pose estimation)的标准测试集COCO上较现有最好姿态估计开源系统Mask-RCNN相对提高8.2%,较另一个常用开源系统OpenPose(CMU)相对提高17%。同时,卢策吾团队也开源了两个基于AlphaPose的工作:(1)一个高效率的视频姿态跟踪器(pose tracker),目前姿态跟踪准确率第一。(2)一个新的应用“视觉副词识别“(Visual Adverb Recognition)。 45 | - [FAIR提出人体姿势估计新模型升级版Mask-RCNN | 新智元](http://mp.weixin.qq.com/s/4BRwMEr6rFYvkmKXM7rYLg)
46 | 简评:FAIR和INRIA的合作研究提出一个在Mask-RCNN基础上改进的密集人体姿态评估模型DensePose-RCNN,适用于人体3D表面构建等,效果很赞。并且提出一个包含50K标注图像的人体姿态COCO数据集,即将开源。 47 | - [MauricioCarneiro/PairHMM: Optimization of a Haplotype PairHMM class for GPU processing | GitHub](https://github.com/MauricioCarneiro/PairHMM)
48 | 简评:GPU / FPGA和AVX处理的Haplotype PairHMM类的优化。 49 | - [十倍模型计算时间仅增20%:OpenAI开源梯度替换插件 | 机器之心](http://mp.weixin.qq.com/s/glwjwXNNoMYBmhgwEcpUeg)
50 | 简评: OpenAI 研究员 Tim Salimans 和 Yaroslav Bulatov 联合开发的工具包,你可以权衡计算力和内存的使用,从而使你的模型更合理地占用内存。对于前馈模型,我们能够借助该工具把大 10 多倍的模型放在我们的 GPU 上,而计算时间只增加 20%。 51 | 52 | ## 博文 53 | 54 | - [Momenta王晋玮:让深度学习更高效运行的两个视角 | 吃瓜社](https://mp.weixin.qq.com/s/FN_EsIGV2DLvm7RAi8iySw)
55 | 简评:文章从优化计算量和访存量两个角度出发,提出缩短计算时间,加速完成推理任务的优化方法。 56 | - [苹果芯片帝国简史:从依赖三星到「性能怪兽」| 爱范儿](http://mp.weixin.qq.com/s/Rjwv3YslXxS3RzyZjw6gxQ)
57 | 简评:据外媒报道,今年苹果将可能新增至少三款搭载苹果自主设计协处理器的 Mac 电脑。报道称,新款 Mac 电脑将于今年早些时候发布,但是没有透露具体是哪些型号。当中可能包括笔记本电脑,也有可能包括台式电脑。 58 | - [实例讲解进驻Google两位大神主推的异构计算与RISC-V | 硅农亚历山大](http://mp.weixin.qq.com/s/_STTC9B8WUIyown5OBBvTg)
59 | 简评:John Hennessy和David Patterson两位计算机体系结构方面的泰山北斗双双进驻Google引起了业界的广泛关注。两位大神同时是新兴指令集RISC-V的发起者,也是异构计算领域的领军践行者。本文将结合一个简单实例讲解两位大神所主推的RISC-V如何进行异构计算,让您通过此具体实例理解异构计算为何能够提高性能和节省功耗。 60 | - [杜克大学在读博士生温伟:云端与边缘AI系统的深度学习 | 将门创投](http://mp.weixin.qq.com/s/JmlbQMLqBt24RJiCxRkmlg)
61 | 简评:杜克大学四年级在读博士生温伟在将门技术社群,分享云端与边缘AI系统上的最新研究结果的内容回顾。 62 | - [如何看待Tensor Comprehensions?与TVM有何异同? | 知乎](https://www.zhihu.com/question/267167829/answer/319558580?utm_medium=social&utm_source=wechat_session)
63 | 简评:文章精简的描述了两者之间的差异性。 64 | - [像玩乐高一样拆解Faster R-CNN:详解目标检测的实现过程 | 机器之心](http://mp.weixin.qq.com/s/M_i38L2brq69BYzmaPeJ9w)
65 | 简评:本文详细解释了 Faster R-CNN 的网络架构和工作流,一步步带领读者理解目标检测的工作原理,作者本人也提供了 Luminoth 实现,供大家参考。 66 | 67 | 68 | Editor: 王建章、袁帅 69 | 70 | ---- 71 | 72 |
知识共享许可协议
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。 73 | -------------------------------------------------------------------------------- /bi-weekly-reports/2018-06-25.md: -------------------------------------------------------------------------------- 1 | --- 2 | layout: default 3 | --- 4 | 5 | # 嵌入式AI 双周简报 (2018-06-25) 6 | 7 | ## 业界新闻 8 | 9 | - [微软即将收购GitHub:喜提最大代码托管网站 |机器之心](https://mp.weixin.qq.com/s/ODbusCLN0rAj929Fkb3tlQ)
10 | 简评:在上周五传出消息后不久,微软对GitHub的收购邀约很快成为了现实。据彭博社等媒体得到的消息:微软已于上周日决定收购这家最热门的开源代码共享平台。 11 | - [Intel试量产14nm基带XMM 7560:新一代iPhone将采用 明年上5G | EETOP](https://mp.weixin.qq.com/s/Viw5Ax9pPuk77LKsmqXDCA)
12 | 简评:据日经亚洲评论报道,Intel已经开始在内部试产XMM 7560基带,据悉该基带将用于今年苹果的新一代iPhone。 13 | - [英特尔芯片又现漏洞:数学运算单元可泄露密钥 | 安全牛](https://mp.weixin.qq.com/s/SmbXrAsmXEAm2wfvNuW52w)
14 | 简评:英特尔Core及Xeon处理器上的安全漏洞可被利用来盗取芯片上数学处理单元中的敏感数据。恶意软件或恶意用户能利用该设计缺陷偷取其他软件在芯片上执行的计算输入或计算结果。 15 | - [“穿墙识人”,MIT人体姿态估计系统创历史最高精度 | 新智元](https://mp.weixin.qq.com/s/6pNZ8Crs4Lel2C0TlFAc4Q)
16 | 简评:MIT计算机与人工智能实验室的研究人员开发了一种基于Wi-Fi的人体姿态估计系统,用AI教会Wi-Fi“穿墙透视”,隔着墙也能进行精确的人体姿态估计。 17 | - [超GPU 100倍,IBM新型AI芯片发Nature,英特尔、微软出大招 | 新智元](https://mp.weixin.qq.com/s/EHO6D_2jkNfQo-8zB1-rBg)
18 | 简评:IBM研发出能效超GPU 100倍的新型存储器,英特尔预计2020年发布第一批独立GPU,清华的Thinker芯片论文入选ISCA-18。从学术界到产业界,芯片研究者的探索从未停止,进展也在切实发生。英特尔中国研究院院长宋继强博士,清华大学教授、微纳电子学系主任魏少军博士对未来AI芯片趋势进行了展望。 19 | - [PerfXLab澎峰科技正式发布Perf-V Creative Board 工程板 | PerfXLab澎峰科技](https://mp.weixin.qq.com/s/8t5sf9Zwvql1tZiAKuivsg)
20 | 简评:昨日澎峰科技宣布正式发售RISC-V开发板Perf-V Creative Board,目前可选芯片有XC7A35T、XC7A50T、XC7A100T三种。 21 | 22 | ## 论文 23 | 24 | - [Scale-recurrent Network for Deep Image Deblurring](http://www.cse.cuhk.edu.hk/leojia/papers/scaledeblur_cvpr18.pdf)
25 | 简评:因为手抖或焦点选择等问题,相机拍摄的图像中常常存在模糊状况。消除图像模糊,呈现图像细节是计算机视觉领域内的一个重要研究主题。香港中文大学、腾讯优图实验室和旷视科技的研究者合作提出的 SRN-DeblurNet 能更高效地实现比之前最佳方法更好的结果。 26 | - [1711.09349] [Beyond Part Models: Person Retrieval with Refined Part Pooling (and A Strong Convolutional Baseline)](https://arxiv.org/pdf/1711.09349.pdf)
27 | 简评:利用部分级特征进行行人图像描述提供了细粒度的信息,已在近期文献中被证明对于人物检索很有用。相对于外部线索方法,清华大学、悉尼大学和德克萨斯大学的研究者采用内部一致性假设,提出新的基线网络和精炼部分池化方法,实现了更好的人物检索性能,并超越了当前最佳结果。 28 | - [1806.08342] [Quantizing deep convolutional networks for efficient inference: A whitepaper](https://arxiv.org/abs/1806.08342)
29 | 简评:本文概述了量化卷积神经网络的技术,用于对整数权重和激活进行推理。每通道的重量和每层量子化的激活量为8位精度的训练后,在不同的CNN架构中,在2%的浮动点网络中产生分类精度。模型大小可以通过将权重量化为8位来减少4倍,即使不支持8位算法。这可以通过简单的、后训练量化的权重来实现。 30 | - [1806.07857] [RUDDER: Return Decomposition for Delayed Rewards](https://arxiv.org/abs/1806.07857)
31 | 简评:在强化学习中,延迟奖励的存在会严重影响性能,主要表现在随着延迟步数的增加,对时间差分(TD)估计偏差的纠正时间的指数级增长,和蒙特卡洛(MC)估计方差的指数级增长。针对这一问题,来自奥地利约翰开普勒林茨大学 LIT AI Lab 的研究者提出了一种基于返回值分解的新方法 RUDDER。实验表明,RUDDER 的速度是 TD、MC 以及 MC 树搜索(MCTS)的指数级,并在特定 Atari 游戏的训练中很快超越 rainbow、A3C、DDQN 等多种著名强化学习模型的性能。 32 | - [1803.03243] [Domain Adaptive Faster R-CNN for Object Detection in the Wild](https://arxiv.org/abs/1803.03243) [[code]](https://github.com/yuhuayc/da-faster-rcnn)
33 | 简评:更快的域自适应R-CNN物体检测。 34 | - [1806.06003] [On Machine Learning and Structure for Mobile Robots](https://arxiv.org/abs/1806.06003)
35 | 简评:关于移动机器人的机器学习和结构分析。 36 | 37 | 38 | ## 开源项目 39 | 40 | - [Intel发布神经网络压缩库Distiller:快速利用前沿算法压缩PyTorch模型](https://github.com/NervanaSystems/distiller/)
41 | 简评:Intel 开源了一个用于神经网络压缩的开源 Python 软件包 Distiller,它可以减少深度神经网络的内存占用、加快推断速度及节省能耗。Distiller 为 PyTorch 环境提供原型和分析压缩算法,例如产生稀疏性张量的方法和低精度运算等。 42 | - [SNIPER: Efficient Multi-Scale Training](https://github.com/mahyarnajibi/SNIPER)
43 | 简评:高效多尺度目标检测算法 44 | - [关于YADDL,深度学习的另一个Docker](https://github.com/lext/deep_docker)
45 | 简评:运用深度学习实验的简约码头环境。它建立在nvidia-docker之上,并且安装了tensorflow,keras和pytorch 0.4.0。此外,它在容器启动时自动运行Tensorboard和Jupyter实验室。这个项目的主要特点是最小的手动配置(保存数据的网络和文件夹)。 46 | - [集成最先进NLP技术的简单框架(Python)——Flair](https://github.com/zalandoresearch/flair)
47 | 简评:一个非常简单的NLP框架。 48 | - [Facebook开源2D图片实时3D姿态估计DensePose(Caffe2)](https://github.com/facebookresearch/DensePose)
49 | 简评:一种将2D RGB图像的所有人像素映射到身体三维表面模型的实时方法。 50 | - [基于Windows 10本机的GPU加速深度学习](https://github.com/philferriere/dlwin)
51 | 简评:支持Keras/Tensorflow/CNTK/MXNet and PyTorch五大框架,其中CNTK, Tensorflow, or MXNet提供GPU支持。 52 | - [An Embedded Computer Vision & Machine Learning Library (CPU Optimized & IoT Capable)](https://github.com/symisc/sod)
53 | 简评:嵌入式计算机视觉与机器学习库。 54 | 55 | ## 博文 56 | - [深度学习高效计算与处理器设计 | 深度学习大讲堂](https://mp.weixin.qq.com/s/-V6hlZAKp1vuARSibZDBQQ)
57 | 简评:探索如何将深度学习高效化,讲述讨论如何针对深度算法来设计专用处理芯片。 58 | - [阿里90后工程师利用ARM硬件特性开启安卓8终端“上帝模式 | 云栖社区](https://mp.weixin.qq.com/s/XDKA03vKneXgl4IAFC1jdg)
59 | 简评:硬件设计的不合理危害性远高于软件层面,且修补更新更为困难。在设计之初就将安全性作为一项重要的指标是最佳的选择。 60 | - [Face recognition with OpenCV, Python, and deep learning | PyImageSearch](https://www.pyimagesearch.com/2018/06/18/face-recognition-with-opencv-python-and-deep-learning/)
61 | 简评:用OpenCV/Python/深度学习实现人脸识别。 62 | - [Understanding AlexNet](https://www.learnopencv.com/understanding-alexnet/)
63 | 简评:关于AlexNet的详细解读。 64 | - [Man against machine: diagnostic performance of a deep learning convolutional neural network for dermoscopic melanoma recognition in comparison to 58 dermatologists | Annals of Oncology | Oxford Academic](https://academic.oup.com/annonc/advance-article-abstract/doi/10.1093/annonc/mdy166/5004443?redirectedFrom=fulltext)
65 | 简评:深度学习卷积神经网络对皮肤镜黑色素瘤识别的诊断性能,与58名皮肤科医生进行对比。 66 | - [卷积神经网络的压缩和加速 | SigAI](https://mp.weixin.qq.com/s/_kI-eMFKiL4pvDoXqqukBw)
67 | 简评:介绍了四种压缩方法:网络裁枝、模型量化、低轶估计、模型蒸馏。 68 | ---- 69 | 70 | Editor: 王建章、袁帅 71 | 72 | ---- 73 | 74 | 知识共享许可协议
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。 75 | -------------------------------------------------------------------------------- /bi-weekly-reports/2018-04-28.md: -------------------------------------------------------------------------------- 1 | --- 2 | layout: default 3 | --- 4 | 5 | # 嵌入式AI 双周简报 (2018-04-28) 6 | 7 | ## 业界新闻 8 | 9 | - [阿里巴巴宣布正自主研发AI芯片,性价比是同类产品40倍 | 量子位](https://mp.weixin.qq.com/s/u4ZJpvfg3zHNjoP_vlEssA)
10 | 简评:阿里对外透露了芯片研发的最新进展:阿里巴巴达摩院正研发一款神经网络芯片——Ali-NPU。这款芯片将运用于图像视频分析、机器学习等AI推理计算。按照设计,该芯片的性价比将是目前同类产品的40倍。 11 | - [极端图像压缩的生成对抗网络,可生成低码率的高质量图像 | 机器之心](https://mp.weixin.qq.com/s/wzUbYyrBOxU-2bY-EJm4KA)
12 | 简评:本文提出了一个基于生成对抗网络的极端学习图像压缩框架,能生成码率更低但视觉效果更好的图像。此外,该框架可以根据原始图像的语义标签映射,在解码图像中完全合成非主要的区域。用户调查研究证实,对于低码率,本文提出的方法明显优于最先进的方法 BPG。 13 | - [开源成为芯片设计的新趋势 | 半导体行业观察](https://mp.weixin.qq.com/s/aZlhkk_y5RXXqefAIUXmew)
14 | 简评:开源芯片项目是未来芯片设计行业的重要趋势,因为它从本质上解决了芯片设计周期长,设计无法复用的效率问题。开源项目一旦背后有足够的支持,就能实现足够好的品质,从而被广泛使用并进入正循环。RISC-V和NVDLA是两个重要的开源芯片项目的例子。 15 | - [中国学者世界首创:可视化“心脏芯片”问世,登Science机器人子刊论文 | 新智元](https://mp.weixin.qq.com/s/aSH4wUoD0im0lRAYIUYGiA)
16 | 简评:东南大学生物医学工程学院生物电子学国家重点实验室赵远锦教授课题组在“器官芯片”研究中取得重要研究成果,发表在国际顶级期刊《Science Robotics》,这是中国学者独立完成的首篇《科学》机器人子刊论文,也标志着世界首创性的、具有微生理可视化功能的“心脏芯片”问世! 17 | - [PerfXLab澎峰科技亮相VALSE 2018 | PerfXLab卧谈会](https://mp.weixin.qq.com/s/TYVsVOmWcgSodJph2yk_VQ)
18 | 简评:PerfXLab澎峰科技宣布即将开源轻量级深度学习推理框架InferXLite。 19 | 20 | ## 论文 21 | 22 | - [[1804.07573]MobileFaceNets: Efficient CNNs for Accurate Real-time Face Verification on Mobile Devices ](https://arxiv.org/abs/1804.07573)
23 | 简评:本文展示了一种非常高效的CNN模型,叫做MobileFaceNets,它使用不超过100万个参数,专门为在移动设备和嵌入式设备上的高精度实时人脸验证而量身定做。还对常见移动网络的弱点进行了简单的分析。作者特别设计的MobileFaceNets已经克服了这个弱点。在相同的实验条件下,MobileFaceNets的准确性更高,而且比MobileNetV2的实际加速要高出2倍。在经过了改进后,我们的单移动facenet模型的0。4 MB的大小,达到了99。55%的人脸验证精度,在MegaFace挑战1上达到了92.59%(FAR1e-6),这甚至可以与最先进的CNN模型的数百MB大小相媲美。我们的MobileFaceNets中最快的一个在移动电话上有18毫秒的实际推理时间。 24 | - [[1711.05408] RNN作为识别器,判定加权语言一致性](https://arxiv.org/pdf/1711.05408.pdf)
25 | 简评:该论文探索了识别加权语言的RNN形式模型的计算复杂度。研究表明,大多数类似的RNN中存在的问题都是不可判定的,包括:一致性、等价性、最小化和最高权重字符串的确定。然而,对于连续一致的RNN来说,最后一个问题是可判定的。 26 | - [[1804.09882] A Neural Embeddings Approach for Detecting Mobile Counterfeit Apps](https://arxiv.org/abs/1804.09882)
27 | 简评:本文提出了利用先进的神经嵌入生成卷积神经网络(cnn)来衡量图像之间的相似性。结果表明,在伪检测问题上,采用了一种新颖的方法,采用了由CNN过滤网的克氏矩阵给出的样式嵌入方法,比内容嵌入和筛选功能等基线方法更有效。我们发现,通过将样式嵌入与内容嵌入相结合,可以实现进一步的性能提升。 28 | - [[1804.07090]Low Rank Structure of Learned Representations ](https://arxiv.org/abs/1804.07090)
29 | 简评:本文通过对图像分类的模型进行了研究,并对其进行了研究,并对其进行了研究。我们关注的是ResNet-18、ResNet-50和VGG-19,并观察到当在CIFAR10或CIFAR100数据集上进行训练时,学习的表示表现出相当低的等级结构。我们建议对训练程序进行修改,进一步鼓励在神经网络的不同阶段对激活的低等级表示。从经验上来说,我们证明这对对抗的例子有一定的压缩和健壮性。 30 | - [[1804.09060] An Information-Theoretic View for Deep Learning](https://arxiv.org/abs/1804.09060)
31 | 简评:深度学习的信息论观点——卷积层和池化层是收缩函数,会导致信息损失;由于深度网络增加这些层,输入和输出间的互信息指数级减小,泛化误差也会指数级减小。 32 | - [[1804.05806]Deep Embedding Kernel ](https://arxiv.org/abs/1804.05806)
33 | 简评:在本文中,我们提出了一种新的监督学习方法,称为深埋核(DEK)。德克将深度学习和内核方法的优势结合在一个统一的框架中。更具体地说,德克是一个可学习的内核,它由一个新设计的深层架构所代表。与预先定义的内核相比,这个内核可以被显式地训练成将数据映射到一个优化的高级特性空间,其中数据可能对应用程序有良好的特性。 34 | - [[1804.06913] Fast inference of deep neural networks in FPGAs for particle physics](https://arxiv.org/abs/1804.06913)
35 | 简评:本文通过对图像分类的模型进行了研究。关注的是ResNet-18、ResNet-50和VGG-19,并观察到当在CIFAR10或CIFAR100数据集上进行训练时,学习的表示表现出相当低的等级结构。我们建议对训练程序进行修改,进一步鼓励在神经网络的不同阶段对激活的低等级表示。从经验上来说,作者证明这对对抗的例子有一定的压缩和健壮性。 36 | 37 | ## 开源项目 38 | 39 | 40 | - [谷歌MobileNetV2:推动下一代移动计算机视觉网络 | 机器之心](https://mp.weixin.qq.com/s/lsaJeqYJTsY025t1qv6dmQ)
41 | 简评:谷歌发布MobileNet重大更新,推出MobileNetV2,在结构上使用depthwise可分离卷积为基础,在层与层之间增加了线性的bottleneck,并且bottleneck之间也增加了残差连接,因此速度更快,精度更高,更适合设备上处理。 42 | - [Swift for TensorFlow开源](https://github.com/tensorflow/swift)
43 | 简评:Swift for TensorFlow 为 TensorFlow 提供了一种新的编程模型,将 TensorFlow 计算图与 Eager Execution 的灵活性和表达能力结合在了一起,同时还注重提高整个软件架构每一层的可用性。为了实现我们的目标,经过深思熟虑,我们决定直接改进 Swift 编程语言和编译器,使得 Tensor 成为 Swift 语言里面的一等公民,以此提升用户体验。 44 | - [PyTorch 0.4:完全改变API,官方支持Windows](https://github.com/pytorch/pytorch/releases/tag/v0.4.0)
45 | 简评:PyTorch官方在GitHub发布0.4.0版本,最重要的改进是支持Windows系统。新版本完全改变了API,是本年度最重大的升级。 46 | - [Pelee:手机上的实时目标检测](https://github.com/Robert-JunWang/Pelee)
47 | 简评:移动设备上的实时监测系统。 48 | - [基于MXNet的深度学习自然语言处理包GluonNLP](https://github.com/dmlc/gluon-nlp)
49 | 简评:它支持简单的文本预处理、数据集加载和神经模型构建,以帮助您加速自然语言处理(NLP)研究。 50 | 51 | ## 博文 52 | 53 | - [如何评价商汤科技开源的深度学习框架Parrots | 知乎](https://www.zhihu.com/question/274662181/answer/376554975)
54 | 简评:商汤这次开源的Parrots和TensorFlow、PyTorch、MxNet等主流开源框架相比有何优点与缺点? 55 | - [一流科技创始人袁进辉:深度学习引擎的最优架构 | 机器之心](https://mp.weixin.qq.com/s/WUcDaYbbVgBtSUP4BhQebg)
56 | 简评:OneFlow 的袁进辉老师分析已有框架的优缺点,分享深度学习框架应该怎么做的观点。 57 | - [边缘计算探索:处理器,算法与内存](https://mp.weixin.qq.com/s/k1QAdvhbsaR6WJjVX9vZkA)
58 | 简评:边缘计算是人工智能和物联网结合的产物,是未来的重要趋势。未来边缘计算的关键技术,包括新处理器(强通用处理器或专用加速器),内存内计算,网络模型压缩,以及新存储器。 59 | - [ResNet及其多种变体 | TowardsDataScience](https://mp.weixin.qq.com/s/7fWh2dovmfbsF8afaX9UOg)
60 | 简评:本文主要介绍了 ResNet 架构,简要阐述了其近期成功的原因,并介绍了一些有趣的 ResNet 变体。 61 | - [用AI让静图变动图:CVPR热文提出动态纹理合成新方法](https://mp.weixin.qq.com/s/73mkWlqJsVdu9m1kPDvfbQ)
62 | 简评:来自加拿大约克大学、Ryerson 大学的研究者们提出了使用「双流卷积神经网络」的动画生成方法,其参考了人类感知动态纹理画面的双路径模式。该动画生成模型可以参考相关视频,让一张静态图片变成效果逼真的动画。目前,该研究的论文已被 CVPR 2018 大会接收,相关代码也已公开。 63 | - [当前深度神经网络模型压缩和加速都有哪些方法?| PaperWeekly](https://mp.weixin.qq.com/s/JnW7RnOQKG-dPOOAQeOmSA)
64 | 简评:本文全面概述了深度神经网络的压缩方法,主要可分为参数修剪与共享、低秩分解、迁移/压缩卷积滤波器和知识精炼,论文对每一类方法的性能、相关应用、优势和缺陷等方面进行了独到分析。 65 | 66 | ---- 67 | 68 | Editor: 王建章、袁帅 69 | 70 | ---- 71 | 72 | 知识共享许可协议
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。 73 | -------------------------------------------------------------------------------- /bi-weekly-reports/2017-09-05.md: -------------------------------------------------------------------------------- 1 | --- 2 | layout: default 3 | --- 4 | 5 | # 嵌入式AI 双周简报 (2017-09-05) 6 | 7 | ## 业界新闻 8 | 9 | - [如何评价华为海思麒麟970处理器? | 知乎](https://www.zhihu.com/question/57283387)
10 | 简评:五个要点:CPU、GPU:重点是降功耗;ISP、DSP、Codec、协处理器;通讯基带:比「千兆 LTE」更快;10 纳米制程,比骁龙 835 还多的 55 亿个晶体管;NPU:首款内置在手机 SoC 中的人工智能芯片。 11 | - [Deep Learning的IR“之争” | 唐杉 StarryHeavensAbove](https://mp.weixin.qq.com/s/0iDVjaucRUpn2UrVBuQ-oQ)
12 | 简评:Google Tensorflow XLA (Accelerated Linear Algebra)就使用了LLVM IR(Intermediate Representation)。而它的“竞争对手”,刚刚发布的TVM/NNVM,则是“Tensor IR Stack for Deep Learning Systems”。IR是什么?为什么重要?我们一起来看看。 13 | - [微软揭晓 Brainwave 人工智能系统,可实现超低延迟 | DeepTech深科技](https://mp.weixin.qq.com/s/XS_9XoQ6ZE1grmVtwJJdbA)
14 | 简评:今日,微软在 HotChips 大会上正式揭晓了 Brainwave 系统,该产品是微软加入人工智能硬件竞赛的首发产品。微软表示这款高速度、低延迟的 AI 专用芯片系统可以为机器学习开发者们提供超越 GPU 的性能。 15 | - [一文看懂人工智能芯片的产业生态及竞争格局 | 雷锋网](https://www.leiphone.com/news/201709/uuJFzAxdoBY7bzEL.html)
16 | 简评:本文从人工智能的芯片分类开始,较为详细的讲解了以Training层芯片生态到Inference on Cloud层芯片生态,再到Inference on Device层芯片生态下不同公司的大体技术选型,并代表性地提到了不少芯片公司。 17 | - [AR资深研究员Matt Miesnieks解读ARCore如何好过ARKit? | Matt Miesnieks ARC增强现实](https://mp.weixin.qq.com/s/MXiHi8wVJX9JYV3DeQoNBA)
18 | 简评:如果你喜欢Android,你有一个Samsung S8或Pixel,那么别犹豫,直接去开发吧。里面的ARCore的视频Demo非常有趣,值得一看! 19 | - [Myriad X Moves Computer Vision and Deep Learning Down to the Bare-Metal](https://blog.hackster.io/myriad-x-moves-computer-vision-and-deep-learning-down-to-the-bare-metal-7eab1b0a0f52) [video](http://weibo.com/tv/v/Fk30ErZPA?fid=1034:c37df410f85d0942997922d3e295b738)
20 | 简评:Intel发布Movidius Myriad X VPU ,结合神经网络引擎加速影像处理 21 | - [Wave公司发布数据流处理架构DPU: 不含CPU,超越GPU 1000x | Nicole Hemsoth 新智元](https://mp.weixin.qq.com/s/bL1PoUjZ_sH2VKcBxI6N5A)
22 | 简评:Wave Computing 在日前举行的高性能芯片峰会Hot Chips上介绍了他们的数据流处理器产品DPU(Dataflow Processing Unit),加速神经网络训练,号称速度是GPU的1000x,训练GoogleNet 42万图像/秒。同时,DPU使用了不含CPU的架构,他们认为,数据流架构是有效训练高性能神经网络的唯一方式。 23 | 24 | ## 论文 25 | 26 | - [[1708.08917] CirCNN: Accelerating and Compressing Deep Neural Networks Using Block-CirculantWeight Matrices](https://arxiv.org/abs/1708.08917)
27 | 简评:为了解决网络剪枝压缩带来的问题(不规则的网络结构;增加重训难度;无法保证压缩率和准确率),文中提出一种基于块循环的模型CirCNN。该模型利用快速傅里叶变换实现矩阵乘,将计算复杂度从O(n^2)减少到O(nlogn),模型参数规模从O(n^2)减少到O(n)。作者在FPGA、ASIC等嵌入式处理器上进行测试,结果表明在忽略不计的准确率损失下,CirCNN架构可以达到6~102倍的能效提升。 28 | - [[1708.05963] Neural Networks Compression for Language Modeling](https://arxiv.org/abs/1708.05963)
29 | 简评:RNN、LSTM等字符集语言模型往往都有高维的空间,使用剪枝、量化、低秩分解等手段对模型进一步压缩,达到可以满足移动端inference的性能需求。 30 | - [[1707.06168] Channel Pruning for Accelerating Very Deep Neural Networks](https://arxiv.org/abs/1707.06168)
31 | 简评:本文提出一种通道级别可迭代剪枝算法加速超深网络,该方法结合基于通道选择的LASSO回归等技术,可应用到多层和多分支的网络。该方法兼容不同网络架构,在VGG-16网络上,实现了在仅有0.3%准确率的损失下达到5倍加速的结果,ResNet,Xception在仅有1.0%左右的准确率损失下也能达到2倍加速。代码公开! 32 | 33 | ## 开源项目 34 | 35 | - [YSQfastfd: A fast binary library for face detection and face landmark detection in images. No float point operations, especially suit for low cost ARM CPUs, The highest accuracy on FDDB among non deep learning methods](https://github.com//OAID/YSQfastfd)
36 | 简评:人脸检测标定库。没有浮点操作,主打低功耗! 37 | - [pytorch2caffe: Convert PyTorch model to Caffemodel](https://github.com/longcw/pytorch2caffe)
38 | 简评:PyTorch写的代码要移植到Caffe生产环境?试试这个模型转换工具吧! 39 | - [ofxARCore: Experimental addon for openFrameworks to use ARCore on Android devices](https://github.com/HalfdanJ/ofxARCore)
40 | 简评:Android平台基于Google ARCore的AR框架示例。 41 | - [deep-learning-HAR: Convolutional and LSTM networks to classify human activity](https://github.com/healthDataScience/deep-learning-HAR)
42 | 简评:基于卷积和递归网络实现人类活动分类。 43 | - [pytorch-dpn-pretrained: Dual Path Networks (DPN) supporting pretrained weights converted from original MXNet implementation](https://github.com/rwightman/pytorch-dpn-pretrained)
44 | 简评:用PyTorch实现双通道网络。 45 | - [Core-ML-Car-Recognition: A Car Recognition Framework for CoreML](https://github.com/likedan/Core-ML-Car-Recognition)
46 | 简评:使用CoreML识别汽车。 47 | - [Efficient-Deep-Learning: Related Paper of Efficient Deep Neural Networks](https://github.com/Zhouaojun/Efficient-Deep-Learning)
48 | 简评:高性能深度学习文章集合。 49 | 50 | ## 博文 51 | 52 | - [Compressing deep neural nets | machinethink](http://machinethink.net/blog/compressing-deep-neural-nets/)
53 | 简评:本文将会结合MobileNet和网络剪枝等方法,将原本有400万参数的卷积网络压缩到300万参数。 54 | - [Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis | Apple](https://machinelearning.apple.com/2017/08/06/siri-voices.html)
55 | 简评:Siri是一个使用语音合成的私人助理。iOS11中,我们使用深度学习重塑Siri的声音,其产生的声音更加自然、流畅,也让Siri的个性表现出来。本文介绍了Siri声音背后的深度学习技术。 56 | - [CNN 模型压缩与加速算法综述 | 腾讯云](https://cloud.tencent.com/community/article/678192)
57 | 简评:卷积神经网络日益增长的深度和尺寸为深度学习在移动端的部署带来了巨大的挑战,CNN模型压缩与加速成为了学术界和工业界都重点关注的研究领域之一。本文介绍了SqueezeNet到Deep Compression,再到XNOR-Net再到Distilling、MobileNet和ShuffleNet,算是一篇移动端模型加速的必看综述。 58 | - [Semantic Segmentation using Fully Convolutional Networks over the years | Meet Pragnesh Shah](https://meetshah1995.github.io/semantic-segmentation/deep-learning/pytorch/visdom/2017/06/01/semantic-segmentation-over-the-years.html)
59 | 简评:全卷积语义分割综述。 60 | - [Object detection: an overview in the age of Deep Learning | Tryolabs Blog](https://tryolabs.com/blog/2017/08/30/object-detection-an-overview-in-the-age-of-deep-learning/)
61 | 简评:物体检测的这些年,从R-CNN、fast R-CNN再到Faster RCNN,SSD和R-FCN。 62 | 63 | ---- 64 | 65 | Editor: 张先轶、袁帅 66 | 67 | ---- 68 | 69 | 知识共享许可协议
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。 70 | -------------------------------------------------------------------------------- /bi-weekly-reports/2017-08-22.md: -------------------------------------------------------------------------------- 1 | --- 2 | layout: default 3 | --- 4 | 5 | # 嵌入式AI 双周简报 (2017-08-22) 6 | 7 | ## 业界新闻 8 | 9 | - [MXNet 0.11.0 RC1提供Apple Core ML模型转换并对Keras v1.2.2提供支持 | DMLC](https://github.com/apache/incubator-mxnet/releases)
10 | - [CUED-RNNLM -- An Open-Source Toolkit for Efficient Training and Evaluation of Recurrent Neural Network Language Models](http://mi.eng.cam.ac.uk/projects/cued-rnnlm/papers/ICASSP16-Toolkit.pdf)
11 | 简评:剑桥大学开源CUED-RNNLM工具箱-实现递归神经网络语言模型的高效GPU训练和CPU预测。 12 | - [TVM: An End to End IR Stack for Deploying the Deep Learning Workloads to Hardwares | DMLC](http://tvmlang.org/2017/08/17/tvm-release-announcement.html)
13 | 简评:TVM可以把模型部署到不同硬件(移动端CPU、AMD GPU、FPGA等物联网设备),TVM提供中间层解决端到端解决方案把深度学习模型分发到各种硬件设备。 14 | - [A list of chips and IPs for Deep Learning and Machine Learning, mostly industry and commercial products or projects | Shan Tang](https://basicmi.github.io/Deep-Learning-Processor-List/)
15 | 简评:深度学习/机器学习处理器大列表,从工业使用到商用芯片。 16 | - [NVIDIA Deep Learning SDK Update for Volta Now Available | NVIDIA Developer News Center](https://news.developer.nvidia.com/nvidia-deep-learning-sdk-update-for-volta-now-available/)
17 | 简评:Volta架构深度学习SDK,cuDNN7比TeslaP100在ResNet50快2.5倍等新特性。 18 | - [从GPU、TPU到FPGA及其它:一文读懂神经网络硬件平台战局 | 机器之心](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650729894&idx=1&sn=e8c3b919fba8a23ee9cd882ee91b0af2)
19 | 简评:简述了从NVIDIA、AMD等大公司的GPU到各家创业公司的神经芯片的情况。 20 | 21 | ## 论文 22 | 23 | - [DeepRebirth: Accelerating Deep Neural Network Execution on Mobile Devices | D Li, X Wang, D Kong Samsung Research America (2017)](https://arxiv.org/abs/1708.04728)
24 | 简评:三星评估了网络inference的时间花费主要在非张量层,通过横纵向地压缩网络(对竖直方向上连续非张量层的合并以及水平方向上多通道的合并和某些层的舍弃)来对网络减肥,达到有限准确率损失下加速网络的目的。 25 | - [1708.03888] [Scaling SGD Batch Size to 32K for ImageNet Training](https://arxiv.org/abs/1708.03888)
26 | 简评:作者提出(基于网络权重和权重更新量)逐层定制不同的学习率(LARS)来训练网络,用AlexNet网络,试验了bsize从128到8192这些不同情况下,训练达到相似的准确率。作者使用比较老的AlexNet发现加了BN效果喜人,毕竟AlexNet等大网络没BN的话loss难收敛。 27 | - [1704.08063] [SphereFace: Deep Hypersphere Embedding for Face Recognition](https://arxiv.org/abs/1704.08063) [[code]](https://github.com/wy1iu/sphereface) [[Demo]](http://v-wb.youku.com/v_show/id_XMjk3NTc1NjMxMg==.html)
28 | 简评:SphereFace自去年提交MegaFace Challenge后,在小数据集(少于50W的训练数据)上一直保持verification performance第一。相比传统softmax在MegaFace上的Verification TAR提高了24.1%(从65.9%到90%),在LFW上single model达到99.42%的Accuracy,论文发表在今年的CVPR 2017。除了face recognition,还提供了一整套从detection到alignment再到recognition的demo。 29 | - [Efficient Use of Limited-Memory Resources to Accelerate Linear Learning | C Dünner, T Parnell, M Jaggi, IBM Research - Zurich & EPFL (2017)](https://arxiv.org/abs/1708.05357)
30 | 简评:作者提出一种在异构计算平台加速机器学习训练的通用方法,当训练数据超过内存时,可以自适应地根据现有内存的大小和处理速度做调整。该方法基于对偶坐标方法(primal-dual coordinate methods),并使用对偶间隙信息(duality gap information)动态地选择数据做更快的处理。作者以线性模型为例展示了该方法比现有方法的优越性。 31 | - [FaceBoxes: A CPU Real-time Face Detector with High Accuracy | S Zhang, X Zhu, Z Lei, H Shi, X Wang, S Z. Li, Chinese Academy of Sciences (2017)](https://arxiv.org/abs/1708.05234)
32 | 简评:为解决CPU上实时检测人脸的难题,作者提出一种新的人脸检测架构FacesBoxes,保证速度的同时兼顾准确率。该架构基于两种层:快速抽象卷积层(RDCL)和多尺度卷积层(MSCL),前者使FacesBoxes在CPU上达到实时,后者在不同层上解决人脸尺度不同的带来的感受野大小等问题。 33 | 34 | 35 | ## 开源项目 36 | 37 | - [ncnn-mobile: use ncnn in Android(Android Studio) and iOS](https://github.com/dangbo/ncnn-mobile)
38 | 简评:在安卓和iOS平台使用ncnn跑SqueezeNet来构建你的AI APP(包含安卓和iOS项目代码)! 39 | - [efanna: fast library for ANN search and KNN graph construction](https://github.com/fc731097343/efanna) [[paper]](https://arxiv.org/abs/1609.07228)
40 | 简评:C++超快近似最近邻(ANN)搜索算法库。 41 | - [Hungarian algorithm + Kalman filter multitarget tracker implementation](https://github.com/Smorodov/Multitarget-tracker)
42 | 简评:用OpenCV实现多目标追踪。 43 | - [Dockerface: an easy to install and use Faster R-CNN face detector in a Docker container | N Ruiz, J M. Rehg, Georgia Institute of Technology (2017)](https://github.com/natanielruiz/dockerface) [[paper]](https://arxiv.org/abs/1708.04370)
44 | 简评:用Docker来构建你的人脸检测器吧! 45 | - [chainer-pspnet: PSPNet in Chainer](https://github.com/mitmul/chainer-pspnet)
46 | 简评:用金字塔场景解析网络(PSPNet)来做场景分割。 47 | - [NVCaffe(NVIDIA Caffe): NVIDIA-maintained fork of BVLC Caffe tuned for NVIDIA GPUs, particularly in multi-GPU configurations](https://github.com/borisgin/nvcaffe-0.16)
48 | 简评:对GPU多卡做了调整优化的NVIDIA Caffe。 49 | 50 | ## 博文 51 | 52 | - [为模型减减肥:谈谈移动/嵌入式端的深度学习 | 机器之心专栏 李飞](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650729791&idx=2&sn=0b8acd1bc1a4a10d988bc5f8301d6749)
53 | 简评:简述了下为什么需要模型简化到方法,写的比较简单,适合新手看或当做一篇了解的引文。 54 | - [Cross-compiling TensorFlow for the Raspberry Pi | Pete Warden](https://petewarden.com/2017/08/20/cross-compiling-tensorflow-for-the-raspberry-pi/)
55 | 简评:在树莓派上交叉编译你的TensorFlow吧(教程)! 56 | - [Dealing with Reality: Low-Quality Visual Data Processing and Analytics | CVPR 2017 Tutorial](https://pan.baidu.com/s/1i46rWI5#list/path=%2F)
57 | 简评:雾霾!低清!有噪声的图像、视频怎么搞?!教你对低分辨率图像/视频数据做分析。 58 | - [Vertex.AI - Bringing Deep Learning to OpenCL | Choong Ng](http://vertex.ai/blog/bringing-deep-learning-to-opencl)
59 | 简评:用OpenCL来搞深度学习! 60 | - [Hyperdash:在手机上监督机器学习训练过程的App](https://hyperdash.io/)
61 | 简评:深度学习工程师必备!(需要事先在服务器上安装提供的python包并登录,借助该APP查看当前服务器上模型训练的状态) 62 | - [LearnJS Imagenet Demo](https://pair-code.github.io/deeplearnjs/demos/imagenet/imagenet-demo.html)
63 | 简评:用deeplearn.js的SqueezeNet模型实时图像识别。 64 | 65 | ---- 66 | 67 | Editor: 张先轶、袁帅 68 | 69 | ---- 70 | 71 | 知识共享许可协议
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。 72 | -------------------------------------------------------------------------------- /bi-weekly-reports/2018-07-20.md: -------------------------------------------------------------------------------- 1 | --- 2 | layout: default 3 | --- 4 | 5 | # 嵌入式AI 双周简报 (2018-07-20) 6 | 7 | ## 业界新闻 8 | 9 | - [国内首款RISC-V开发板Perf-V Creative Board正式发售 | PerfXLab澎峰科技](https://shop350413479.taobao.com/)
10 | 简评:国内首款Perf-V Creative Board现已在淘宝公开发售,搜索关键词“perf-v”即可,目前设有35T、50T、100T三种芯片型号可供选择,Perf-V适配扩展板以及周边产品即将上线。(店铺链接:[https://shop350413479.taobao.com](https://shop350413479.taobao.com)) 11 | - [小米开源移动端深度学习框架MACE,自主研发,专为IoT设备优化 | 量子位](https://mp.weixin.qq.com/s/J6IjYz4KCIVHJ0QW8zCxfw)
12 | 简评:在2018开源中国开源世界高峰论坛现场,小米人工智能与云平台副总裁崔宝秋对外宣布,将正式开源小米自研的移动端深度学习框架Mobile AI Compute Engine,简称MACE。 13 | - [英特尔借助芯片公司eASIC,加速FPGA,降低CPU依赖 | 新智元](https://mp.weixin.qq.com/s/h79cfwNRLnQDBW76ddMHyw)
14 | 简评:eASIC位于英特尔公司总部所在地美国加利福尼亚州圣克拉拉,是一家生产可定制eASIC芯片的无晶圆厂半导体公司(IC设计商),其芯片可用于无线和云环境。eASIC的技术和团队将成为英特尔可编程解决方案组(PSG)的一部分。此次收购,英特尔方面的想法是eASIC技术与FPGA相辅相成。 15 | - [“全栈”开源的VTA会给AI芯片产业带来什么? | StarryHeavensAbove](https://mp.weixin.qq.com/s/5HwVRnX2g2ITB0o2JflNGQ)
16 | 简评:TVM团队刚刚公开了开源项目VTA:Versatile Tensor Accelerator。陈天奇博士的知乎文章称其为“VTA: 开源深度学习芯片栈”。结合TVM,这是一个从软件到硬件完全开源的项目,是目前看到最完整的开源尝试。那么,它会对AI芯片产业产生什么样的影响呢? 17 | - [基于开源架构RISC-V的低功耗边缘计算处理器——GAPUINO开发板评测 | 与非网](https://mp.weixin.qq.com/s/TLqzVXz_sc6sVWB4AnxZnw)
18 | 简评:GAPUINO是一款基于Arduino外型打造的开发平台,板载GreenWaves推出的全球首款基于RISC-V的低功耗边缘计算处理器GAP8。 19 | - [IBM100万忆阻器大规模神经网络加速AI | 新智元](https://mp.weixin.qq.com/s/eyzzeYOKdah-9WGUrhbAkg)
20 | 简评:目前将深度神经网络和生物神经网络进行匹配的研究正处于瓶颈期。而近期,IBM公司Irem Boybat等人在《Nature Communication》中发表的文章,有望改善此难题:他们设计了多记忆突触结构(multi-memristive synaptic architecture),能够在不增加功率密度的情况下提高突触的精度,并在一个拥有100多万台相变存储器(PCM)器件的脉冲神经网络(SNN)中对多记忆突触结构进行了实验演示。 21 | 22 | ## 论文 23 | 24 | - [2018/0336] [让CNN跑得更快,腾讯优图提出全局和动态过滤器剪枝](https://www.ijcai.org/proceedings/2018/0336.pdf)
25 | 简评:网络剪枝是一种加速 CNN 的常用方法。厦门大学和腾讯优图的一项研究提出了一种全新的全局和动态过滤器剪枝方法,能够实现更好的剪枝效果且具有更好的适应性。该论文已被将于当地时间 7 月 13-19 日于瑞典斯德哥尔摩举办的 IJCAI-18 接收。 26 | - [1807.05960] [Meta-Learning with Latent Embedding Optimization](https://arxiv.org/abs/1807.05960)
27 | 简评:基于梯度的元学习技术既广泛适用,又能熟练地解决具有挑战性的小镜头学习和快速适应问题。然而,它们具有在极低数据体系中在高维参数空间中操作的实际困难。我们表明,通过学习模型参数的低维潜在生成表示,并利用潜在嵌入优化(LEO)在该空间中执行基于梯度的元学习,可以绕过这些限制,从而有效地将基于梯度的自适应过程与模型参数的基础高维空间。 28 | - [1807.04320] [Automated Vulnerability Detection in Source Code Using Deep Representation Learning](https://arxiv.org/abs/1807.04320)
29 | 简评:利用深度学习来解决软件中存在的漏洞。 30 | - [1807.02787] [Financial Trading as a Game: A Deep Reinforcement Learning Approach](https://arxiv.org/abs/1807.02787)
31 | 简评:从金融市场获得持续利润的自动程序对每一个市场从业者来说都是有利可图的。最近在深度强化学习方面的进展为这种贸易代理的端到端培训提供了一个框架。 32 | - [1807.01438] [Small-scale Pedestrian Detection Based on Somatic Topology Localization and Temporal Feature Aggregation](https://arxiv.org/abs/1807.01438)
33 | 简评:在行人检测中,一个关键的问题是检测那些在图像和视频中引入微弱对比度和动态模糊的小物体,在我们看来,这应该部分地诉诸于根深蒂固的注释偏差。在此基础上,我们提出了一种新颖的方法,结合了本体拓扑线定位(TLL)和时间特征聚合,用于检测多尺度行人,这种方法在距离摄像机相对较远的小型行人中尤其有效。 34 | - [1806.11248] [XGBoost: Scalable GPU Accelerated Learning](https://arxiv.org/abs/1806.11248)
35 | 简评:XGBoost GPU算法升级。 36 | - [1708.06519] [Learning Efficient Convolutional Networks through Network Slimming](https://arxiv.org/abs/1708.06519)
37 | 简评:深度卷积神经网络(CNNs)的部署在很大程度上受到了其高计算成本的阻碍。本文提出了一种新颖的CNNs的学习方案,同时降低了模型的尺寸;2)减少运行时内存占用;3)降低计算操作的数量,而不影响准确性。 38 | - [1807.02291] [上海交大搞出SRNN,比普通RNN也就快135倍](https://arxiv.org/abs/1807.02291)
39 | 简评:上海交大的研究人员提出了切片循环神经网络(Sliced recurrent neural networks,SRNN)的结构,在不改变循环单元的情况下,比RNN结构快135倍。 40 | - [1806.09055] [指数级加速架构搜索:CMU提出基于梯度下降的可微架构搜索方法](https://arxiv.org/abs/1806.09055)
41 | 简评:本论文用可微的方式重构架构搜索任务,解决了该任务的可扩展性难题。与在离散和不可微搜索空间中使用进化算法或强化学习的传统方法不同,我们的方法基于架构表征的连续松弛,利用梯度下降实现架构的高效搜索。我们在 CIFAR-10、ImageNet、Penn Treebank 和 WikiText-2 上进行了大量实验,结果表明我们的算法在发现高性能的图像分类卷积架构和语言建模循环架构中表现优异,且该算法的速度比之前最优的不可微方法快了几个数量级。 42 | 43 | ## 开源项目 44 | 45 | - [MACE 设计与实践](https://github.com/XiaoMi/mace)
46 | 简评:MACE重磅开源。 47 | - [Computer Vision Annotation Tool (CVAT) is a web-based tool which helps to annotate video and images for Computer Vision algorithms](https://github.com/opencv/cvat)
48 | 简评:基于web的视频图像标记工具。 49 | - [lagom: A light PyTorch infrastructure to quickly prototype reinforcement learning algorithms.](https://github.com/zuoxingdong/lagom)
50 | 简评:用于强化学习算法快速原型构建的轻量级PyTorch架构。 51 | - [simple neural network library in ANSI C](https://github.com/codeplea/genann)
52 | 简评:ANSI C简单神经网络库。 53 | 54 | ## 博文 55 | - [An Intriguing Failing of Convolutional Neural Networks and the CoordConv Solution](https://eng.uber.com/coordconv/)
56 | 简评:卷积网络的问题及其解决方案CoordConv——CoordConv解决了坐标变换问题,具有更好的泛化能力,训练速度提高150倍,参数比卷积少10-100倍。 57 | - [How fast is my model?](http://machinethink.net/blog/how-fast-is-my-model/)
58 | 简评:模型到底能跑多快?深度学习计算复杂度解析。 59 | - [AI Can Now Fix Your Grainy Photos by Only Looking at Grainy Photos](https://weibo.com/tv/v/Gpnqtnipl?fid=1034:4260482161558120)
60 | 简评:用深度学习自动修复图像颗粒状/像素化噪声和文字水印. 61 | - [如何将模型部署到安卓移动端,这里有一份简单教程 | 机器之心](https://mp.weixin.qq.com/s/23FoaaA3Z_3kf03BmepFPg)
62 | 简评:本文介绍了如何利用 TensorFlow Mobile 将 PyTorch 和 Keras 模型部署到安卓移动端。 63 | - [图像压缩哪家强?请看这份超详细对比 | PaperWeekly](https://mp.weixin.qq.com/s/B7reSwa9sCZqbkYVM5-VOA)
64 | 简评:图像压缩在计算机视觉领域占据着比较重要的位置,随着 GAN,VAE 和超分辨率图像让生成模型得到了很大的进步。不同的模型有着不同的性能优势,本文用精炼的语言加上较为严谨的实验对比了 GAN,CAE 和 super-resolution 在图像压缩性能上的优势。 65 | - [当前训练神经网络最快的方式:AdamW优化算法+超级收敛](http://www.fast.ai/2018/07/02/adam-weight-decay/)
66 | 简评:最优化方法一直是机器学习中非常重要的部分,也是学习过程的核心算法。而 Adam 自 14 年提出以来就受到广泛关注,目前该论文的引用量已经达到了 10047。不过自去年以来,很多研究者发现 Adam 优化算法的收敛性得不到保证,ICLR 2017 的最佳论文也重点关注它的收敛性。在本文中,作者发现大多数深度学习库的 Adam 实现都有一些问题,并在 fastai 库中实现了一种新型 AdamW 算法。根据一些实验,作者表示该算法是目前训练神经网络最快的方式。 67 | ---- 68 | 69 | Editor: 王建章、袁帅 70 | 71 | ---- 72 | 73 | 知识共享许可协议
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。 74 | -------------------------------------------------------------------------------- /bi-weekly-reports/2018-01-15.md: -------------------------------------------------------------------------------- 1 | --- 2 | layout: default 3 | --- 4 | 5 | # 嵌入式AI 双周简报 (2017-01-15) 6 | 7 | ## 业界新闻 8 | 9 | - [黄仁勋打响CES第一枪:全球最强芯DRIVE Xavier武装自动驾驶 | 新智元](https://mp.weixin.qq.com/s?timestamp=1516011357&src=3&ver=1&signature=Y*SvMcfP6LnMQTPt9ZOJkNRx8cHToVJK7l7P*TRvgbH4fyH1G-Km67BxFwKkiLXLRlt8QwJrcKThQPcOiB*BK8HVtTJNL8GijdEYEDtVKB-OgH2WrIGeyDYh0OHGy7E6ovzzI0NZFk7LPEc28AzNJCBSasJc*ex9rMVLlFKWRdM=)
10 | 简评:英伟达黄仁勋在CES表示将全力投入无人驾驶市场,发布四大关键产品和平台,并公布了英伟达在AI领域的2017成绩单。 11 | - [CPU漏洞补丁对机器学习和深度学习性能影响实测 | 新智元](https://mp.weixin.qq.com/s?timestamp=1516018763&src=3&ver=1&signature=Y*SvMcfP6LnMQTPt9ZOJkE-YNTEKuKlLIEsVtNozKgkjVTkNCG2M*ih5oRJEuh0zw8c8LT8CZbUt188BNny*uP3jSJcFs2CiOxE2GvnmjnZJomn7Dh49MmYjLwyMjA6PqmldJ2Vmy3cf5bz-BSu1RhpWjj-SjI7MOhs-VgbgSHM=)
12 | 简评:本文作者对神经网络(TensorFlow&Keras)、Scikit-learn、XGBoost等进行了使用和不使用PTI补丁时的性能比较,发现该补丁对性能的影响非常依赖于任务——有些任务不受影响,有些任务的性能下降了40%。 13 | - [改变自动驾驶发展格局,百度“阿波罗计划”的前世今生 | 雷锋网](https://mp.weixin.qq.com/s?timestamp=1516013308&src=3&ver=1&signature=Y*SvMcfP6LnMQTPt9ZOJkAP8td9dPU*X7kgtHADvvgTwSmv3kVoMkxYAkA7Hp0v0bxwAyEWgHGT8ZVDudQ6la*HL3COqj6aOir8Ytpg1nUD74De95w4qAh07M6Zid2BWaI9QI7Gn1-oA6lrGEvcJkhbb9ZRzeGXXsBrBup*SuLI=)
14 | 简评:百度在去年 4 月推出了 Apollo 自动驾驶开放平台,距今已经有 8 个多月的时间,这 8 个多月中,Apollo 从无到有,从国内走向国际,囊括了 90 多家合作伙伴,如今已经进化到了 2.0 版本,从一开始的循迹驾驶到现在实现简单城市道路的自动驾驶。正在进行的 2018 年 CES 大展,百度也通过 Apollo 平台对外展示了自动驾驶的“中国速度”。 15 | - [揭秘超越英伟达Pascal五倍的英特尔深度学习芯片架构 | 新智元](https://mp.weixin.qq.com/s?timestamp=1516018932&src=3&ver=1&signature=Y*SvMcfP6LnMQTPt9ZOJkJ79FvG5Jp36g4Zy22ZZ2deQLjKB4sjsgC4CpbSXxlw-TEqfJod4XGf6tPfq42sdrm-u53vu4-jX6MnvlTPCSntFWp5KPayj0BUjWyqlNej9BXowlgG5mmB7Ovp-LQ5718l0CapFG2mHDwyrMZ70mXc=)
16 | 简评:据 Nervana 元老,现任英特尔 AI 硬件负责人 Carey Kloss 介绍,Nervana Intel 目前的芯片与初代 Nervana 芯片非常相似,但由于英特尔提供了更多专业技术,新的深度学习芯片可以以每年一次的频率快速更新换代。 17 | 18 | ## 论文 19 | - [1712.07316] [A Flexible Approach to Automated RNN Architecture Generation](https://arxiv.org/abs/1712.07316)
20 | 简评:该论文提出了一个领域特定的语言(DSL)用于自动化架构搜索,可以产生任意深度和宽度的新型RNN。DSL足够灵活以定义标准体系结构,如门控重复单元和长期短期内存,并允许引入非标准RNN组件,如三角曲线和层规范化。使用两种不同的候选生成技术,具有排序功能的随机搜索和强化学习,我们探索由RNN DSL为语言建模和机器翻译领域所创建的新架构。由此产生的体系结构并不遵循人类的直觉,而是在其目标任务上表现良好,这表明可用的RNN体系结构的空间远大于以前的假设。 21 | - [1712.07798] [Deep learning for predicting refractive error from retinal fundus images](https://arxiv.org/abs/1712.07798)
22 | 简评:屈光不正是导致视力损害的主要原因之一,可以通过简单的干预措施(如处方眼镜)来纠正,作者使用深度学习算法来检验实验者的眼底照片,计算结果表表明深度学习可以用来从医学图像中进行新的预测。 23 | - [1712.06076] [Using Deep learning methods for generation of a personalized list of shuffled songs](https://arxiv.org/abs/1712.06076)
24 | 简评:文章中作者建议通过构建一个卷积深层信念网络,从而解决音乐播放系统中随机播放的歌曲不符合用户心情的问题,所学习的参数将用于初始化多层感知器,该多层感知器将用户的播放列表的提取特征作为输入与元数据一起输入以分类到各种类别。 25 | - [1712.04910] [FFT-Based Deep Learning Deployment in Embedded Systems](https://arxiv.org/abs/1712.04910)
26 | 简评:嵌入式平台由于其可移植性,多功能性和能源效率,正在成为深度学习部署的关键,但是DNN加重了嵌入式平台的计算和存储,作者提出了一种适用于嵌入式平台的基于快速傅立叶变换(FFT)的DNN训练和推理模型,其计算和存储的渐近复杂度降低。 27 | - [1712.05083] [Extreme 3D Face Reconstruction: Looking Past Occlusions](https://arxiv.org/abs/1712.05083)
28 | 简评:在提供在极端条件下,从平面旋转和遮挡中观察到的人脸的详细三维重建。作者根据凹凸贴图的概念,提出了一种分层的方法,该方法将全局形状的估计与它的中等细节(例如,皱纹)解耦。我们估计一个粗糙的三维表面形状,作为基础,显示在现有技术状态经常破裂的观察条件下产生详细的3D面部形状。 29 | - [1611.08050] [Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields](https://arxiv.org/abs/1611.08050)
30 | 简评:作者提出用一种方法来高效的检测图像中多个人的二维姿态,该方法使用非参数表示来学习将身体部位与图像中的个体相关联,无论图像中的人有多少,都能保持高精度和良好的实时性。 31 | - [1712.08449] [True Asymptotic Natural Gradient Optimization](https://arxiv.org/abs/1712.08449)
32 | 简评:在深度学习框架下开发一个j精简而精确的视频手势识别模型的问题。为此,作者提出了一个端到端可训练的联合3DCNN-LSTM模型,并且被证明更适合捕获动作中的动态信息。 33 | 34 | 35 | ## 开源项目 36 | 37 | - [TensorFlow 1.5.0-rc0发布,新增CUDA 9/cuDNN 7预编译支持,集成Eager execution/TensorFlow Lite](https://github.com/tensorflow/tensorflow/releases/tag/v1.5.0-rc0)
38 | 简评:该版本主要针对CUDA9和cuDNN7进行了预编译。 39 | - [Tensorlang:基于TensorFlow的可微编程语言](https://github.com/tensorlang/tensorlang)
40 | 简评:Tensorlang定义了一组语法和语义,提供对TensorFlow运行时和工具链的完整性能和表现力的访问。 41 | - [基于NVIDIA Jetson打造“富人版”深度学习摄像机](https://github.com/burningion/rich-mans-deep-learning-camera)
42 | 简评:用NVIDIA Jetson和Python构建一款自带深度学习相机。 43 | - [TensorFlow相关论文与研究汇总 | techleer](https://www.techleer.com/articles/419-a-curated-list-of-dedicated-resources-tensorflow-papers/)
44 | 简评:关于TensorFlow的各种论文和研究,其中主要包括异构分布式系统上的大规模机器学习、分布式机器学习高级模块、深度学习软件框架的比较研究、带有MPI的分布式、全球标准化的基于转换的神经网络、大规模机器学习等。 45 | 46 | ## 博文 47 | 48 | - [GPU是如何优化运行机器学习算法的? | 机器之心](https://mp.weixin.qq.com/s?timestamp=1516018932&src=3&ver=1&signature=Y*SvMcfP6LnMQTPt9ZOJkJ79FvG5Jp36g4Zy22ZZ2deQLjKB4sjsgC4CpbSXxlw-TEqfJod4XGf6tPfq42sdrm-u53vu4-jX6MnvlTPCSntnIgJF-UBd51iDsG4sc8TaJmRUrwgRjQkzEVcP*gWCJCh*iIVP3o2tJnkVvdBhvoY=)
49 | 简评:在这篇文章中结合代码介绍一下 GPU 加速,它是如何完成的,以及用于 GPU 任务的简单 API。 50 | - [Jeff Dean撰文回顾谷歌大脑2017:从基础研究到新硬件 | 机器之心](https://mp.weixin.qq.com/s?timestamp=1516018932&src=3&ver=1&signature=Y*SvMcfP6LnMQTPt9ZOJkJ79FvG5Jp36g4Zy22ZZ2deQLjKB4sjsgC4CpbSXxlw-TEqfJod4XGf6tPfq42sdrm-u53vu4-jX6MnvlTPCSntKQ-bvsEjuz8I-T9XXKRadEBY-11f4GgyxEZXqTnUWGowzlwaNtvNWQoRRkv1TW9M=)
51 | 简评:谷歌大脑负责人 Jeff Dean 近日撰文回顾了 2017 年的工作,内容包括基础研究工作,机器学习的开源软件、数据集和新硬件。 52 | - [ARM攒机指南——AI篇 5大千万级设备市场技术拆解 | 新智元](http://mp.weixin.qq.com/s/6ksL9p1Gmnrd2HahU3KniQ)
53 | 简评:本文原文链接主要介绍了ARM的攒机方法文章主要精简的拆解各个设备市场的技术重点。 54 | - [深度学习框架Keras解析 | 微博](https://weibo.com/tv/v/FDdlhe4BT?fid=1034:8e4d1ec8c10716320ae216ea9cca1bdf)
55 | 简评:针对Keras做了深入的解析工作。 56 | - [人脸解锁的无人运输小车](https://weibo.com/tv/v/FD3mycpN4?fid=1034:fe9c2486fcf2409470de17ca981eb3b6)
57 | 简评:国外一家公司利用人脸识别开发的快递新模式,可利用人脸识别识别收件人。 58 | - [NVIDIA Volta GPU Architecture | YouTube](https://www.youtube.com/watch?v=5TUk5BtM0Bc)
59 | 简评:NVIDIA Volta GPU架构通过原创短视频的形式展示了产品的特点。 60 | 61 | 62 | Editor: 王建章、袁帅 63 | 64 | ---- 65 | 66 | 知识共享许可协议
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。 67 | -------------------------------------------------------------------------------- /bi-weekly-reports/2018-01-31.md: -------------------------------------------------------------------------------- 1 | --- 2 | layout: default 3 | --- 4 | 5 | # 嵌入式AI 双周简报 (2018-01-31) 6 | 7 | ## 业界新闻 8 | 9 | - [AAAI 2018 | 阿里巴巴提出极限低比特神经网络,用于深度模型压缩和加速 | 机器之心](http://mp.weixin.qq.com/s/_V1MTtgaWb2S6mZA37fdxA)
10 | 简评:国际知名的人工智能学术会议 AAAI 2018 即将于 2 月份在美国新奥尔良举办,据机器之心了解,阿里巴巴共有 11 篇论文被接收。在介绍的这篇论文中,阿里巴巴提出利用ADMM算法学习极限低比特神经网络的架构。 11 | - [英特尔暂停发放CPU补丁, Linux之父怒批“Spectre补丁是彻底的垃圾” | Linuxer](http://mp.weixin.qq.com/s/YXgUHdt5Je6rJ_N24PIcKA)
12 | 简评:英特尔周一表示用户应当停止在受影响的设备上,部署上个月由安全人员发现的芯片安全Meltdown和Spectre漏洞补丁,因为目前发现了超出预期的重启问题以及其他“不可预测”的系统行为。 13 | - [亚马逊无人商店开业了,我们到现场排了队还来了一次花式测评 | 机器之心](http://mp.weixin.qq.com/s/_LczoTOTD3KbSrVhYZO3iw)
14 | 简评:文章作者亲身体验亚马逊无人商店,并且通过购物APP做出各种测试。 15 | - [三星将推首款AI芯片NPU,性能超华为苹果,智能终端AI芯大PK| 新智元](http://mp.weixin.qq.com/s/igG30KpJ81T0B5qhQKTHYg)
16 | 简评:据外媒爆料,三星已经接近完成一款AI芯片的研发,其性能已经堪比苹果的A11和华为麒麟970,三星极有可能在2月25日举行的MWC 2018大会上发布Galaxy S9的同时,展示其新AI技术的能力。 17 | - [清华研发出可支持神经网络的芯片 | 警用科技](http://mp.weixin.qq.com/s/h4EvTfjHmEvLAhtnpXJ0uw)
18 | 简评:清华大学研究团队取得重大突破,研发出支持神经网络的芯片,可运用于使用电池的小型设备。 19 | 20 | 21 | ## 论文 22 | - [1801.06287] [What Does a TextCNN Learn?](https://arxiv.org/abs/1801.06287)
23 | 简评:TextCNN是一个用于文本的卷积神经网络,它是一种有用的深度学习算法,用于句子分类任务,如情绪分析和问题分类。然而,神经网络长期以来被称为黑匣子,因为解释它们是一项具有挑战性的任务。研究人员已经开发出了一些工具来通过深度可视化来理解CNN的图像分类,但是对于深度文本的研究仍然不够。在本文中,我们试图了解一个TextCNN在两个经典的NLP数据集上学习的内容。我们的工作侧重于不同的卷积的功能。 24 | - [1801.06434] [EffNet: An Efficient Structure for Convolutional Neural Networks](https://arxiv.org/abs/1801.06434)
25 | 简评:随着越来越多的卷积神经网络对客户的产品需要出现的模型可以有效地运行在嵌入式的应用,手机硬件。因此,精简的模型已经成为一个热门的研究课题,有多种不同的方法,从二进制网络到修正卷积层。我们为后者提供了贡献,并提出了一种新的卷积块,大大减少了计算负担,同时超过了目前的最先进的。我们的模型,称为effnet,优化模型是苗条的开始,是为了解决现有的模型,如MobileNet和ShuffleNet的问题。 26 | - [1801.07606] [Deeper Insights into Graph Convolutional Networks for Semi-Supervised Learning](https://arxiv.org/abs/1801.07606)
27 | 简评:机器学习中的许多有趣的问题正在用新的深层学习工具重新审视。基于图的半监督学习,最近的一个重要的发展是图卷积网络(GCN),从而很好地整合当地的顶点的特征及其在卷积层图的拓扑结构。虽然与其他国家的最先进的方法与模型相比,毫不逊色,其机制尚不清楚,仍需要大量的标注数据验证和模型选择。在本文中,我们更深入认识GCN模式和解决其根本的限制。首先,我们发现GCN图形卷积模型实际上是拉普拉斯平滑的一种特殊形式,其中的主要原因是GCNs的工作,但同时也带来了潜在的问题在许多层平滑卷积。其次,针对浅的GCN架构模型的限制,我们提出了协同训练和自我训练,GCNs的训练方法。我们的方法显着提高GCN与极少数标签学习,并免除他们需要确认额外的标签。大量的基准测试证实了我们的理论和建议。 28 | - [1801.06700] [A Deep Reinforcement Learning Chatbot (Short Version)](https://arxiv.org/abs/1801.06700)
29 | 简评:milabot能够通过语音和文本的流行话题的人交谈。该系统由自然语言生成和检索模型组成,包括神经网络和基于模板的模型。采用强化学习的众包数据与真实的用户交互,系统已经被训练来选择一个合适的模型的整体反应。该系统通过与现实世界用户进行了AB测试,其性能显著优于其他系统。结果突出了耦合集成系统与深强化学习作为一个富有成效的发展现实世界,开放域会话代理的潜力。 30 | - [1801.07829] [Dynamic Graph CNN for Learning on Point Clouds](https://arxiv.org/abs/1801.07829)
31 | 简评:文章提出了一种新的神经网络模块称为edgeconv适合美国有线电视新闻网的高级任务包括对点云的分类和分割。edgeconv是可微的,可以插入到现有的体系结构。相比现有的模块的操作主要是在外部空间或处理每个点独立,EdgeConv有几个有吸引力的特性:它采用了局部邻域信息;它可以堆叠或反复应用学习全局形状特性;在多层系统的亲和力在特征空间中捕捉语义特征在原始嵌入的潜在的长距离。在提出这一模块,我们提供广泛的评价和分析,揭示edgeconv捕捉和利用细粒度的点云的几何性质。该方法实现了国家的最先进的性能标准的基准测试,包括modelnet40和s3dis。 32 | - [1801.06867] [Scene recognition with CNNs: objects, scales and dataset bias](https://arxiv.org/abs/1801.06867)
33 | 简评:该论文提出了一个替代的方法,考虑到规模,从而产生显著的认识收益。由ImageNet CNNs和地方CNN在不同的尺度上我们发现,在不同的尺度范围的响应分析,所以使用同一网络的所有尺度的数据偏差造成的性能限制诱导。因此,采用特征提取的每个特定的规模(即特定尺度的CNN)是提高识别的关键,因为场景中的对象有其特定范围的尺度。实验结果表明,识别精度在很大程度上取决于规模,这简单而精心选择的多尺度组合ImageNet CNNs和地方CNN,可以推动国家的最先进的识别精度sun397达66.26%(甚至70.17%与深层结构,与人的行为)。 34 | 35 | 36 | ## 开源项目 37 | 38 | - [romulus914/CNN_VGG19_verilog: Convolution Neural Network of vgg19 model in verilog](https://github.com/romulus914/CNN_VGG19_verilog)
39 | 简评:verilog中vgg19模型的卷积神经网络。 40 | - [cliffordwolf/picorv32: PicoRV32 - A Size-Optimized RISC-V CPU](https://github.com/cliffordwolf/picorv32)
41 | 简评:PicoRV32是实现RISC-V RV32IMC指令集的CPU内核。它可以配置为RV32E,RV32I,RV32IC,RV32IM或RV32IMC内核,还可以选择包含一个内置的中断控制器。 42 | - [azonenberg/openfpga: Open FPGA tools](https://github.com/azonenberg/openfpga)
43 | 简评:更新了v0.2散热板的原理图。 44 | - [Detectron精读系列之一:学习率的调节和踩坑 | 机器之心](http://mp.weixin.qq.com/s/kL1bhjdTc1wyYEL4KJqDpg)
45 | 简评:Detectron 开源,文章作者提前踩坑并展示学习率的调节。 46 | - [Uber提出SBNet:利用激活的稀疏性加速卷积网络 | Uber](http://mp.weixin.qq.com/s/xCzS7sYMFmk5K4ClB1I2YQ)
47 | 简评:Uber 的研究人员提出了一种可以在改善检测准确度的同时极大提升速度的算法 SBNet 并在其工程开发博客上对该研究进行了介绍。另外,本项目的代码也已在 GitHub 上发布。 48 | - [十倍模型计算时间仅增20%:OpenAI开源梯度替换插件 | GitHub](http://mp.weixin.qq.com/s/glwjwXNNoMYBmhgwEcpUeg)
49 | 简评: OpenAI 研究员 Tim Salimans 和 Yaroslav Bulatov 联合开发的工具包,你可以权衡计算力和内存的使用,从而使你的模型更合理地占用内存。对于前馈模型,我们能够借助该工具把大 10 多倍的模型放在我们的 GPU 上,而计算时间只增加 20%。 50 | - [TensorFlow正式发布1.5.0,支持CUDA 9和cuDNN 7,双倍提速](http://mp.weixin.qq.com/s/ilBcSQ5RGAx9Fp7oSri3sA)
51 | 简评:TensorFlow今天正式发布了1.5.0版本,支持CUDA 9和cuDNN 7,进一步提速。并且,从1.6版本开始,预编译二进制文件将使用AVX指令,这可能会破坏老式CPU上的TF. 52 | 53 | ## 博文 54 | 55 | - [细读EETimes的AI芯片文章 | StarryHeavensAbove](http://mp.weixin.qq.com/s/BPoCM7H44dns9y-Ul0jMPw)
56 | 简评:“AI Silicon Preps for 2018 Debuts”,作者抽取部分文章介绍了和AI芯片相关的各种问题。 57 | - [浅析图像视频类AI芯片的灵活度 | StarryHeavensAbove ](https://mp.weixin.qq.com/s/wivFTy3Tj6Ahc5XO6-FX2w)
58 | 简评:本文通过列举目前图像视频类的典型算法、典型网络结构、典型平台和接口等方面来分析AI芯片的灵活度范围。 59 | - [语音及文本类AI芯片的需求分析 | 机器之心](http://mp.weixin.qq.com/s/cfqnLYZSxJhtsgtrydx02A)
60 | 简评:文章作者分别深度分析了语音文本类深度学习和AI芯片的需求。 61 | - [图像分类、定位、检测,语义分割和实例分割方法梳理](http://mp.weixin.qq.com/s/oe8Zcv3EecDV2OUl9qejCA)
62 | 简评:本文作者来自南京大学计算机系机器学习与数据挖掘所(LAMDA),本文直观系统地梳理了深度学习在计算机视觉领域四大基本任务中的应用,包括图像分类、定位、检测、语义分割和实例分割。 63 | - [PTGAN:针对行人重识别的生成对抗网络 | PaperDaily #36](http://mp.weixin.qq.com/s/rf-pGfkQFK3abkOLEEVOeA)
64 | 简评:本文提出了一种针对于行人重识别的生成对抗网络 PTGAN,使用 GAN 将一个数据集的行人迁移到另外一个数据集。 65 | - [TVM优化教程 | 量子位](http://mp.weixin.qq.com/s/j-z_xg8FqfAxGcMNISirdQ)
66 | 简评:TVM通过引入一个统一的IR堆栈来解决不同硬件平台的部署问题。使用TVM/NNVM可以为ARM Mali GPU生成高效内核,并且进行端到端的编译。 67 | - [利用视频物体跟踪实现移动端Video Tagging](http://mp.weixin.qq.com/s/nwXN0YdVviI43E4IyUuJ3A)
68 | 简评:文章阐述了利用计算机视觉中经典的视频目标跟踪算法来实现轻量级的视频tagging功能,从而可以生成更加丰富,个性化的视频内容。 69 | 70 | 71 | Editor: 王建章、袁帅 72 | 73 | ---- 74 | 75 | 知识共享许可协议
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。 76 | -------------------------------------------------------------------------------- /bi-weekly-reports/2017-10-31.md: -------------------------------------------------------------------------------- 1 | --- 2 | layout: default 3 | --- 4 | 5 | # 嵌入式AI 双周简报 (2017-10-31) 6 | 7 | ## 业界新闻 8 | 9 | - [Bringing AMDGPUs to TVM Stack and NNVM Compiler with ROCm | TVMLANG](http://tvmlang.org/2017/10/30/Bringing-AMDGPUs-to-TVM-Stack-and-NNVM-Compiler-with-ROCm.html)
10 | 简评:TVM stack最新推出AMDGPU后端。可以直接通过nnvm compiler把各种深度学习框架模型编译到amd gcn的汇编代码进行最底层优化。由社区同学美国AMD的Aditya和日本的Masa贡献。 11 | - [这么多做 AI 芯片的,NovuMind 吴韧做的有何不同? | 雷锋网](https://www.leiphone.com/news/201710/GG9umC93Gtav2Eac.html)
12 | 简评:NovuMind 创始人、前百度AI工程师吴韧近日表示将在年底推出第一款人工智能芯片产品NovuTensor,根据测试可以在5W的功率基础上进行每秒15万亿次浮点计算。 13 | - [专访余凯:地平线完成Intel Capital领投的近亿美金A+轮融资,未来如何将嵌入式AI解决方案做到第一? | 雷锋网](https://www.leiphone.com/news/201709/gA66lKNbkbzuHqC1.html)
14 | 简评:做芯片有三种商业模式,一是卖IP,如ARM;二是直接卖芯片,如英特尔;三则是提供芯片加算法的解决方案,如Mobileye。地平线选择的是第三种。 15 | - [Graphcore提出IPU基准:全面测试硬件运行机器学习应用能力 | 机器之心](https://mp.weixin.qq.com/s/ovYHf1SVrvVQElvR72Rchg) [[英文原文](https://www.graphcore.ai/posts/preliminary-ipu-benchmarks-providing-previously-unseen-performance-for-a-range-of-machine-learning-applications)]
16 | 简评:智能芯片创业公司 Graphcore 推出的 IPU(智能处理单元)究竟实力如何?近日,该公司的开发人员使用 Poplar 应用库中的各种机器学习应用对 IPU、GPU 和 CPU 进行了性能对比。结果表明这种芯片的确可以像宣传的那样「提升 AI 应用 10 倍到 100 倍处理速度」。 17 | - [英特尔Nervana发布强化学习库Coach:支持多种价值与策略优化算法 | 机器之心](https://mp.weixin.qq.com/s/R_pfTXDMaLHmiCaSV2t_YA) [[docs](http://coach.nervanasys.com)]
18 | 简评:开发 Coach 的动机是,通过掌控多核 CPU 处理的能力来训练、评估强化学习智能体,从而获得顶尖的结果。也是为了通过模块化设计和对 API 的简洁设定,提供简化新算法开发的沙盒。 19 | - [IBM低调发布革命性计算架构,竟可在内存上运行AI应用,“人工大脑三部曲”已进入第二阶段? | DeepTech](https://mp.weixin.qq.com/s/9OmspcRviChpLVkpxPSz9A)
20 | 简评:10 月 24 日,IBM 研究人员实现了在内存计算技术上的一次重大突破。他们宣布发明了一种可以运行在 100 万个相变内存(Phase Change Memory,PCM 设备)上的无监督式机器学习算法,并且成功地在一系列未知数据流中发现了时间相关性。 21 | - [2017安博会首日观感:以 AI 为界,安防三分天下 | 雷锋网](http://weibo.com/ttarticle/p/show?id=2309351000224168440511394574)
22 | 简评:传统思维模式下的安防软件是作为硬件产品附属品出现的,但从行业发展来看,硬件是安防行业的基础,而软件则决定着安防行业未来发展趋势。在这条发展之路上,AI可以说是安防的绝佳着陆场。 23 | 24 | 25 | ## 论文 26 | 27 | - [1710.09829] [Dynamic Routing Between Capsules](https://arxiv.org/abs/1710.09829) [[知乎](https://www.zhihu.com/question/67287444)] [[雷锋网](http://weibo.com/ttarticle/p/show?id=2309351000224167750573542463&u=1402400261&m=4167746733983354&cu=1181564472&ru=1402400261&rm=4167681823086814)] [[译文](https://mp.weixin.qq.com/s/00UAn7m_yeYld-s60NFA8A)]
28 | 简评:本论文所研究的胶囊意为一组神经元,其激活向量反映了某类特定实体(可能是整体也可能是部分)的表征。本论文使用激活向量的模长来描述实体存在的概率,用激活向量的方向表征对应实例的参数。某一层级的活跃胶囊通过矩阵变换做出预测,预测结果会用来给更高层级的胶囊提供实例参数。当多个预测值达成一致时,一个高层级的胶囊就会被激活。论文中展示了差异化训练的多层胶囊系统可以在MNIST上达到当前最高水平的表现,在识别高度重叠的数字上也要比卷积网络要好得多。网络的实现中运用迭代的一致性路由机制:当低层级的胶囊的预测向量和高层级胶囊的激活向量有较大的标量积时,这个低层级胶囊就会倾向于向高层级胶囊输出。 29 | - [1703.09039v2] [Efficient Processing of Deep Neural Networks: A Tutorial and Survey](https://arxiv.org/abs/1703.09039v2)
30 | 简评:本文既是一篇带有Tutoroal性质的概述。主要介绍了在设计DNN的架构时主要考虑的因素、评估不同的硬件实现的性能、硬件架构和平台之间的考虑以及最近的发展趋势。 31 | - [1710.09282] [A Survey of Model Compression and Acceleration for Deep Neural Networks](https://arxiv.org/abs/1710.09282) [[译文](https://mp.weixin.qq.com/s/GFE2XYHZXPP0doQ5nd0JNQ)]
32 | 简评:本文全面概述了深度神经网络的压缩方法,主要可分为参数修剪与共享、低秩分解、迁移/压缩卷积滤波器和知识精炼,本论文对每一类方法的性能、相关应用、优势和缺陷等进行独到的分析。机器之心简要介绍了该论文,更详细的内容请查看原论文。 33 | 34 | ## 开源项目 35 | 36 | - [PavlosMelissinos/enet-keras: A keras implementation of ENet (work in progress)](https://github.com/PavlosMelissinos/enet-keras) [[paper](https://arxiv.org/abs/1606.02147)]
37 | 简评:This is an implementation of ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation, ported from ENet-training (lua-torch) to keras. 38 | - [senlinuc/caffe_ocr: 主流ocr算法研究实验性的项目,目前实现了CNN+BLSTM+CTC架构](https://github.com/senlinuc/caffe_ocr)
39 | 简评:caffe_ocr是一个对现有主流ocr算法研究实验性的项目,目前实现了CNN+BLSTM+CTC的识别架构,并在数据准备、网络设计、调参等方面进行了诸多的实验。代码包含了对lstm、warp-ctc、multi-label等的适配和修改,还有基于inception、restnet、densenet的网络结构。代码是针对windows平台的,linux平台下只需要合并相关的修改到caffe代码中即可。 40 | - [plaidml/plaidml: PlaidML is a framework for making deep learning work everywhere.](https://github.com/plaidml/plaidml) [[ref](http://vertex.ai/blog/announcing-plaidml)]
41 | 简评:PlaidML:致力于跨平台开发部署的开源高性能深度学习框架,Mac上也可实现加速深度学习! 42 | - [TuSimple/mx-maskrcnn: A MXNet implementation of Mask R-CNN](https://github.com/TuSimple/mx-maskrcnn) [[paper](https://arxiv.org/abs/1703.06870)]
43 | 简评:使用MXNet框架实现的Mask RCNN,这个Mask RCNN的实现过程的大部分参考了mx-rcnn这个项目。 44 | This repository is based largely on the mx-rcnn implementation of Faster RCNN available 45 | -[bruinxiong/xception.mxnet: A MXNet implementation of Xception](https://github.com/bruinxiong/xception.mxnet) [[paper](https://arxiv.org/abs/1610.02357v2)]
46 | 简评:Xception的MXNet实现。 47 | - [bruinxiong/SENet.mxnet: A MXNet implementation of Squeeze-and-Excitation Networks (SE-ResNext, SE-Resnet)](https://github.com/bruinxiong/SENet.mxnet) [[paper](https://arxiv.org/abs/1709.01507)]
48 | 简评:使用MXNet实现的SE-ResNeXt、SE-ResNet网络。Jie Hu等人用该网络结构赢得了2017年的ImageNet图像分类比赛。 49 | - [kuangliu/pytorch-fpn: Feature Pyramid Networks in PyTorch](https://github.com/kuangliu/pytorch-fpn) [[paper](https://arxiv.org/abs/1612.03144)]
50 | 简评:使用PyTorch实现的特征金字塔网络。 51 | - [mind/wheels: Performance-optimized wheels for TensorFlow (SSE, AVX, FMA, XLA, MPI)](https://github.com/mind/wheels)
52 | 简评:为TensorFlow专门优化的版本,其中主要优化手段包括:SSE、AVX、FMA、XLA和MPI等。 53 | 54 | 55 | ## 博文 56 | 57 | - [Air Measure™ | The AR Measuring ToolKit](http://air-measure.com/) [[video](https://www.youtube.com/watch?v=XyrBtaeVvTs)]
58 | 简评:AR的隔空测距技术可以有很多应用,这里的一个小视频就是在停车倒库移库上的应用。 59 | - [All of Apple's Face-Tracking Tech Behind the iPhone X's Animoji | WIRED](https://mp.weixin.qq.com/s/mkzw1eehPpTaNX5_V1NNSw) [[英文原文](https://www.wired.com/story/all-the-face-tracking-tech-behind-apples-animoji/)]
60 | 简评:苹果 Animoji 表情背后:面部识别技术如何一步步进化的? 61 | - [为什么SSD(Single Shot MultiBox Detector)对小目标的检测效果不好 | 知乎](https://www.zhihu.com/question/49455386)
62 | 简评:贴一个回答的部分:SSD是一种基于全卷积的网络的检测器,用不同层检测不同大小的物体。这中间有个矛盾,前面的featmap大,但semantic不够,后面的sematic够了,但经过太多的pooling,featmap太小了。要检测小物体,既需要一张足够大的featmap来提供更加精细的特征和做更加密集的采样,同时也需要足够的semantic meaning来与背景区分开。 63 | - [Building FPGA applications on AWS — and yes, for Deep Learning too | Medium](https://medium.com/@julsimon/building-fpga-applications-on-aws-and-yes-for-deep-learning-too-643097257192)
64 | 简评:现场可编程门阵列(FPGA)不是闪亮的新技术,第一个商业产品可以追溯到1985年。然而今天,我们将这四十年前的东西和前沿的深度学习结合起来了。 65 | 66 | ---- 67 | 68 | Editor: 张先轶、袁帅 69 | 70 | ---- 71 | 72 | 知识共享许可协议
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。 73 | -------------------------------------------------------------------------------- /bi-weekly-reports/2017-12-12.md: -------------------------------------------------------------------------------- 1 | --- 2 | layout: default 3 | --- 4 | 5 | # 嵌入式AI 双周简报 (2017-12-12) 6 | 7 | ## 业界新闻 8 | 9 | - [马斯克首度承认自研AI芯片,或与英伟达“分手“ | 新智元](https://mp.weixin.qq.com/s?timestamp=1513062408&src=3&ver=1&signature=fTQ93DETY2RWqbThhgdlcBq1RqsL571fcPqXLNCeQ5RaGAnW4migmjYgbzZ0hKekbWTdE1idDJoFbARX5zUbSjC5dKYcQorRG6rvmpvr0tWawDwFudYkM*fi3DjMvl8sdbd7uEj2udk37OOZP3p0JGja29AypFVRTasFZ5F6ODk=)
10 | 简评:特斯拉CEO Elon Musk在NIPS上公开承认,特斯拉正在开发专用的AI芯片。而同时,英伟达也在NIPS上发布了迄今为止最强大的“TITAN V” PC GPU。 11 | - [全面对比英伟达Tesla V100/P100 Tensor Core的RNN加速能力 | 机器之心](https://mp.weixin.qq.com/s?timestamp=1513064452&src=3&ver=1&signature=fTQ93DETY2RWqbThhgdlcHCPhAS9hfeG3*KZPXWTck9Jbvjq*MoXpnIbzJ5b1w8x81SbAUlxwsFMnnf*RHj-o*sxTW9KUv508uyYMXZIUp2r6MCM3H3GZu-6tGUYDUljYOn2pPUrzWqRZJlN3-hWvqmEuRrkFXVh1VNLEwl83*o=)
12 | 简评:RNN 是处理量化金融、风险管理等时序数据的主要深度学习模型,但这种模型用 GPU 加速的效果并不好。本文使用 RNN 与 LSTM 基于 TensorFlow 对比了英伟达 Tesla P100(Pascal)和 V100(Volta)GPU 的加速性能,且结果表明训练和推断过程的加速效果并没有我们预期的那么好。 13 | - [Announcing Core ML support in TensorFlow Lite | Google Developers](https://developers.googleblog.com/2017/12/announcing-core-ml-support.html)
14 | 简评:谷歌宣布Core ML支持加载TensorFlow模型。此外,谷歌将会继续致力于TensorFlow Lite的跨平台,包括iOS平台。 15 | - [ONNX V1 released | Facebook Research](https://research.fb.com/onnx-v1-released/)
16 | 简评:今年九月开源神经网络交换格式被开源,这是一种开源的模型格式。如今,Caffe2,CNTK,MXNet,Pytorch,TensorRT都已经支持该模型格式,且可用于生产环境。 17 | - [IBM推出机器学习加速“瑞士军刀”Power9芯片,性能为同类产品的10倍 | 新智元](https://mp.weixin.qq.com/s?timestamp=1513062415&src=3&ver=1&signature=fTQ93DETY2RWqbThhgdlcBlBx4tfraHNaizVJ4n-G5h4vphOJrIfT*OtM6NhvEmL1oYVtn1LYgKMeIWKD9NX77SYNFLAofIAMOV-dPGWrDJ01xT3Hca7zaXnyEZbacX58hEB5UBkSYgyiVjBOvczEU1vPh8sY4CVUm2eQvPVskE=) [[原文](https://www.ibm.com/blogs/research/2017/12/10x-faster-using-gpu/)] [[paper](https://arxiv.org/abs/1708.05357)]
18 | 简评:IBM最新一代的Power9正在进入市场,是目前唯一采用最先进的I / O子系统技术的处理器,包括下一代NVIDIA NVLink,PCIe Gen4和OpenCAPI。与x86比:最大9.5倍I / O带宽;2倍核心高性能;2.6倍RAM支持;1.8倍内存宽带。可以让Chainer,TensorFlow和Caffe等通用AI框运行的workloads增加近4倍。 19 | 20 | 21 | ## 开源项目 22 | 23 | - [ucla-vision/parle](https://github.com//ucla-vision/parle) [[paper](https://arxiv.org/abs/1707.00424)]
24 | 简评:Parle:用于深度学习并行训练的框架。该算法可以对同一个网络进行并行训练,可以把他们称为分片(replicas),通过并行SGD训练单个网络,收敛速度相比原本快2~4倍,同时还可达到更好的泛化性能。目前还只是CPU版本,即将提供多GPU版本的支持。 25 | - [victordibia/handtracking: Building a Real-time Hand-Detector using Neural Networks (SSD) on Tensorflow](https://github.com//victordibia/handtracking)
26 | 简评:作者基于TensorFlow框架实现的SSD模型的手检测器。作者在Macbook pro上进行了实验,在输入图像为320x240大小下,可以达到21FPS。 27 | - [jwyang/faster-rcnn.pytorch](https://github.com//jwyang/faster-rcnn.pytorch)
28 | 简评:更快的faster R-CNN实现。该项目用于加速faster R-CNN物体检测模型的训练,当然作者也承认参考了不少其他人的实现。 29 | - [apple/turicreate: Turi Create simplifies the development of custom machine learning models.](https://github.com//apple/turicreate)
30 | 简评:Turi是一个见到那构建机器学习模型的Python包,可以轻松训练自己的CoreML机器学习模型,去实现推荐、目标检测、图像分类甚至图像相似度检测或行为分类等等。 31 | 32 | 33 | ## 论文 34 | 35 | - [1712.03112] [Effective Extensible Programming: Unleashing Julia on GPUs](https://arxiv.org/abs/1712.03112)
36 | 简评:作者认为对计算密集型、可并行化的应用中编写并行化的低级语言程序较为困难,而使用GPU或其它加速计算设备是又很普遍的。为了解决这一问题作者提出可高效支持硬件的编译架构,用于对现有高级的Julia编程语言对GPU编程的支持。 37 | - [1611.01576] [Quasi-Recurrent Neural Networks](https://arxiv.org/abs/1611.01576) [[code](https://github.com//JayParks/quasi-rnn)] [[blog](https://einstein.ai/research/new-neural-network-building-block-allows-faster-and-more-accurate-text-understanding)]
38 | 简评:递归神经网络在序列建模上面有巨大优势,然而因为时序的计算依赖原因无法并行化导致训练效率很低。作者提出一种QRNNs(quasi-recurrent neural networks)方法,可以对序列建模的同时对时序过程并行化。此外,在相同隐藏层单元数目下,QRNNs比堆叠LSTMs有更好的预测精度,训练和测试时间也比原本快16倍,在语言建模、情感分类、字符级别的翻译任务上表现出了巨大优势。 39 | - [1711.11460] [VoiceMask: Anonymize and Sanitize Voice Input on Mobile Devices](https://arxiv.org/abs/1711.11460)
40 | 简评:语音输入通过云端的快速识别相比打字方便,但上传过程会造成隐私和敏感信息的泄露。作者在用户与云端间设立了一个用来保护隐私的名为VoiceMask的中间层,可以保护用户身份和隐私;同时还是用了关键词替换技术。这两个阶段都是在移动设备上进行。在50人的测试中,使用该技术语音识别准确率只下降了14.2%。 41 | - [1712.02170] [Detecting Curve Text in the Wild: New Dataset and New Solution](https://arxiv.org/abs/1712.02170) [[code](https://github.com/Yuliang-Liu/Curve-Text-Detector)]
42 | 简评:近年来自然场景的文字检测有很大进展,然而对曲线文本等场景效果不尽人意。作者因此构建了一个名为CTW1500的曲线文本数据集,包含1500张图像上超过1万的文本信息,其中训练样本1000个,测试样本500个。此外,作者提出基于多边形的曲线文本检测器,可以在无经验组合下直接检测曲线文本,以及两种后处理方法(非多边形抑制、多边形非最大抑制)来进一步提高检测性能。代码开源! 43 | 44 | 45 | ## 博文 46 | 47 | - [专访Velodyne自动驾驶VP:无人驾驶量产得靠128线廉价激光雷达,中国将是最大市场 | 新智元](https://mp.weixin.qq.com/s?timestamp=1513062415&src=3&ver=1&signature=fTQ93DETY2RWqbThhgdlcBlBx4tfraHNaizVJ4n-G5h4vphOJrIfT*OtM6NhvEmL1oYVtn1LYgKMeIWKD9NX72BBait0OkwXLIUNLsq5Wx5JiXoMrkvOW1atct-sHpmprfsbOcbK1-f99z*AGa2KSIKSvAgCufC0u0ukOOjq3IU=)
48 | 简评:Velodyne 激光雷达(64线)曾定价7万多美元,被认为是无人驾驶走向商用不得不解决的成本问题。近日,Velodyne 又发布了性能更佳的128线激光雷达,但是其自动驾驶负责人却表示,价格将会史无前例的低。此前,他们曾表示64线激光雷达可以从7万美元降到50美元。面对谷歌 Waymo自己打造价格只有其十分之一的激光雷达,特斯拉根本不使用激光雷达的情况,Velodyne 新产品会有怎样的定价? 49 | - [BP表达式与硬件架构:相似性构建更高效的计算单元 | 机器之心](https://mp.weixin.qq.com/s?timestamp=1513064452&src=3&ver=1&signature=fTQ93DETY2RWqbThhgdlcHCPhAS9hfeG3*KZPXWTck9Jbvjq*MoXpnIbzJ5b1w8x81SbAUlxwsFMnnf*RHj-o0JQgtuHqHM5e0uwRhAARDuTRQ2*uQEkHAhEDc6J2-WRuPUoWK*EVrFnn8ZlIXl*Qwa-FMvr91vZvIdqaRvfiv8=)
50 | 简评:反向传播是当前深度学习主要使用的参数更新方法,因此深度学习的硬件设计也需要拟合这种反向传播的计算结构。本文从反向传播的抽象表达开始简要地分析了 BP 算法和脉动阵列架构(systolic array architecture)之间的相似性,从而表明了脉动阵列架构适合执行 BP 和进行模型训练。 51 | - [Mask R-CNN2Go! On-device realtime person keypoint estimation on Samsung Galaxy S8 accelerated by Caffe2 and Qualcomm Snapdragon Neural Processing Engine | facebook](https://weibo.com/tv/v/FyzglwpK0)
52 | 简评:Mask R-CNNGo是一个专为移动端DNN优化、且基于Mask R-CNN的实现。点击链接,观看行人关键点检测的视频演示,该演示是基于Samsung Galaxy S8手机,框架和处理引擎分别是Caffe2和Qualcomm Snapdragon Neural Processing Engine。 53 | - [End to End Optimization Stack for Deep Learning by Tianqi Chen | learningsys](http://learningsys.org/nips17/assets/slides/TVM-MLSys-NIPS17.pdf)
54 | 简评:深度学习端到端优化栈:TVM。 55 | - [Computer System Colloquium: Petascale Deep Learning on a Single Chip by Tapabrata Ghosh | Standford](https://www.bilibili.com/video/av17077920/)
56 | 简评:计算机系统研讨会关于单芯片千兆级深度学习(by Tapabrata Ghosh, Vathys)主题的视频录像。 57 | - [Benchmarking Modern GPUs for Maximum Cloud Cost Efficiency in Deep Learning | minimaxir](http://minimaxir.com/2017/11/benchmark-gpus/)
58 | 简评:云端GPU深度学习最新性能评测。 59 | - [NVIDIA Deep Learning Inference Platform Performance Study | NVIDIA Developer News Center](https://news.developer.nvidia.com/nvidia-deep-learning-inference-platform-performance-study/) [[pdf](https://images.nvidia.com/content/pdf/inference-technical-overview.pdf)]
60 | 简评:NVIDIA在深度学习推理方面的性能研究,具体内容请点击pdf查看该技术报告。 61 | 62 | 63 | ---- 64 | 65 | Editor: 张先轶、袁帅 66 | 67 | ---- 68 | 69 | 知识共享许可协议
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。 70 | -------------------------------------------------------------------------------- /bi-weekly-reports/2018-05-26.md: -------------------------------------------------------------------------------- 1 | --- 2 | layout: default 3 | --- 4 | 5 | # 嵌入式AI 双周简报 (2018-05-26) 6 | 7 | ## 业界新闻 8 | 9 | - [AutoTVM:让AI来编译优化AI系统底层算子 | 知乎](https://zhuanlan.zhihu.com/p/37181530)
10 | 简评:从目前来看的经验来看,手工优化的优势一般在于最里层的micro kernel,而对于程序总体的内存访问等把控并没有机器做的好。在一些必要的情况下TVM也允许直接插入手工micro kernel,但是依然把外层循环的把控交给机器来做,从而结合手工和机器优化的优势。我们在系统论文中的一个超低精度(2bit,1bit)算子的结果就是通过这种结合得到的。 11 | - [ARM 授权费用太贵,科技巨头欲转向开源架构 RISC-V | 雷锋网](https://www.leiphone.com/news/201805/8Nubo2qqdS7P8YRD.html?viewType=weixin)
12 | 简评:IBM、NXP、西部数据、英伟达、高通、三星、谷歌、华为等 100 多家科技公司加入 RISC-V 阵营。 13 | - [这是自由奔跑、自主导航的波士顿动力机器人 | The Verge](https://mp.weixin.qq.com/s/Mv6u5z_dzi6WRsk6KuAk6Q)
14 | 简评:波士顿动力公司的机器人在每一段视频中的表现都非常自然且令人惊叹,今天该公司又在 YouTube 网站上发布了两个视频片段,展示了 Atlas 和 SpotMini 机器人的最新进展。 15 | - [AI算力需求6年增长30万倍、3.5月翻一番 | OpenAI](https://mp.weixin.qq.com/s/b8R38i6Z9Vlr3FVMbiIexQ)
16 | 简评:人工智能技术近年来的发展不仅仰仗于大数据,更是计算机芯片算力不断增强的结果。然而,如果 AI 算力需求的增长速度大大超过了芯片算力的进步,我们又该怎么办?这种担心似乎正在成为现实。根据 OpenAI 最新的分析,近年来人工智能训练任务所需求的算力每 3.43 个月就会翻倍,这一数字大大超越了芯片产业长期存在的摩尔定律(每 18 个月芯片的性能翻一倍)。 17 | - [深度神经网络加速与压缩 | VALSE 2018年度进展报告](https://mp.weixin.qq.com/s/IPN6YFMUTYQkUDaASUVB0g)
18 | 简评:本文介绍了深度神经网络加速和压缩最近一年的进展和趋势。 19 | - [计算机体系结构的“黄金时代” |StarryHeavensAbove](https://mp.weixin.qq.com/s/Mb0CzNZmDU84WV6A47Bcig)
20 | 简评:今年的图灵奖得主John L. Hennessy和David A. Patterson即将在ISCA2018上做个讲演,题目是“A New Golden Age for Computer Architecture: Domain-Specific Hardware / Software Co-Design, Enhanced Security, Open Instruction Sets, and Agile Chip Development”[1]。而在IEEE Micro上,Google Brain的Jeff Dean, David Patterson和Cliff Young发表的文章“A New Golden Age in Computer Architecture: Empowering the Machine- Learning Revolution”[2],从另一个视角提出了计算机体系结构的”黄金时代“。不同的角度,反映了不同的思考。 21 | - [Google TPU3 看点 | StarryHeavensAbove](https://mp.weixin.qq.com/s/b22p26_delWfSpy9kDJKhA)
22 | 简评:Google在I/O大会上发布了TPU3,虽然目前详细信息不多,但下面几点还是值得讨论:8倍性能;快速迭代;云服务和Benchmark。 23 | - [专为深度学习而生的 Tensor Core 到底是什么?| 机器之心](https://mp.weixin.qq.com/s/2-eMxUZ_5F_mNG2sO7HcVQ)
24 | 简评:大规模深度学习应用的开发对性能有很高的需求,作为深度学习加速器 GPU 硬件的核心供应商,英伟达一直在不断创新以满足 AI 社区对计算性能的需求。近日,英伟达开发者博客发文介绍了 Volta Tensor Core GPU 在 AI 性能提升上的里程碑进展。 25 | 26 | 27 | ## 论文 28 | 29 | - [[1804.06882]A Real-Time Object Detection System on Mobile Devices ](https://arxiv.org/pdf/1804.06882.pdf)
30 | 简评:已有的在移动设备上执行的深度学习模型例如 MobileNet、 ShuffleNet 等都严重依赖于在深度上可分离的卷积运算,而缺乏有效的实现。在本文中,来自加拿大西安大略大学的研究者提出了称为 PeleeNet 的有效架构,它没有使用传统的卷积来实现。PeleeNet 实现了比目前最先进的 MobileNet 更高的图像分类准确率,并降低了计算成本。研究者进一步开发了实时目标检测系统 Pelee,以更低的成本超越了 YOLOv2 的目标检测性能,并能流畅地在 iPhone6s、iPhone8 上运行。 31 | - [Training and Inference with Integers in Deep Neural Networks](https://openreview.net/forum?id=HJGXzmspb)
32 | 简评:清华大学类脑计算研究中心博士生吴双的论文被 ICLR2018 收录并在会上做口头报告。迄今为止,这是中国作为第一署名单位里唯一一篇被 ICLR 会议收录的口头报告文章。该报告主要探讨如何实现对全离散化深度神经网络进行训练和推理,便于部署到嵌入式设备中。 33 | - [[1805.05373] DeepEM: Deep 3D ConvNets With EM For Weakly Supervised Pulmonary Nodule Detection](https://arxiv.org/abs/1805.05373)
34 | 简评:为了训练深度神经网络来检测肺部计算机断层扫描(CT)图像中的肺结节,目前的做法是在许多CT图像上手动标记结节的位置和大小,以构建足够大的训练数据集,这是昂贵且困难的规模。另一方面,电子病历(EMR)包含大量关于每幅医学图像内容的部分信息。在这项工作中,我们探索如何挖掘这个庞大的,但目前尚未开发的数据源来改善肺结节检测。文章建议DeepEM,一种新的深度3D ConvNet框架增强了期望最大化(EM),用于挖掘EMR中用于肺结节检测的弱监督标签。 35 | - [[1805.03988] ABMOF: A Novel Optical Flow Algorithm for Dynamic Vision Sensors](https://arxiv.org/abs/1805.03988)
36 | 简评:本文提出了一种事件驱动的OF算法,称为自适应块匹配光流(ABMOF)。ABMOF使用累积DVS事件的时间片。时间片根据输入事件和OF结果自适应旋转。与诸如基于梯度的OF等其他方法相比,ABMOF可以在紧凑的逻辑电路中有效地实现。结果表明,ABMOF达到了与传统标准(如Lucas-Kanade(LK))相当的准确度。 37 | - [[1805.05809]Efficient end-to-end learning for quantizable representations](https://arxiv.org/abs/1805.05809)
38 | 简评:本文提出一个直接学习可量化嵌入表示和端到端稀疏二进制散列码的问题,它可以用来构造一个高效的哈希表,不仅在数据数量上体现了显著的搜索量减少,而且实现了TH的状态 39 | - [[1805.06150] FollowNet: Robot Navigation by Following Natural Language Directions with Deep Reinforcement Learning](https://arxiv.org/abs/1805.06150)
40 | 简评:本文讲述了一个端到端可微的神经架构,用于学习多模态导航策略。 41 | - [[1805.06361]Object detection at 200 Frames Per Second ](https://arxiv.org/abs/1805.06361)
42 | 简评:本文提出了一种高效、快速的目标探测器,可以每秒处理数百帧。为了实现这个目标,本文研究了对象检测框架的三个主要方面:网络架构、损失函数和培训数据(标记和未标记)。 43 | - [[1805.05286]AMR Parsing as Graph Prediction with Latent Alignment ](https://arxiv.org/abs/1805.05286)
44 | 简评:AMR解析具有挑战性,部分原因是图中的节点和相应句子中的单词之间缺少带注释的对齐。本文引入了一个神经解析器,它将对齐看作是概念、关系和对齐的联合概率模型中的潜在变量。 45 | 46 | 47 | ## 开源项目 48 | 49 | - [MXNet开放支持Keras,高效实现CNN与RNN的分布式训练](https://mp.weixin.qq.com/s/CgxrvNfyu35SMvWBAt-5kg)
50 | 简评:AWS 发布博客宣布 Apache MXNet 已经支持 Keras 2,开发者可以使用 Keras-MXNet 深度学习后端进行 CNN 和 RNN 的训练,安装简便,速度提升,同时支持保存 MXNet 模型。 51 | - [DLL:一个炙手可热的快速深度神经网络库](https://github.com/wichtounet/dll)
52 | 简评:DLL 是一个旨在提供由 C++实现的受限玻尔兹曼机(RBM)和深度信念网络(DBN)及其卷积版本的软件库,由瑞士 University of Applied Science of Western Switzerland、弗里堡大学的研究者共同提出。与常用的深度学习框架类似,它还支持更多标准的神经网络。目前,该工具已开发至 1.1 版本。 53 | - [A semi automatic Image Annotation Tool](https://virajmavani.github.io/saiat/)
54 | 简评:一个新的图像标注工具,它包含了一个现有的先进的艺术对象检测模型,叫做视网膜网,以显示80个通用对象类的建议,减少了用于注释图像的人工工作量。 55 | - [医学图像深度学习应用训练营资料](https://github.com/bayesianio/applied-dl-2018)
56 | 简评:深度肿瘤学12个应用深度学习实验室。 57 | - [Go AI program which implement the AlphaGo Zero paper](https://github.com/Tencent/PhoenixGo)
58 | 简评:腾讯发布的AlphaGo Zero复现围棋AI程序。 59 | - [GluonNLP — 自然语言处理的深度学习工具包](https://zhuanlan.zhihu.com/p/36708892)
60 | 简评:基于MXNet的深度学习自然语言处理包GluonNLP。 61 | 62 | ## 博文 63 | 64 | - [AutoTVM:让AI来编译优化AI系统底层算子 | 陈天奇](https://zhuanlan.zhihu.com/p/37181530)
65 | 简评:预计两周左右时间开放。 66 | - [用机器学习构建O(N)复杂度的排序算法,可在GPU和TPU上加速计算 | 机器之心](https://mp.weixin.qq.com/s/qos7VRFP7uYZ6Qt83KiPhw)
67 | 简评:排序一直是计算机科学中最为基础的算法之一,从简单的冒泡排序到高效的桶排序,我们已经开发了非常多的优秀方法。但随着机器学习的兴起与大数据的应用,简单的排序方法要求在大规模场景中有更高的稳定性与效率。中国科技大学和兰州大学等研究者提出了一种基于机器学习的排序算法,它能实现 O(N) 的时间复杂度,且可以在 GPU 和 TPU 上高效地实现并行计算。这篇论文在 Reddit 上也有所争议,我们也希望机器学习能在更多的基础算法上展现出更优秀的性能。 68 | - [ARM7、ARM9和ARM11的区别 | 嵌入式资讯精选](https://mp.weixin.qq.com/s/ouq2O5y7RXpZze8l7-Qnvg)
69 | 简评:本文从流水线到处理器的各个层面详细解读了三者之间的区别。 70 | - [读懂FPGA中的除法运算及初识AXI总线 | 嵌入式资讯精选](https://mp.weixin.qq.com/s/GRqtZG8C_aDRE7CwXRUhJA)
71 | 简评:FPGA中的硬件逻辑与软件程序的区别,相信大家在做除法运算时会有深入体会。若其中一个操作数为常数,可通过简单的移位与求和操作代替,但用硬件逻辑完成两变量间除法运算会占用较多的资源,电路结构复杂,且通常无法在一个时钟周期内完成。因此FPGA实现除法运算并不是一个“/”号可以解决的。 72 | - [Cortex-M处理器跑得了Linux吗?| ZLG致远电子]()
73 | 简评:单片机与应用处理器的核心区别到底是什么呢?是核心主频的差异?还是Linux系统的支持?又或者是处理器的架构?本文将以NXP的Cortex-M系列为例做简要介绍。 74 | - [如何评测AI系统?| StarryHeavensAbove](https://mp.weixin.qq.com/s/N-X82yjS3rBrZSO8ZNdnDw)
75 | 简评:随着MLPerf走进大家的视野,AI系统(这里指完成AI任务的软硬件系统)的Benchmark这个话题备受关注。从目前的进展来看,对于机器学习训练(Training)系统,MLPerf可以说基本解决了对比评测的问题;而对于推断(Inference)系统来说,设计Benchmark非常困难,很多问题目前还看不到答案。 76 | - [深度卷积神经网络演化历史及结构改进脉络 | 新智元](https://mp.weixin.qq.com/s/28GtBOuAZkHs7JLRVLlSyg)
77 | 简评:自2012年AlexNet网络出现之后,最近6年以来,卷积神经网络得到了急速发展,在很多问题上取得了当前最好的结果,是各种深度学习技术中用途最广泛的一种。在本文中将为大家回顾和总结卷积神经网络的整个发展过程。 78 | - [OpenCV条码/二维码识别](https://www.pyimagesearch.com/2018/05/21/an-opencv-barcode-and-qr-code-scanner-with-zbar/)
79 | 简评:本文讲述了如何用OpenCV识别条码和二维码。 80 | ---- 81 | 82 | Editor: 王建章、袁帅 83 | 84 | ---- 85 | 86 | 知识共享许可协议
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。 87 | -------------------------------------------------------------------------------- /bi-weekly-reports/2017-12-26.md: -------------------------------------------------------------------------------- 1 | --- 2 | layout: default 3 | --- 4 | 5 | # 嵌入式AI 双周简报 (2017-12-26) 6 | 7 | ## 业界新闻 8 | 9 | - [地平线余凯发布嵌入式视觉芯片中国芯“征程”与“旭日” | 新智元](https://mp.weixin.qq.com/s?timestamp=1514257509&src=3&ver=1&signature=FfXR2-8lg8yx0vXHlibMXwDuJ6AmuXxHls6MtNB*YXKqrvKPYGly1ZA4ngzVFoxnMn7hmvIChDCj3rC5oItBHkpckUkgSEiZCMoy03mY-CCQaLVXQyHxNQkKTvRuUepY1j2HMQLqD3dM8yoDyFER6sbQ1dINRVLthbAf-gILFnk=)
10 | 简评:这两款芯片,芯片性能可达到1Tops,实时处理1080P@30帧,每帧可同时对200个目标进行检测、跟踪、识别。 典型功耗做到1.5w。 11 | - [国家“千人”王中风教授:如何满足不同应用场景下深度神经网络模型算力和能效需求 | 新智元](https://mp.weixin.qq.com/s?timestamp=1514257509&src=3&ver=1&signature=FfXR2-8lg8yx0vXHlibMXwDuJ6AmuXxHls6MtNB*YXKqrvKPYGly1ZA4ngzVFoxnMn7hmvIChDCj3rC5oItBHnBdn8wMHNN3uxGyw2K0SdQ81-*CzYfftcGcKO52umn8g3YOrMJxVoLSUbXOaXDxxZR6Y9TgLwP4Bw0tSGdBxLw=)
12 | 简评:本文探讨了如何在算法层面运用量化、剪枝等方法进行模型压缩,以及设计适应于不同应用场景的高能效神经网络计算芯片/架构,从而满足深度神经网络在不同的应用场景下的算力能效需求。 13 | - [AAAI 2018商汤提出强兼容深度网络加速新方法 | 新智元](https://mp.weixin.qq.com/s?timestamp=1514257509&src=3&ver=1&signature=FfXR2-8lg8yx0vXHlibMXwDuJ6AmuXxHls6MtNB*YXKqrvKPYGly1ZA4ngzVFoxnMn7hmvIChDCj3rC5oItBHo63fQsLgo*kUaBW8XbQzMSrIQjSMd0mhUVkHHih5SOLScHYHbBx8Hnb6vjxvhH1xib97160ueAj9hVNhwVOV2A=)
14 | 简评:中山大学、哈尔滨工业大学、桂林电子大学,香港理工大学以及商汤科技公司联合研究团队提出基于类小波自编码机的深度网络加速法。该方法首先通过一个可学习的类小波自编码机(Wavelet-like Auto-Encoder, WAE),把输入图片分解成两个低分辨率的小图,再以小图替代大图输入到深度网络,从而达到加速的效果。该方法优势还在于,不需要改动原来网络的结构,故可以兼容现有的深度神经网络,有极好的普适性。 15 | - [谷歌云提出渐进式神经架构搜索:高效搜索高质量CNN结构 | 机器之心](https://mp.weixin.qq.com/s?timestamp=1514258116&src=3&ver=1&signature=FfXR2-8lg8yx0vXHlibMX-LrfuW44JWbxudqhekxZHWOXOjBwj3jAIJobOFuBbC**M3KZChNa6cSHLZ9cIu4Bq1KG5yasXZt1jt2RX2GRmzIZoIbVo8SNYiLFoLcis5WS19yTxNmnIlDf9mhb-cc4v4caSPlpgVd9T112GObN-U=)
16 | 简评:该学习 CNN 结构的方法基于序列模型的优化(SMBO)策略,其中按复杂度逐渐增大的顺序搜索架构,同时学习一个用于引导该搜索的代理函数(surrogate function),类似于 A* 搜索。 17 | - [为给定任务自动生成神经网络:MIT提出RNN架构生成新方法 | 机器之心](https://mp.weixin.qq.com/s?timestamp=1514257760&src=3&ver=1&signature=FfXR2-8lg8yx0vXHlibMX4Iq5rZwJkx6u9brWzwW58OiWij88J-VYzOF64lJBA8k-32edzoJrNPYBXMsjNrpdEJ7HhGThCRsRwktn0bqyv8HUOLWYQh*Abtb6jTNRkgjL39iWMvZhAILwC0QI48ByCk6XpQwtmEeUOW4a-jMSnA=)
18 | 简评:MIT 研究人员最近提出的 RNN 架构自动生成方法使用了灵活的 DSL 搜索和强化学习,在语言建模和机器翻译等任务上表现良好。新方法可以让我们摆脱依靠直觉的费力模型设计方式,同时也大大扩展了循环神经网络的可能性空间。 19 | 20 | 21 | 22 | 23 | ## 开源项目 24 | 25 | - [burningion/poor-mans-deep-learning-camera: Build a thin client deep learning camera with the Raspberry Pi, Flask, and YOLO](https://github.com/burningion/poor-mans-deep-learning-camera) 26 | [[blog](https://www.makeartwithpython.com/blog/poor-mans-deep-learning-camera/)]
27 | 简评:用树莓派、Flask,基于YOLO模型构建自己的深度学习相机,实现分类和检测。 28 | - [twitter/vireo: Vireo is a lightweight and versatile video processing library written in C++11](https://github.com//twitter/vireo)
29 | 简评:vireo是一个用c++11写的、轻量且通用的视频处理库。 30 | - [cgtuebingen/tensorpack-recipes: A collection of TensorPack implementations of recent deep learning approaches including pretrained models.](https://github.com//cgtuebingen/tensorpack-recipes)
31 | 简评:一组TensorPack的深度学习模型实现和pretrained模型。Tensorpack是基于TensorFlow,主要用于训练的高级APIs。 32 | - [okdshin/instant: DNN Inference with CPU, C++, ONNX support: Instant](https://github.com//okdshin/instant)
33 | 简评:CPU上C++语言实现、基于MKL-DNN的深度学习推理框架,支持ONNX模型。 34 | - [BoyuanJiang/Age-Gender-Estimate-TF: Face age and gender estimate using TensorFlow](https://github.com//BoyuanJiang/Age-Gender-Estimate-TF)
35 | 简评:基于TensorFlow实现的年龄性别预测模型。 36 | 37 | 38 | ## 论文 39 | 40 | - [1712.05134] [Learning Compact Recurrent Neural Networks with Block-Term Tensor Decomposition](https://arxiv.org/abs/1712.05134)
41 | 简评:RNN在解决序列建模,尤其是高维度的输入数据对应的很大模型,会有超大的参数量和训练时间,为解决该问题,作者提出更紧凑的结构:Block-Term tensor decomposition,该结构可降低模型参数的同时提升训练效率。相比tensor-train RNN(TT-RNN)和low-rank approximations,作者的方法在参数量更少的同时准确性更好。在视频动作识别、图像描述、图像生成三个任务中,作者的BT-RNN在准确率和收敛速度上都比TT-RNN、RNN有优势。在动作识别任务的UCF11数据集上,BT-LSTM的参数量仅为LSTM的1/17388,性能却高了15.6%。 42 | - [1712.04910] [FFT-Based Deep Learning Deployment in Embedded Systems](https://arxiv.org/abs/1712.04910)
43 | 简评:作者提出基于FFT训练和推理的DNN模型,尤其适用于对于存储和计算能力有限的嵌入式平台, 44 | - [1707.07012] [Learning Transferable Architectures for Scalable Image Recognition](https://arxiv.org/abs/1707.07012) [[code](https://github.com//titu1994/Keras-NASNet)]
45 | 简评:为解决架构工程问题,作者提出一种基于数据集自动搜寻模型block的方法。作者用该方法基于CIFAR10数据集搜寻最佳block,之后将该block堆叠出的模型应用到ImageNet上。尽管没有直接在ImangeNet上进行最佳的block搜寻,但在ImageNet上top1和top5准确率分别达到82.7%和96.2%。相比最佳的人类设计的模型,该方法的top1准确率要领先1.2%的同时参数量减少28%。在检测任务的COCO数据集上,基于该方法搭建的网络在特征学习上要超过同样模型架构Faster-RCNN,性能高于4.0%达到43.1%的mAP。 46 | - [1712.03351] [Peephole: Predicting Network Performance Before Training](https://arxiv.org/abs/1712.03351)
47 | 简评:同样是解决模型设计的问题。作者提出在基于网络的架构,在训练前就预测网络性能的方法。作者将不同的层编码成向量并交给LSTM,利用RNN的表达优势可以预测各种不同网络架构的性能。作者实验证明,该方法预测出的模型性能和实验的结果一致。 48 | - [1611.05162] [Net-Trim: Convex Pruning of Deep Neural Networks with Performance Guarantee](https://arxiv.org/abs/1611.05162) 49 | [[code](https://github.com/DNNToolBox/Net-Trim-v1)] [[blog](https://www.ibm.com/blogs/research/2017/12/pruning-ai-networks/)]
50 | 简评:作者提出一种用于模型剪枝的新方案——Net-Trim算法,该方法会对一个训练过的模型,将逐层地移除某些连接视为一个解决凸优化问题的过程。该过程会找保证该层输入和输出一致下的稀疏权重,此外作者提出基于该方法的并行和串行版本。两个版本后者得到的模型更轻量,但前者可以在分布式环境下使用。此外作者也给出了对剪枝前后模型的数学分析。 51 | 52 | 53 | ## 博文 54 | 55 | - [Deep Learning Hardware Limbo | Tim Dettmers](http://timdettmers.com/2017/12/21/deep-learning-hardware-limbo/)
56 | 简评:该文讲述了Intel、NVIDIA、AMD在过去以及未来几个月的深度学习硬件过渡期,重点分析了这三家在价格、生态上的特点和应对策略。 57 | - [2017: What a Wonderful Year for AI | Intel Nervana](https://www.intelnervana.com/intel-ai-2017/)
58 | 简评:英特尔AI团队对2017年在人工智能软件、硬件上的总结。 59 | - [Deep Learning: Practice and Trends | Google 幻灯片](https://docs.google.com/presentation/d/e/2PACX-1vQMZsWfjjLLz_wi8iaMxHKawuTkdqeA3Gw00wy5dBHLhAkuLEvhB7k-4LcO5RQEVFzZXfS6ByABaRr4/pub?start=false&loop=false&delayms=60000&slide=id.g2a19ddb012_0_75) [[video](https://www.bilibili.com/video/av17078412/)]
60 | 简评:NIPS2017关于深度学习实践与趋势幻灯片和视频。 61 | - [Apps That Hint at a Fanciful Fake Future | MIT Technology Review](https://www.technologyreview.com/s/609235/apps-that-hint-at-a-fanciful-fake-future/)
62 | 简评:针对移动端AR/VR应用案例的小总结。 63 | - [A Startup Uses Quantum Computing to Boost Machine Learning | MIT Technology Review](https://www.technologyreview.com/s/609804/a-startup-uses-quantum-computing-to-boost-machine-learning/)
64 | 简评:初创公司Rigetti用量子计算加速机器学习聚类。 65 | - [Keras and deep learning on the Raspberry Pi | PyImageSearch](https://www.pyimagesearch.com/2017/12/18/keras-deep-learning-raspberry-pi/)
66 | 简评:在树莓派上使用Keras识别圣诞老人。 67 | - [Fast INT8 Inference for Autonomous Vehicles with TensorRT 3 | Parallel Forall](https://devblogs.nvidia.com/parallelforall/int8-inference-autonomous-vehicles-tensorrt/)
68 | 简评:用TensorRT3实现自动驾驶的快速INT8类型推理。 69 | - [New App Turns Your Selfie Into a Personalized Emoji | NVIDIA Developer News Center](https://news.developer.nvidia.com/new-app-turns-your-selfie-into-a-personalized-emoji/) 70 | [[app](https://www.mirror-ai.com/)]
71 | 简评:国外的一家公司做了一个可以实现自拍变动画角色的APP。 72 | 73 | 74 | 75 | 76 | ---- 77 | 78 | Editor: 张先轶、袁帅 79 | 80 | ---- 81 | 82 | 知识共享许可协议
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。 83 | -------------------------------------------------------------------------------- /bi-weekly-reports/2017-09-19.md: -------------------------------------------------------------------------------- 1 | --- 2 | layout: default 3 | --- 4 | 5 | # 嵌入式AI 双周简报 (2017-09-19) 6 | 7 | ## 业界新闻 8 | 9 | - [苹果A11芯片深度解析:CPU+GPU+AI火力全开 | Techweb](http://mo.techweb.com.cn/smarthardware/2017-09-15/2585053.shtml)
10 | 简评:苹果A11仿生芯片内部的CPU、GPU、性能控制器、神经网络单元、ISP等这些都是苹果自己设计。那么,关于苹果这枚“智能过人”的 A11 芯片,其亮点有哪些?对未来的重要影响又在哪里呢? 11 | - [详解苹果Face ID,将让深度摄像头成主流 | 雷锋网](http://weibo.com/ttarticle/p/show?id=2309351000224151799551546525)
12 | 简评:都在说苹果iPhone X的刘海设计丑到爆,但就在这一小块区域集成了多达八个组件,Touch ID的消失,迎来的新的身份认证方式:Face ID。 13 | - [英特尔推出Myriad™ X芯片:将人工智能引入边缘计算 | 机器之心](http://baijiahao.baidu.com/s?id=1578387767070547943&wfr=spider&for=pc)
14 | 简评:英特尔收购了人工智能和计算机视觉芯片制造商 Movidius 这家初创公司(大华,大疆也都在用他家芯片)距今已有近一年的时间,收购完成后,该公司已经将其Myriad2处理器塞进了无人机、相机和u盘。今天,推出的 Myriad™ X 是全球第一个配备专用神经网络计算引擎的片上系统芯片,能够以惊人的低功耗和高性能将人工智能引入边缘计算。 15 | - [百度云智峰会发布XPU和ABC一体机,深度对话张亚勤尹世明 | 新智元](https://baijia.baidu.com/s?id=1578584378318698476&wfr=pc&fr=app_lst)
16 | 简评:“ABC 三位一体”成为本次峰会的关键词。百度云认为云计算正在从量变走向质变,ABC(AI、BigData、Cloud Computing)融合成为行业主流。会上百度云做了如下发布:XPU(云计算加速芯片);ABC 一体机、ABC-STACK(技术栈)、FPGA/GPU云服务器等代表ABC技术融合的新产品和服务框架。同时,百度云正式推出了“ABCInspire”技术标识。 17 | - [AI芯片争夺战:谷歌TPU率队,颠覆3350亿美元的半导体行业 | 新智元](https://mp.weixin.qq.com/s?timestamp=1505788027&src=3&ver=1&signature=4Fthk6ObFRJ8frRE-L4vtNq0y8cF8kBcAqe5i3PVCgRUS1*F6BobbwKRTqZDqLjZMjKRwmabc4uhKJ1A4RrvDu8Til*qFS5XVEKbkpU8crQ7HCJQQmNJBcwV1uJRvLURHBKTsQieA82sm6R-dPKQm0YUTd*kVuLIXj0AAPEdiiY=)
18 | 简评:人工智能系统的加速正在从根本上重塑着每年创造了3350亿美元的半导体行业。计算机开始认识一切,从花草到人脸,从文本到声音,以及学会开车。统治了计算机行业近半个世纪的摩尔定律正在受到挑战,计算性能的提升不再依赖于晶体管数量的增长,还有专用负载芯片产业的蓬勃。英特尔面临着英伟达、微软、苹果、谷歌等巨头以及CEVA、Eyeriss、寒武纪、华为等 AI 芯片新玩家不同方向的围攻。 19 | 20 | ## 论文 21 | 22 | - [1709.02043] [The Mating Rituals of Deep Neural Networks: Learning Compact Feature Representations through Sexual Evolutionary Synthesis](https://arxiv.org/abs/1709.02043)
23 | 简评:进化深度智能是近来提出的一种继承多代从而获取更高效模型架构的一种方法。受自然界启发,作者提出一种进化综合的合成策略,不是网络间的无性合成,而是通过结合两个双亲网络,合成更多样、概括性地子孙网络,从而产生更加紧凑的特征表达。 24 | - [1709.01041] [Domain-adaptive deep network compression](https://arxiv.org/abs/1709.01041)
25 | 简评:在大数据集上训练,小数据数据集上fine-tuning是有好处的。然而,fine-tuning后的模型对新领域的小数据集而言,这个模型太大了!作者的工作就是压缩迁移学习后的大模型。作者关注基于低秩矩阵分解的压缩算法。现有的方法大都关注网络权重,忽略了网络激活值的统计特性。作者发现迁移学习后,网络激活值有大的漂移,压缩时有必要将其作为一项考量,将权重压缩视为一个秩约束回归问题(解析解)来压缩权重。作者提出的方法(Domain Adaptive Low Rank)将目标数据集领域纳入考虑,可以更优地移除权重中的冗余。VGG19的fc6层相比单纯使用截断SVD达到超过4倍的压缩,在忽略不计的准确率损失下,整体参数达到5~20%的压缩。 26 | - [1709.01427] [Stochastic Gradient Descent: Going As Fast As Possible But Not Faster](https://arxiv.org/abs/1709.01427)
27 | 简评:本文关注学习率的调整对网络训练的加速。传统使用随机梯度下降都会有梯度平稳下降的阶段,但该过程可能会被梯度爆炸打断。一种解决方案是逐渐减缓学习率。作者基于两个统计测试来控制SGD学习率,第一个旨在快速学习的方法将归一化梯度向量的动量与随机单位向量的动量进行比较,从而适度地增加或减少学习率;第二个是改变点检测测试,旨在检测灾难性学习情况,触发则将学习率即刻减半。加速和减慢学习速度的两个能力使得所提出的方法(称为SALeRA)尽可能快地学习,但不会更快。 28 | - [1709.02755] [Training RNNs as Fast as CNNs](https://arxiv.org/abs/1709.02755)
29 | 简评:由于RNN的复杂特性导致其难以并行化。例如,h_(t)的前向计算依赖h_(t-1)前的所有计算,这是并行化该问题的主要瓶颈。作者提出了一种替代RNN的实现,故意简化状态计算并展现更多的并行性。提出的复现单元的运行速度与卷积层一样快,比cuDNN优化的LSTM快5-10倍。作者展示了该方法在包括分类,问答,语言建模,翻译和语音识别应用中的有效性,此外给出PyTorch和CNTK的开源实现! 30 | - [1709.02260] [Embedded Binarized Neural Networks](https://arxiv.org/abs/1709.02260) [[code]](https://gitlab.com/htkung/ddnn)
31 | 简评:嵌入式设备上的内存资源很有限,作者研究在嵌入式设备上二值化神经网络(BNN)推理过程中的内存占用最小化,除了存储网络权重外,还需要存储网络在前向计算过程中的结果,作者在保留原始BNN结构的同时,对推理计算重新排序,对整个网络只实用一个临时的单精度浮点数。所有来自一层的中间结果都保存为二值形式,所需内存占用相比使用浮点仅为其32分之1,在有限内存(10sKB)的设备上推理低于50ms。代码开源! 32 | - [1709.01921] [Distributed Deep Neural Networks over the Cloud, the Edge and End Devices](https://arxiv.org/abs/1709.01921)
33 | 简评:作者在分布式计算层次上提出分布式深层神经网络(DDNN),结合云,边缘终端设备的计算。在云中进行网络推理的同时,DDNN还允许使用边缘终端设备对神经网络较浅的部分进行快速局部推理。当由可扩展的分布式计算层次结构支持时,DDNN可以在神经网络的规模和范围上进行扩展。由于其分布式特性,DDNN也具有传感器融合,系统容错和数据隐私的特效。在实现DDNN时,将DNN的部分映射到分布式计算层次结构。通过联合训练这些部分,减少设备通信和资源使用。最终系统具有内置的自动传感器融合和容错支持,利用传感器的地理多样性来提高对象识别精度并降低通信成本。实验中,与传统的云端处理传感器原始数据的方法相比,DDNN在本地终端上处理大多数传感器数据的同时实现高精度,并能将通信成本降低20倍以上。 34 | - [1609.09671] [Caffeinated FPGAs: FPGA Framework For Convolutional Neural Networks](https://arxiv.org/abs/1609.09671)
35 | 简评:不少框架都支持CPU和GPU但不支持FPGA,这项工作中作者将Caffe修改为支持FPGA的版本,可利用CNN模型在FPGA上实现图像分类,基于FPGA的特性必要时也可以对其重新编程,此外还有主机与设备之间无缝的内存事务(memory transactions)、易用的测试例子、创建流水线层的能力。验证过程中,作者在Xilinx SDAccel上实现了一个FPGA版本的Winograd卷积,FPGA层可以与主机处理器的其它层一起运行,并成功运行了AlexNet、GoogleNet、VGG等网络。在3x3卷积的基准性能可以达到50GFLOPS。 36 | - [1709.04060] [Streamlined Deployment for Quantized Neural Networks](https://arxiv.org/abs/1709.04060)
37 | 简评:作者提出使用量化神经网络(QNN)满足内存和速度需求。但大多数指令集架构(ISA)不支持对高度量化的数据类型进行操作,作者将该过程简化,并将所有QNN推理操作转化为整数。之后,作者提供基于一次处理一位位置(位序列)的技术,以显示如何使用常规的按位操作来部署QNN。在移动端CPU上跑量化过后的AlexNet比的8位优化的基准快3.5倍。 38 | - [1709.04731] [Binary-decomposed DCNN for accelerating computation and compressing model without retraining](https://arxiv.org/abs/1709.04731)
39 | 简评:深度卷积神经网络(DCNN)推理需要大量的内存来保存模型参数和中间计算结果,所以为了要让网络能泡在移动端设备上,必须压缩模型内存占用和加速计算。作者提出二进制分解DCNN(Binary-decomposed DCNN),而且无需对网络进行重新训练。二进制计算可使用XOR、AND等逻辑运算符快速实现。在AlexNet跑ImageNet分类中,速度提高1.79倍,模型压缩达80%,准确率降低1.20%。而使用VGG-16,速度提高2.07倍,模型压缩达81%,误差增加2.16%。 40 | 41 | 42 | ## 开源项目 43 | 44 | - [dlib C++ Library Release notes | dlib.net](http://dlib.net/release_notes.html) [[demo]](https://www.youtube.com/watch?v=OHbJ7HhbG74)
45 | 简评:新版dlib发布:深度学习多类别检测器,帧数可达到98fps,又增加相比68点人脸检测模型小10倍的5点人脸模型,速度更快等。 46 | - [Introduction to the Numba library | kratzert](https://kratzert.github.io/2017/09/12/introduction-to-the-numba-library.html) [[译文]](https://yq.aliyun.com/articles/210393)
47 | 简评:在计算能力为王的时代,具有高性能计算的库正在被广泛大家应用于处理大数据。例如:Numpy,本文介绍了一个新的Python库——Numba, 在计算性能方面,它比Numpy表现的更好。 48 | - [europilot: A toolkit for controlling Euro Truck Simulator 2 with python to develop self-driving algorithms.](https://github.com/marshq/europilot)
49 | 简评:Euro Truck Simulator 2自驾模拟开发环境工具集。 50 | 51 | 52 | ## 博文 53 | - [内存带宽与计算能力,谁才是决定深度学习执行性能的关键? | 机器之心](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650730755&idx=2&sn=0cba3d3b77459e033cf06c29f4c699ae&chksm=871b357db06cbc6bc93fc30f0026309611cb49cd7fa62d1b312d7ebfafafef281cd1d5d99cbb#rd)
54 | 简评:随着深度学习的不断发展,计算能力得到了深度学习社区越来越多的注意。任何深度学习模型,归根到底都是需要跑在设备上的,而模型对设备性能的要求越低,则能得到越多的运用——千万不能让硬件成为模型普及的瓶颈! 55 | - [DIY Prisma app with CoreML | Prisma Labs Blog](https://blog.prismalabs.ai/diy-prisma-app-with-coreml-6b4994cc99e1)
56 | 简评:WWDC2017带给我们苹果对机器学习的实际应用,CoreML框架也使得在iOS设备上部署机器模型变得更容易。在Prisma实验室,我们热爱AI,尤其是移动端AI,我们在一年前曾实现的神经网络推理框架所采用的方法,与苹果发布的非常类似。本文将会使用开源模型和CoreML框架实现一个风格化迁移APP。 57 | - [NVIDIA Researchers Release Trailblazing Deep Learning-Based Framework for Autonomous Drone Navigation | NVIDIA Developer News Center](https://news.developer.nvidia.com/nvidia-researchers-release-trailblazing-deep-learning-based-framework-for-autonomous-drone-navigation/)
58 | 简评:NVIDIA的自主移动机器人团队今天发布了一个框架使开发人员能够创建自主无人机,可以在复杂环境、没有GPS地图以及具体标识的地方导航。基于NVIDIA Jetson TX1/TX2嵌入式AI超级计算机,借助深度学习和计算机视觉实现。 59 | - [解读加实战:爆款论文 SRU 在对话生成上的效果 | 程序媛的日常](https://mp.weixin.qq.com/s/i-EWyn208OQRBvZz2aIu5g)
60 | 简评:最近有一篇爆款论文席卷了国内外社交网络,提出了可以用 CNN 的训练时间来训练“RNN”的循环神经网络结构。这篇论文就是《Training RNNs as Fast as CNNs》 by Lei Tao, Yu Zhang (ASAPP & MIT). 在读论文的同时,我们组的 JC 同学直接上手实战了一下论文作者提供的代码,并初步在对话生成的任务上得到了一定的实验结果。今天小 S 就和 JC 同学一起分享一下我们对这篇论文的解读和实战结果。 61 | 62 | ---- 63 | 64 | Editor: 张先轶、袁帅 65 | 66 | ---- 67 | 68 | 知识共享许可协议
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。 69 | -------------------------------------------------------------------------------- /bi-weekly-reports/2017-11-14.md: -------------------------------------------------------------------------------- 1 | --- 2 | layout: default 3 | --- 4 | 5 | # 嵌入式AI 双周简报 (2017-11-14) 6 | 7 | ## 业界新闻 8 | 9 | - [寒武纪3款AI处理器齐发,陈天石3年小目标:占领10亿智能AI终端;占领中国AI云端高性能芯片1/3 | 新智元](https://mp.weixin.qq.com/s?timestamp=1510651761&src=3&ver=1&signature=VVbCCFGdhnib9UHziJcEvXH1oU9L2jQ4SJQBcYVKilDmi*NbqEut3Xuk*1Dh5sKzSsbzNP0zTtqjq70w0ory-GQ83TjfaC03Fdw7ajfYhra6Gi1DXImuzfjnpIpxoVcT-FnAHklFtEMUIdy-y5GAVThf3*vsT6-g6PoleTGBm2o=)
10 | 简评:AI芯片独角兽寒武纪成立以来首次发布会召开,联合创始人兼CEO陈天石发布了系列新品及公司未来路线图——“3年内占领10亿智能AI终端,占领中国云端高性能芯片1/3市场份额”。至于如何与英伟达竞争,陈天石告诉新智元:“提供性能功耗比更好的芯片。这个市场很大,其实未见得是零和博弈。”。 11 | - [两项业界最佳的普林斯顿新算法自动生成高性能神经网络,同时有超高效压缩 | 新智元](https://mp.weixin.qq.com/s?timestamp=1510651739&src=3&ver=1&signature=VVbCCFGdhnib9UHziJcEvRoYvJGiaDTMYilDhkqlT5k7DFJ0k9W8DKmYYk5SvqA0it7XFeHsKlXJ3f0xAdQuXFNEqeYw8DJ7yuPiLFk6IYKLquvpL16a80ms*L27lptGJTyHaAPWcL4-rEg2svxkSZO*w6YCQZ*-TpCQbMv0thE=)
12 | 简评:普林斯顿大学研究人员提出了一种会在训练过程中连接、生长、移除神经元的神经网络。这种神经网络使用梯度和神经元强弱来生长(grow)和修剪(prune),从而实现权重和结构的同时训练。此算法可同时实现神经网络结构的自动选择和超高效压缩。所取得的压缩率,所获得的神经网络模型均为当前业内最好纪录。 13 | - [阅面科技发布堪比服务器的终端视觉模块,将云端计算能力搬至终端 | 机器之心](https://mp.weixin.qq.com/s?timestamp=1510652144&src=3&ver=1&signature=VVbCCFGdhnib9UHziJcEvRPXlaG0XB7H9TSQbqZDna31FbbWi1rNDSafBnfMt85qqFTkmaq8WoKW6OKzfaFFiW7MrslH9BdQsj*3PKJ1gKBAdpqSfnuhSyXW7Iwxri1sx1ZJ52LVmDyBLeqyHA8zx03bDc1Z4bCV7LoL52T6KgA=)
14 | 简评:11 月 1 日,阅面科技在深圳举办了创立两年来的首次新品发布会,共发布了三款产品:跨模态人脸识别引擎 UniFace、基于 Uniface 的「繁星」AI 芯片视觉模块、以及基于「繁星」的智能客群分析摄像机——「阅客」。 15 | - [如何看待博通拟以 1300 亿美元收购高通? | 知乎](https://www.zhihu.com/question/67615840/answer/255421766)
16 | 简评:最后高通董事会一致拒绝了博通提出的收购提议,并称该提议不符合股东最佳利益,且严重低估了高通的价值。有消息称,博通或在考虑继续提高对高通报价的可能性,包括通过增加债券融资等手段,但目前尚不清楚博通将会在何时跟进。 17 | 18 | 19 | ## 论文 20 | 21 | - [A Berkeley View of Systems Challenges for AI](https://www2.eecs.berkeley.edu/Pubs/TechRpts/2017/EECS-2017-159.pdf)
22 | 简评:这个survey主要介绍了下一代的人工智能系统(包含系统、架构、安全性等),整体较短。主要关注点在未知环境中做出安全可信的决策,个性化智能以及在日益增长的数据这一挑战下的应对方法。相信可以给在做嵌入式人工智能的同学们一些启发。 23 | - [1711.01243] [ResBinNet: Residual Binary Neural Network](https://arxiv.org/abs/1711.01243)
24 | 简评:近来二值网络提供了内存和执行效率上的优势。本文提出的ResBinNet通过将residual binarization和temperature adjustment的策略结合,前者是可以在一层上学到多级别的binary特征表达,后者可以逐渐对特定层的权重进行binarize。两种策略结合得到一系列的soft-binarized参数,提高原始binary net的收敛率和精度。而且该方法可以在infer时间和准确率之间权衡。 25 | - [1711.02613] [Moonshine: Distilling with Cheap Convolutions](https://arxiv.org/abs/1711.02613)
26 | 简评:大家知道distillation策略通过小的student net来学习teacher net,小网络相比teacher网络结构和层数等更精简,方便部署在资源有限设备上。本文在原本student-teacher的基础上将,通过attention tansfer的策略让student网络相比直接在原始数据上训练有了更好的性能。 27 | - [1711.03386] [Performance Evaluation of Deep Learning Tools in Docker Containers](https://arxiv.org/abs/1711.03386)
28 | 简评:Docker的使用已经非常广泛,甚至有一些小伙伴在嵌入式上部署Docker来简化部署环境。先不考虑内存占用量,单就在实际使用中在磁盘IO、CPU和GPU上的性能损失又是怎么样的呢?本文将对这些角度进行深入的分析。 29 | - [1711.03016] [DLVM: A modern compiler infrastructure for deep learning systems](https://arxiv.org/abs/1711.03016)
30 | 简评:作者借鉴LLVM的思想提出DLVM,认为现在深度学习环境性能和可靠性不能兼顾。已有的深度学习框架在算法描述上使用Python不安全的DSL。DLVM作为一个基础组件,可以自动生成GPU代码,并作domain-specific的优化。相比已有的深度学习编译器IRs来说,DLVM更具有模块化和通用性。 31 | - [1711.02213] [Flexpoint: An Adaptive Numerical Format for Efficient Training of Deep Neural Networks](https://arxiv.org/abs/1711.02213)
32 | 简评:尽管32-bit的float类型是当前最为常用的数据类型,但现在也有不少人在较低的bit上尝试训练网络也发现在可接受的精度损失下,速度有提升。作者提出一种Flexpoint数据格式,在不需要做任何修改下,就可以替代原本inference中的32bit float。作者在AlexNet、ResNet还有生成对抗网络上做了实验,在没有做超参数调优下,性能接近32-bit浮点的性能。认为Flexpoint是一种很有潜力作为硬件设备inference的专用数据格式。 33 | 34 | 35 | ## 开源项目 36 | 37 | - [DPED Project](http://people.ee.ethz.ch/~ihnatova/)
38 | 简评:基于深度卷积网络的图片自动美化(DSLR)。 39 | - [KarenUllrich/Tutorial_BayesianCompressionForDL: A tutorial on "Bayesian Compression for Deep Learning" published at NIPS (2017).](https://github.com//KarenUllrich/Tutorial_BayesianCompressionForDL) [[paper](https://arxiv.org/abs/1705.08665)]
40 | 简评:采用贝叶斯神经网络压缩的方法。结合最小描述长度原则和变分推断的思想,能够达到700倍的模型体积压缩和50倍的网络加速。 41 | - [emedvedev/attention-ocr: A Tensorflow model for text recognition (CNN + seq2seq with visual attention) available as a Python package and compatible with Google Cloud ML Engine.](https://github.com//emedvedev/attention-ocr)
42 | 简评:用于文本识别的Tensorflow的CNN+seq2seq模型。 43 | - [zeusees/HyperLPR: 基于深度学习高性能中文车牌识别 High Performance Chinese License Plate Recognition Framework.](https://github.com//zeusees/HyperLPR)
44 | 简评:基于深度学习高性能中文车牌识别。 45 | - [zhixuhao/unet: unet for image segmentation](https://github.com/zhixuhao/unet)
46 | 简评:(Keras)Unet图像分割。 47 | - [a-jahani/Real-time-Video-Mosaic: An implemetation of automatic panorama using opencv in C++](https://github.com//a-jahani/Real-time-Video-Mosaic) [[paper](http://ieeexplore.ieee.org/document/7886813/)] [[video](https://weibo.com/tv/v/FuGU2rksQ?fid=1034:51c7bf9fcfeb6d58f4ec80ebb9075712)]
48 | 简评:(C++/OpenCV)实时视频全景拼接。 49 | - [experiencor/basic-yolo-keras: Implementation of YOLO version 2 in Keras](https://github.com//experiencor/basic-yolo-keras) [[blog](https://experiencor.github.io/yolo_keras.html)]
50 | 简评:用Keras实现YOLOv2。 51 | - [Carla – Open source simulator for autonomous driving](http://carla.org/) [[code](https://github.com/carla-simulator/carla)] [[video](https://weibo.com/tv/v/FuUhUEL31?fid=1034:9fd5399bbb60e1a7e6ed6e7537bbfb55)]
52 | 简评:CARLA:开源自驾车模拟环境。 53 | - [Neural Network Designer](https://itunes.apple.com/cn/app/id1294441403) [[blog](https://www.objectsandsuch.com/neural-network-designer)]
54 | 简评:Neural Network Designer是mac上用来可视化编辑设计基于人工神经元网络的工具,可用于测试各种网络的设计和执行。 55 | 56 | 57 | 58 | ## 博文 59 | 60 | - [深鉴科技姚颂:深度学习处理架构的演进 | 雷锋网](https://www.leiphone.com/news/201710/9EFp9GekEnMcMHyg.html)
61 | 简评:深度学习、体系结构、数据规模的共同发展促进了人工智能行业的繁荣。在通用架构之外,深度学习处理架构已经经历了三代的发展,从计算优化、存储优化,到结合Deep Compression的稀疏化处理架构。深鉴科技姚颂为大家讲解深度学习处理架构的演进过程,以及几个核心问题是如何逐渐解决的。 62 | - [Copista: Training models for TensorFlow Mobile | Medium](https://medium.com/@tinyline/copista-training-models-for-tensorflow-mobile-2cf4cb1674e4)
63 | 简评:Copista:TensorFlow手机端(画风迁移)模型训练。 64 | - [TensorFlow下构建高性能神经网络模型的最佳实践 | 人工智能头条](https://mp.weixin.qq.com/s/9iBjwM3EYleMUlAzkKlVJg)
65 | 简评:文中简述了常见的网络压缩原理,并用TensorFlow的模型压缩工具量化网络对结果进行了简单的分析。 66 | - [Seamless Google Street View Panoramas | Google Blog](https://research.googleblog.com/2017/11/seamless-google-street-view-panoramas.html) [[video](https://weibo.com/tv/v/FunJ3rPCv?fid=1034:b094772598613db5b1e40cbc4f3bbfe9)]
67 | 简评:Google基于光流新算法实现街景全景无缝拼接。 68 | - [从公司商用层面,未来哪些SLAM方案能成为趋势?以及难点突破点是什么? | 知乎](https://www.zhihu.com/question/53232703)
69 | 简评:根据场景不同,SLAM的方案从传感器到算法千差万别。一定要根据某一应用场景的核心诉求来考虑方案。 70 | - [MobileNet在手机端上的速度评测:iPhone 8 Plus竟不如iPhone 7 Plus | 机器之心](https://mp.weixin.qq.com/s/mcK8M6pnHiZZRAkYVdaYGQ) [[英文原文](https://medium.com/vitalify-asia/real-time-deep-learning-in-mobile-application-25cf601a8976)]
71 | 简评:今年4 月谷歌发布 MobileNets:一个可在计算资源有限的环境中使用的轻量级神经网络。6 月苹果推出 Core ML,允许机器学习模型在移动设备上运行。配备高端GPU的iphone比Mac Book Pro上跑得还要快。本文将介绍实际应用情况和效率。 72 | - [芯片巨头三国杀:AI加剧芯片厂商间竞赛,英特尔、英伟达、AMD竞相发力 | 新智元](https://mp.weixin.qq.com/s/nAHJENflvt_o1-LAyDicFw) [[英文原文](https://www.wsj.com/articles/artificial-intelligence-is-fueling-an-arms-race-among-chip-makers-1510228801)]
73 | 简评:AI加剧芯片厂商间竞赛,竞争达到白热化。AI 软硬件市场每年的增长率达50%,英伟达、英特尔和AMD都在这一方向上发力角逐。投资者亦看好这一领域。 74 | 75 | 76 | 77 | ---- 78 | 79 | Editor: 张先轶、袁帅 80 | 81 | ---- 82 | 83 | 知识共享许可协议
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。 84 | -------------------------------------------------------------------------------- /bi-weekly-reports/2017-10-17.md: -------------------------------------------------------------------------------- 1 | --- 2 | layout: default 3 | --- 4 | 5 | # 嵌入式AI 双周简报 (2017-10-17) 6 | 7 | ## 业界新闻 8 | - [2017全国高性能学术年会 | 中国计算机学会](http://hpcchina2017.csp.escience.cn/dct/page/1)
9 | 简评:HPC CHINA 2017 开幕在即,欢迎来澎峰科技的展台来玩,也欢迎来参加10月21日(第三天)上午的深度学习分论坛! 10 | - [Intel Gears Up For FPGA Push | Timothy Prickett Morgan](https://www.nextplatform.com/2017/10/02/intel-gears-fpga-push/)
11 | 简评:看英特尔如何发力 FPGA。从应用最广泛的 Xeon 系列到支持大多数数据中心的 Knights 系列以及转为深度学习推理加速的STRATIX FPGA系列,再到支持训练和推断的 Crest 家族系列。 12 | - [华为Mate10 AI技术全盘点:专访华为软件工程部副总裁张宝峰 | 新智元](https://mp.weixin.qq.com/s?timestamp=1508207164&src=3&ver=1&signature=LD5Gs4d3SbEX9*Uh66q0yJL9-tR0nxFEOVOuHZQ170t9jdtwgVNSValwLHh6YOnY7mkcLyWYUA2jruym*YEfVswPVPkTAZtgUZYV8WvpXWEdDGYg0OgC20RWFqhX52p33JxNfiW02GEruDZn7DTY30NFFW6bNV3qt45E77Cxqz8=)
13 | 简评:余承东在慕尼黑发布了携带华为首款人工智能手机芯片——麒麟970的 HUAWEI Mate 10 系列。余承东认为:比 Mate 10 系列比 iPhone X 的人脸解锁更好,得益于 HiAI 移动计算架构,其 NPU(Neural Network Processing Unit)专用硬件处理单元赋能的摄像头能够智能识别多达13种场景和物体,从而根据对象的特点和属性自动调节参数设置,用更聪明的算法进行拍摄。此外,在电量、屏占比、厚度等方面全面对标 iPhone X。 14 | - [共筑开放AI生态:ONNX模型标准得到华为、英特尔等更多厂商支持](https://mp.weixin.qq.com/s/kBDJ3lEj-JQDpNzvw6aV1Q)
15 | 简评:前不久继Facebook、微软联合推出 ONNX 标准,号称要解决开发框架碎片化后,更多厂商愿意支持。早前,Microsoft Cognitive Toolkit、PyTorch 和 Caffe2 均已宣布支持 ONNX。而就在今天,AMD、ARM、华为、IBM、英特尔、高通同时宣布支持 ONNX。 16 | - [NNVM Compiler: Open Compiler for AI Frameworks | tvmlang](http://www.tvmlang.org/2017/10/06/nnvm-compiler-announcement.html) [[blog](https://mp.weixin.qq.com/s/qkvX0rmEe0yQ-BhCmWAXSQ)]
17 | 简评:陈天奇:我们今天发布了基于TVM工具链的深度学习编译器 NNVM compiler。支持将包括mxnet,pytorch,caffe2, coreml等在内的深度学习模型编译部署到硬件上并提供多级别联合优化。速度更快,部署更加轻量级。 支持包括树莓派,服务器和各种移动式设备和 cuda, opencl, metal, javascript以及其它各种后端。欢迎对于深度学习,编译原理,高性能计算,硬件加速有兴趣的同学一起加入dmlc推动领导开源项目社区。 18 | 19 | ## 论文 20 | 21 | - [Efficient Methods and Hardware for Deep Learning | Stanford Digital Repository](https://purl.stanford.edu/qf934gh3708) [[paper](https://stacks.stanford.edu/file/druid:qf934gh3708/EFFICIENT%20METHODS%20AND%20HARDWARE%20FOR%20DEEP%20LEARNING-augmented.pdf)]
22 | 简评:Song Han的博士论文,不久前他获得斯坦福大学博士学位,一直致力于energy-efficient deep learning、机器学习和计算机架构的交叉领域,他曾提出的 Deep Compression 在不损失预测精度的前提下大幅压缩模型。同时参与设计了 EIE 项目(Efficient Inference Engine:a hardware architecture that can perform inference directly on the compressed sparse model, which saves memory bandwidth and results in significant speedup and energy saving)。 23 | - [1710.02224] [Dilated Recurrent Neural Networks](https://arxiv.org/abs/1710.02224)
24 | 简评:众所周知,递归神经网络(RNNs)长序列的训练是一个艰巨任务。三个主要挑战:1)提取复杂的依赖关系;2)梯度消失和爆炸;3)高效并行化。作者介绍一种简单而有效的RNN连接结构:Dilated RNN,同时解决这些挑战。该结构特点是多分辨率dilated递归skip connection,并且可以与不同的RNN单元灵活组合。此外,dilated RNN显著减少了参数数量并提高训练效率,(即使有传统RNN单元的情况下)也能达到state-of-the-art的performance。最后作者详尽地论述提出的Dilated RNN比其他RNN架构的优势。 25 | - [1710.02254] [Lattice Recurrent Unit: Improving Convergence and Statistical Efficiency for Sequence Modeling](https://arxiv.org/abs/1710.02254) [[code](https://github.com/chahuja/lru)]
26 | 简评:RNN在资源不足的情况下泛化性能弱。作者引入了称为晶格循环单元(LRU)的结构,以解决有限资源学习深层多层次复用模型的问题。作者与Grid-LSTM和Recurrent Highway网络相比,在四个公开数据集上的研究结果表明:LRU计算收敛率和统计效率值,同时语言模型的表达更准确。 27 | - [1710.01992] [Fast and Accurate Image Super-Resolution with Deep Laplacian Pyramid Networks](https://arxiv.org/abs/1710.01992)
28 | 简评:卷积神经网络展示了对单一图像超分辨率高质量的重建效果。然而,现有方法往往需要大量的网络参数和需要大量计算负载以生成高精度超分辨率结果。作者提出了拉普拉斯算子金字塔超分辨率网络:在多个水平上网络逐步重建高分辨率图像。与现有方法相比,仅需低计算负载。此外作者利用在金字塔内的递归层以及共享参数,大大减少了参数数量。 29 | - [1710.01878] [To prune, or not to prune: exploring the efficacy of pruning for model compression](https://arxiv.org/abs/1710.01878)
30 | 简评:作者探索模型剪枝的必要性,对同一个大模型分别剪枝成大而稀疏和小而稠密的模型,经测试(CNN,Stacked LSTM,C2C LSTM)发现稀疏大模型始终优于稠密模型,实现了在最小精度的损失下,减少了10倍的参数。 31 | 32 | ## 开源项目 33 | 34 | - [wichtounet/dll: Deep Learning Library (DLL) for C++ (ANNs, CNNs, RBMs, DBNs...)](https://github.com/wichtounet/dll) [[blog](https://baptiste-wicht.com/posts/2017/10/deep-learning-library-10-fast-neural-network-library.html)]
35 | 简评:C++高性能深度学习库,类似keras,也是作者毕业论文的产物之后维护至今。 36 | - [wkentaro/labelme: Image Annotation Tool with Python](https://github.com/wkentaro/labelme)
37 | 简评:Python图像可视化标记工具,支持分类图像检测和分割数据的标注。 38 | - [r4ghu/iOS-CoreML-Yolo: Almost Real-time Object Detection using Apple's CoreML and YOLO v1](https://github.com/r4ghu/iOS-CoreML-Yolo) [[blog](https://sriraghu.com/2017/07/12/computer-vision-in-ios-object-detection/)]
39 | 简评:iOS平台CoreML/YOLO(v1)近实时目标检测。 40 | - [foolwood/benchmark_results: visual tracker benchmark results](https://github.com/foolwood/benchmark_results)
41 | 简评:各种跟踪算法的benchmark。 42 | - [mikesart/gpuvis: GPU Trace Visualizer](https://github.com/mikesart/gpuvis)
43 | 简评:Gpuvis Linux GPU分析器是一个类似于在Windows系统上的GPUView。它旨在与trace-cmd捕获和帮助追踪Linux gpu和应用程序的性能问题。 44 | - [Microsoft/EdgeML: This repository provides code for machine learning algorithms for edge devices developed at Microsoft Research India.](https://github.com/Microsoft/EdgeML)
45 | 简评:这个库包含两个算法 Bonsai 和 ProtoNN。这两个算法在训练传统监督学习问题时所需内存数量低于其他现代ML算法。训练模型可以装配到移动设备如物联网设备/传感器,并可完全离线地用于快速且准确的预测。 46 | - [peisuke/DeepLearningSpeedComparison: This repository is test code for comparison of several deep learning frameworks.](https://github.com/peisuke/DeepLearningSpeedComparison) [[blog](https://www.slideshare.net/FujimotoKeisuke/deep-learning-framework-comparison-on-cpu)]
47 | 简评:CPU端热门深度学习框架的速度比较。 48 | - [PyTorch implementation of the Quasi-Recurrent Neural Network - up to 16 times faster than NVIDIA's cuDNN LSTM' | Salesforce ](https://github.com/salesforce/pytorch-qrnn)
49 | 简评:@schelotto: 简单说一下,LSTM训练速度很慢的原因是backprop时三个gate以及memory cell都依赖于上一个时间点的预测,因此是无法并行的。quasi RNN取消了gate的时间依赖,并采用Highway-net的残差链接有选择性的更新hidden layer,从而大大加快了训练速度。 50 | 51 | ## 博文 52 | - [Small Deep Neural Networks - Their Advantages, and Their Design | Forrest Iandola, Kurt Keutzer](https://www.bilibili.com/video/av15126749/)
53 | 简评:视频来自[youtube](https://www.youtube.com/watch?v=AgpmDOsdTIA),由来自微软的的印度小哥讲解。 54 | - [小鱼在家首席音频科学家邓滨:人工智能硬件设备中的语音前处理技术研究 | 将门创投](https://mp.weixin.qq.com/s/H1jqzp_tkEaeJNP1TQe9dg)
55 | 简评:小鱼在家首席音频科学家邓滨分享“人工智能硬件设备中的语音前处理技术研究”的内容回顾,主要探讨了语音前处理技术在人工智能硬件设备上所能发挥的作用,以及其不可替代的重要意义。 56 | - [Mixed-Precision Training of Deep Neural Networks | Parallel Forall](https://devblogs.nvidia.com/parallelforall/mixed-precision-training-deep-neural-networks/) [[paper](https://arxiv.org/abs/1710.03740)]
57 | 简评:这篇博客来自NVIDIA,讨论了混合精度对训练的影响,实验表明带尺度缩放的混合精度甚至能提升准确率(相比仅使用一种精度而言,如FP32)。 58 | - [Creating an IOS app with Core ML from scratch! | Gerardo Lopez Falcón](https://medium.com/towards-data-science/creating-an-ios-app-with-core-ml-from-scratch-b9e13e8af9cb)
59 | 简评:从头开始搭建基于Core ML的IOS app。 60 | - [Investing in the future of retail with Standard Cognition](https://medium.com/initialized-capital/investing-in-the-future-of-retail-with-standard-cognition-ffdd03fafd10)
61 | 简评:Standard Cognition正预打造未来的零售体验,和Amazon Go的设想一样:购买完商品离开商店会自动支付,该技术使用计算机视觉、深度学习以及传感器融合等技术,彻底跳过传统收银结帐的过程。 62 | - [Training AI for Self-Driving Vehicles: the Challenge of Scale | Parallel Forall](https://devblogs.nvidia.com/parallelforall/training-self-driving-vehicles-challenge-scale/)
63 | 简评:自驾车辆AI训练:规模化挑战。 64 | - [自动驾驶的未来全靠它!揭秘固态激光雷达创业江湖 | 智东西](https://mp.weixin.qq.com/s/dOvwoVZHnl2ElXF2Uu8mgw)
65 | 简评:主流观点认为,激光雷达已经成为自动驾驶不可或缺的关键传感器。市场上,Velodyne 64线的激光雷达“一达难求”,加价到10万美金也有公司照收不误。然而,这个旋转的大花盆正在迎来有力的竞争们——那些想让激光雷达不用转动的公司,正在悄然掀起一场固态激光雷达的暗战。 66 | - [Behind the Magic: How we built the ARKit Sudoku Solver | Brad Dwyer](https://blog.prototypr.io/behind-the-magic-how-we-built-the-arkit-sudoku-solver-e586e5b685b0)
67 | 简评:ARKit数独解谜App的魔法背后是如何开发的。 68 | - [Phone-Powered AI Spots Sick Plants With Remarkable Accuracy | WIRED](https://www.wired.com/story/plant-ai)
69 | 简评:智能手机AI应用帮农户检测植物病害。 70 | - [Real-time Performance RNN in the Browser | Curtis Hawthorne](https://magenta.tensorflow.org/performance-rnn-browser) 71 | [[demo](https://deeplearnjs.org/demos/performance_rnn/index.html#2|2,0,1,0,1,1,0,1,0,1,0,1|1,1,1,1,1,1,1,1,1,1,1,1|1,1,1,1,1,1,1,1,1,1,1,1|0)]
72 | 简评:浏览器里的实时Performance RNN钢琴协奏Demo。 73 | 74 | ---- 75 | 76 | Editor: 张先轶、袁帅 77 | 78 | ---- 79 | 80 | 知识共享许可协议
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。 81 | -------------------------------------------------------------------------------- /bi-weekly-reports/2017-11-28.md: -------------------------------------------------------------------------------- 1 | --- 2 | layout: default 3 | --- 4 | 5 | # 嵌入式AI 双周简报 (2017-11-28) 6 | 7 | ## 业界新闻 8 | 9 | - [波士顿动力最新逆天机器人:360°后空翻完爆体操运动员,54秒看双足机器人未来 | 新智元](https://mp.weixin.qq.com/s?timestamp=1511612877&src=3&ver=1&signature=ohWeTUu0PRzwCTARieFAVLi*0Db4eahy4KJb4speOviiMO8Fmfxppr*oV5pow1kSypqsrhxU8uKYQKVj1OlPpzBRGrKnNxu-C8XXbCNEOJiZE*9KSBSnGpMtK4uiTrIoy-Psciyge4b2RGpw6OjwglEo0NNNEzRGUx1EHXrAk4g=)
10 | 简评:波士顿动力公司在YouTube发布了一段新视频,展示了该公司的Atlas机器人做360度后空翻的惊艳动作。波士顿动力原是Alphabet旗下的机器人公司,今年6月被软银集团收购。 11 | - [黄教主再放核弹,英伟达超级计算机SaturnV升级,有望杀入Top500榜单前五 | 新智元](https://mp.weixin.qq.com/s?timestamp=1511612877&src=3&ver=1&signature=ohWeTUu0PRzwCTARieFAVLi*0Db4eahy4KJb4speOviiMO8Fmfxppr*oV5pow1kSypqsrhxU8uKYQKVj1OlPp6oiM4jKWKICuZkoOCF2zz2YnL9IZlaZG0lJnoylFeYUaXO5RwPaOYRYqDK4fvjLVXBwqAB4W5MMqtkr5HbxTbU=)
12 | 简评:最新一期国际超算权威榜单Top500发布,英伟达的DGX SaturnV 排名第36。就在昨天,英伟达宣布,使用最新的Volta升级该集群,一个DGX SaturnV里组装了660个DGX-1节点(每个节点8个V100芯片)。如果你把GPU从SaturnV中拿出来一个一个挨着放,差不多能排上一公里。 13 | - [旷视&清华大学提出新型两步检测器Light-Head R-CNN | 机器之心](https://mp.weixin.qq.com/s?timestamp=1511612693&src=3&ver=1&signature=ohWeTUu0PRzwCTARieFAVJ-y5*BpkaIZyq6N*5CCDZm7C897Nu3JnfXd4Tbkq7xD0ioHkSpkchOHtrf5jSxk0c1i78bHVIDiX--RXSai33rCh3sD6doz7g*TZBi9xkyh6sF7oh7WOL8QwYh5Ygh5eZDGVNjHS-q0CRm-z9JGTHA=)
14 | 简评:这篇论文提出一种轻量级检测器头设计以构建一个高效、准确率高的两步检测器。具体来说,使用一个大内核可分卷积和少量通道生成稀疏的特征图。该设计的计算量使随后的 RoI 子网络计算量大幅降低,检测系统所需内存减少。将一个廉价的全连接层附加到池化层上,可充分利用分类和回归的特征表示。算法灵活,适用于大型主干网络。基于 ResNet-101 的主干网络优于顶尖的算法,包括两步检测器如 Mask R-CNN 和一步检测器如 RetinaNet。 15 | - [华为推出新型HiSR:移动端的超分辨率算法 | 机器之心](https://mp.weixin.qq.com/s?timestamp=1511612693&src=3&ver=1&signature=ohWeTUu0PRzwCTARieFAVJ-y5*BpkaIZyq6N*5CCDZm7C897Nu3JnfXd4Tbkq7xD0ioHkSpkchOHtrf5jSxk0c1i78bHVIDiX--RXSai33pw5ci8bOUE5C*ZF7tH1sJEZFmKQ3EGXq12OJ6XmgYPseqwxXWya*CTTdOdi4Qmo1E=)
16 | 简评:近日,华为推出了 HiSR 超分辨率技术,该模型借助第一款人工智能手机芯片 Kirin 970 和深度学习算法将低分辨率图片转化生成高清图片,并在移动端实现了快速预览高清图片的效果。本文简要介绍了华为 HiSR 模型的结构与效果。 17 | 18 | ## 论文 19 | 20 | - [1711.04528] [Simple And Efficient Architecture Search for Convolutional Neural Networks](https://arxiv.org/abs/1711.04528)
21 | 简评:神经网络的架构选择通常由专家设计试错而得。作者提出一个基于爬山过程的网络形态的搜索方案,紧接一个余弦退火优化过程。用该方法在CIFAR-10数据集上训练出的模型错误率低于6%。 22 | - [1711.03712] [Quantized Memory-Augmented Neural Networks](https://arxiv.org/abs/1711.03712)
23 | 简评:增强记忆网络(Memory-augmented neural networks,MANNs)是指一类需要借助外部存储的网络模型,这种模型因有更长依赖的学习,因而比传统的RNN模型表现更好。然而,在嵌入式端部署这样的模型却是一个难题,作者提出QMANNs,即对MANNs进行8bit定点和二值量化。相比float实现和传统实现,8bit定点和二值量化在错误率46%和30%提升的前提下,可以达到22倍单位能耗计算量的提升。 24 | - [1711.03637] [Learning and Real-time Classification of Hand-written Digits With Spiking Neural Networks](https://arxiv.org/abs/1711.03637)
25 | 简评:作者提在通用GPU平台实现了一种新颖的SNN(spiking neural network)网络去实时地完成手写数字图片的分类任务。在MNIST数据集上达到了99.8%的训练集准确率和98.6%的测试集准确率,然而参数量只为性能最好的spking网络的七分之一。 26 | - [1711.05491] [Squeeze-SegNet: A new fast Deep Convolutional Neural Network for Semantic Segmentation](https://arxiv.org/abs/1711.05491)
27 | 简评:作者提出Squeeze-SegNet,这是一种可部署在嵌入式平台如自动驾驶场景下、用于语义分割的全卷积网络,其结构与编解码器非常类似,集合了squeeze-decoder模块、上采样以及反卷积层等等。在Camvid和City-states等数据集上达到了和SegNet一样的准确率,但参数量仅为SegNet的十分之一。 28 | - [1708.05237] [S$^3$FD: Single Shot Scale-invariant Face Detector](https://arxiv.org/abs/1708.05237) [[code]](https://github.com//clcarwin/SFD_pytorch)
29 | 简评:作者提出一种名为S^3FD(Single Shot Scale-invariant Face Detector)的实时人脸检测器,这是一个能胜任各种尺度输入的单神经网络模型,尤其是小人脸。而作者工作的重点就是要解决基于anchor的检测器在物体变小时,性能会下降的问题。作者主要做了以下三点:1.提出随尺度变化的人脸检测框架来解决人脸尺度的问题;2.通过尺度补充的anchor策略来提升对小人脸的召回;3.通过max-out背景标注来减少小人脸的false positive rate。在AFW、PASCAL face、FDDB和WIDER FACE这几个数据集上都达到了state-of-the-art的检测性能,在NVIDIA Titan X(Pascal)显卡上达到了36fps的帧率。 30 | - [1711.05860] [A General Neural Network Hardware Architecture on FPGA](https://arxiv.org/abs/1711.05860)
31 | 简评:现场可编程门阵列(FPGA)由于高度并行体系结构,低功耗,自定义算法的灵活性。在神经网络和机器学习算法的高能效实现上有巨大优势。作者基于XILINX ZU9CG系统芯片(SOC)平台,实现了一个支持训练和推断的通用神经网络硬件架构。 32 | - [1711.05979] [Performance Modeling and Evaluation of Distributed Deep Learning Frameworks on GPUs](https://arxiv.org/abs/1711.05979) [译文](https://mp.weixin.qq.com/s?timestamp=1511612877&src=3&ver=1&signature=ohWeTUu0PRzwCTARieFAVLi*0Db4eahy4KJb4speOviiMO8Fmfxppr*oV5pow1kSypqsrhxU8uKYQKVj1OlPp77VYVevE7w9dImXgAAcyx*kuXDXzof7k4noulFDH2w9MdhMmWrK4F8n*ll0LnduT*x-ubwWH589hgHYw8RduY4=)
33 | 简评:这篇论文评估了四个state-of-the-art的分布式深度学习框架,即Caffe-MPI, CNTK, MXNet 和 TensorFlow分别在单个GPU、多GPU和多节点的环境中的表现。 34 | - [1711.07607] [Knowledge Concentration: Learning 100K Object Classifiers in a Single CNN](https://arxiv.org/abs/1711.07607)
35 | 简评:超细粒度图像分类是图像搜索和移动AI助手所需要的。然而训练一个具有10万类的大型模型的训练速度和分类性能是一个挑战。一个解决方案是训练独立的专家网络,每个专家集中学习一个特定垂直领域(如汽车、鸟类等)。然而,在实际的系统中部署数大量专家网络会增大系统复杂性和推理延迟,并消耗大量的计算资源。作者提出一个知识浓度方法,将知识从数十名专家网络蒸馏成一个单一模型(一个学生网络)对100k类别分类。作者主要工作有三点:1.提出multi-teacher蒸馏的框架;2.自主学习机制,允许学生从不同的老师处学习;3.用结构连接层扩大学生网络容量。在OpenImage数据集上达到比baseline更大的性能提升。 36 | - [1711.05908] [NISP: Pruning Networks using Neuron Importance Score Propagation](https://arxiv.org/abs/1711.05908)
37 | 简评:作者提出基于神经传播重要性的剪枝策略(NISP,Neuron Importance Score Propagation 38 | )。在往常的剪枝策略中没有考虑反向传播在重建误差时候的影响。作者将最小化重建误差纳入考量并设计出名为FRL(final response layer)的层,该层在softmax层之前用于巩固预测结果。此外,作者也对特征进行排序来测量每个神经元在FRL层中的重要性,将剪枝问题视为优化问题。整体实现流程是:先对网络基于最小重要性进行剪枝移除一些神经元,之后对网络fine-tune。在忽略不计的准确率损失下,几个数据集上都有很大的加速表现。 39 | - [深度梯度压缩:降低分布式训练的通信带宽 | 机器之心](https://mp.weixin.qq.com/s?timestamp=1511612669&src=3&ver=1&signature=ohWeTUu0PRzwCTARieFAVJs6Jpbmv*C*X17REkTuIrEjfs0FAxzg32Zx0o*MNW6xJ40S-zlPmszHeNQbwQuZaW2KiCORMFnhNYuOwZR2dnfgejmkKAQXbD9NX01CYt38o9oIJ1RfqPb4G4EbTS7D5mO-fEAue7UwIybl0*RKOIs=)
40 | 简评:深度梯度压缩(Deep Gradient Compression/DGC)是通过压缩梯度的方式来解决通信带宽问题。为了确保无损于准确度,DGC 在梯度稀疏化(gradient sparsification)之上使用了动量校正(momentum correction)和局部梯度裁剪(local gradient clipping)来维持模型的表现水平。DGC 还使用了动量因子掩蔽(momentum factor masking)和 warmup training 来克服由通信减少所导致的过时问题(staleness problem)。图像识别、语言建模和语音识别的实验表明:该方法可以将梯度压缩 600 倍而不造成准确度损失,这比之前的研究成果(Aji & Heafield, 2017)高一个数量级。 41 | 42 | 43 | ## 开源项目 44 | 45 | - [JianyangZhang/Self-Driving-Car-AI: A simple self-driving car AI python script using the deep Q-learning algorithm](https://github.com//JianyangZhang/Self-Driving-Car-AI)
46 | 简评:Deep Q-learning无人车AI项目。 47 | - [BlinkDL/BlinkDL: A minimalist deep learning library in Javascript using WebGL + asm.js. It can do convolutional neural network in your browser.](https://github.com/BlinkDL/BlinkDL)
48 | 简评:一个极简Javascript中使用WebGL + asm.js深度学习库,它可以在浏览器中执行卷积神经网络。 49 | - [masahi/nnvm-vision-demo: Demos interesting image-in, image-out networks running on both NVIDIA and AMD GPUs, with NNVM](https://github.com/masahi/nnvm-vision-demo)
50 | 简评:用GAN实现图像生成,底层支持NVIDIA和AMD的GPU。 51 | - [explosion/lightnet: 🌓 Bringing pjreddie's DarkNet out of the shadows #yolo](https://github.com//explosion/lightnet)
52 | 简评:LightNet提供DarkNet简单高效的Python接口,DarkNet框架由YOLO和YOLOv2的作者实现。LightNet在的主要目的是做图像的目标检测和分割。 53 | - [LamHoCN/Depth_conv-for-mobileNet: Depth_conv for MobileNet](https://github.com/LamHoCN/Depth_conv-for-mobileNet)
54 | 简评:用CUDA实现的MobileNet的depth_conv。 55 | - [hahnyuan/video_labeler: A GUI tool for conveniently label the objects in video, using the powerful object tracking.](https://github.com/hahnyuan/video_labeler)
56 | 简评:视频标记工具,带有给力的跟踪辅助功能。 57 | - [jcupitt/libvips: A fast image processing library with low memory needs.](https://github.com/jcupitt/libvips)
58 | 简评:超快的图像处理框架。 59 | - [AITTSMD/MTCNN-Tensorflow: Reproduce MTCNN using Tensorflow](https://github.com//AITTSMD/MTCNN-Tensorflow)
60 | 简评:使用Tensorflow实现MTCNN。 61 | - [Carla – An open-source simulator for autonomous driving research | Hacker News](https://news.ycombinator.com/item?id=15720314)
62 | 简评:自驾模拟开发环境资源汇总。 63 | 64 | 65 | ## 博文 66 | 67 | - [变形卷积核、可分离卷积?卷积神经网络中十大拍案叫绝的操作 | 知乎](https://zhuanlan.zhihu.com/p/28749411)
68 | 简评:CNN从2012年的AlexNet发展至今,科学家们发明出各种各样的CNN模型,一个比一个深,一个比一个准确,一个比一个轻量。博文作者对近几年一些具有变革性的工作进行简单盘点,从这些充满革新性的工作中探讨日后的CNN变革方向。 69 | - [苹果博客解读iPhone上的人脸识别深度神经网络 | 机器之心](https://mp.weixin.qq.com/s/hbmLhS114cEC5qGv2Ujxaw) [[英文原文]](https://machinelearning.apple.com/2017/11/16/face-detection.html)
70 | 简评:苹果首次将深度学习应用于人脸识别是在 iOS 10 上。通过 Vision 框架,开发者现在可以在 App 中将该技术与其他很多计算机视觉算法进行整合。为了保护用户隐私,保证有效运行,苹果在开发这个框架的过程中克服了大量挑战。本文旨在探讨这些挑战,并介绍人脸识别算法。 71 | - [从人脸识别到行人重识别,下一个风口 | 知乎专栏](https://zhuanlan.zhihu.com/p/31181247)
72 | 简评: 行人重识别(Person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补目前固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。 73 | - [加速云CEO邬钢:FPGA在深度学习中的应用 | 斗鱼](https://v.douyu.com/show/yjwzOvp2mjMZVRm9)
74 | 简评:加速云成立于2015年9月,是国内为数不多的具备FPGA硬件加速方案实施才干的厂商。加速云的运用场景可分为前端和后端,前端首要会合在智能硬件领域,如无人机运用,而在后端的运用场景可以拿云计算举例,加速云研发的大数据加速产品已广泛运用于数据基地、云计算、机器视觉、深度学习、高功用计算、科技金融等领域,为腾讯、阿里、科大讯飞、京东等首要客户提供了效力支撑。 75 | - [深度学习中的「卷积层」如何深入理解 | 雷克世界](https://mp.weixin.qq.com/s/wAVbeU2MXWrWXdCCBbR-Wg) [[英文原文]](https://medium.com/@apiltamang/a-gentle-dive-into-the-anatomy-of-a-convolution-layer-6f1024339aca)
76 | 简评:在现有深度学习框架下,我们所编写的卷积层往往是一个单行语句,它可以抽象出许多结构细节。不过,有时候后退一步去揭开一些抽象概念也是一个不错的选择。本文试图阐述卷积层的一个特定的解剖特征,而这是在大多数文章和相关讨论中被忽略的问题。 77 | - [DeepMind 揭秘 WaveNet 提速一千倍、进驻 Google Assistant 背后的故事 | AI科技评论](https://mp.weixin.qq.com/s/DUsH6wPDqSyq9C_xGY-Lng)
78 | 简评:WaveNet 仅一年时间就走出实验室,在 Google Assistant 中落地。在庆贺深度学习又一次完全颠覆传统做法的同时,大家想必也会好奇,到底 DeepMind 做了哪些改进才得以实现这样数量级的效率提升呢?DeepMind 自己最近就发布了介绍商业化改进后的 WaveNet 的论文,并撰写了一篇博文通俗地介绍了其中的改进点。 79 | 80 | ---- 81 | 82 | Editor: 张先轶、袁帅 83 | 84 | ---- 85 | 86 | 知识共享许可协议
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。 87 | -------------------------------------------------------------------------------- /bi-weekly-reports/2017-10-03.md: -------------------------------------------------------------------------------- 1 | --- 2 | layout: default 3 | --- 4 | 5 | # 嵌入式AI 双周简报 (2017-10-03) 6 | 7 | ## 业界新闻 8 | - [黄教主的开源NVDLA,“核”爆还是“核”平? | 矽说](https://mp.weixin.qq.com/s/K3bRztfIO-PRh-XtrYPYGA) [[项目主页](http://nvdla.org)]
9 | 简评:risc-v的开源,dla的开源,硬件开源化也成为一大趋势。此次推出的开源DLA计划,彻底推翻GPU架构,重新定义了加速器架构,还能展现NV家优势么? 10 | - [黄仁勋北京演讲:GPU帝国启幕,发布可编程AI 推理加速器TensorRT 3 | 新智元](https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652005362&idx=1&sn=2159cde5b7bd4094dfead7bead49a6a1&chksm=f1211703c6569e15a95c02da74bcab4b960491864e35a1d7526784b404b12b6a73ac70672439&scene=0&pass_ticket=rqrP6Vxa9PZoQEDHty4l%2FLyT8Hl0x5YUmW7OF27EHbuoBSvSV3DEBV3RHKCl27LP#rd)
11 | 简评:NVIDIA发布TensorRT 3(支持众多深度学习框架),基于Tesla V100的HGX-1加速器,Volta架构的新一代终端芯片Xavier。 12 | - [neon v2.1.0: Leveraging Intel® Advanced Vector Extensions 512 (Intel® AVX-512) | Intel Nervana](https://www.intelnervana.com/neon-2-1/)
13 | 简评:neon 2.1版发布:加入对高级向量扩展(Intel AVX-512)的支持。同时,neon 2.1使用新版MKL-DNN,对Xeon处理器和即将发布的Xeon Phi协处理器做了特别优化。新版neon自动使用AVX-512指令来加速卷积,内积等深度学习kernel。 14 | - [英特尔推出神经形态测试芯片Loihi:可自学习 | 机器之心](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650731297&idx=3&sn=0df877e39b4eb42b4358f141e7fbfbe0&chksm=871b375fb06cbe49945b23e43c177ea6c5ce473aca76b47653616afaeb9717fde8128214f9f0&scene=0&pass_ticket=rqrP6Vxa9PZoQEDHty4l%2FLyT8Hl0x5YUmW7OF27EHbuoBSvSV3DEBV3RHKCl27LP#rd) [[video](http://weibo.com/tv/v/Fo2RirbSx?fid=1034:046b3221e691f94898abc00736fd3fdb)]
15 | 简评:芯片巨头英特尔的研究实验室开发出一种新型芯片,即Intel Loihi测试芯片。该芯片由128个计算核心组成,每个核心有1024个人工神经元,整个芯片共有超过13万个神经元和1.3亿个突触连接。 16 | - [Why the PowerVR 2NX NNA is the future of neural net acceleration | Imagination Technologies](https://www.imgtec.com/blog/why-the-powervr-2nx-nna-is-the-future-of-neural-net-acceleration)
17 | 简评:上个星期PowerVR在其发展史上新增一项全新IP产品——硬件神经网络加速器:“PowerVR 2NX”。其命名为神经网络加速器(NNA),它能够提供全面的硬件解决方案,支持多种神经网络模型和架构以及机器学习框架,比如谷歌公司推出的TensorFlow和Caffe,具有行业领先的性能和低功耗特性。 18 | - [如何评价百度刚刚开源的mobile-deep-learning | 知乎](https://www.zhihu.com/question/65816648) [[code](https://github.com/baidu/mobile-deep-learning)]
19 | 简评:贾扬清在回答中给出了一些移动端网络优化的思路,百度的同学主要用了Metal、neon等优化手段,该框架编译后体积达300+kb,但目前支持的层还比较少。在实现思路上,MDL当然也包括NCNN在内,都借鉴了caffe。 20 | - [MATLAB更新R2017b:转换CUDA代码极大提升推断速度 | 机器之心](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650731455&idx=2&sn=3c80cc9088e870d44fa3de2994f72382&chksm=871b37c1b06cbed77b2055ebee7987007470f0f049b5a0bb93968ee1a02fc851ba50aa1e12b4&scene=0&pass_ticket=rqrP6Vxa9PZoQEDHty4l%2FLyT8Hl0x5YUmW7OF27EHbuoBSvSV3DEBV3RHKCl27LP#rd)
21 | 简评:在嵌入式平台部署上比较值得关注的地方:一是使用GPU Coder可将MATLAB的模型代码转换为CUDA代码方便嵌入式设备部署,二是嵌入式部署的模型比Caffe2快4.5倍,比TensorFlow快7倍,期待更具体的Benchmark和实现策略! 22 | - [精确度达30cm,这款超精准GPS芯片将在2018年“空降”智能手机 | DeepTech深科技](https://mp.weixin.qq.com/s/FAxOYR3i-W2FqRbymqD5uw) [[英文原文](https://spectrum.ieee.org/tech-talk/semiconductors/design/superaccurate-gps-chips-coming-to-smartphones-in-2018)]
23 | 简评:Broadcom 宣布,它正在对一款面向大众市场的新型芯片进行采样测试,该芯片可以利用全球导航卫星信号,并将为下一代智能手机提供 30 厘米的精确度,远超现在的 5 米精确度。 24 | - [特斯拉捅翻了马蜂窝!自动驾驶芯片战争爆发 | Origin 车东西](https://mp.weixin.qq.com/s?__biz=MjM5ODgxNTk4Mw==&mid=2689910611&idx=1&sn=a7821a9ff6c856cb2261bf49676a3f20&chksm=836496d3b4131fc5a896e244d71e85ded0347954db2e049ab954e8fbf0b42a91204aaf01fb0d&mpshare=1&scene=1&srcid=0928G5PHKRgshI3hgdksQFIA&pass_ticket=rqrP6Vxa9PZoQEDHty4l%2FLyT8Hl0x5YUmW7OF27EHbuoBSvSV3DEBV3RHKCl27LP#rd)
25 | 简评:英特尔豪掷320亿美元买了入场券;英伟达狂发计算平台刷新性能上限;高通立足5G苦等470亿美元的恩智浦。 26 | - [华为回应NPU IP归属问题,麒麟970全面对标iPhone8 Plus | 新智元](https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652005319&idx=2&sn=83a6697392fdbce0e3f9fb14741e99ff&chksm=f1211736c6569e207273a6c6da57c4b315a9e72ea0a483161f6ffdfefcacbc1b34d47f22d62f&scene=0&pass_ticket=rqrP6Vxa9PZoQEDHty4l%2FLyT8Hl0x5YUmW7OF27EHbuoBSvSV3DEBV3RHKCl27LP#rd)
27 | 简评:2017年麒麟芯片媒体沟通会今天上午在北京举行,这是华为海思首次正式对外进行麒麟970芯片的深度解读。沟通会上,华为Fellow艾伟回应了关于“麒麟970的NPU是寒武纪的IP”的问题。 28 | - [景驰科技完成Pre-A轮5200万美元融资, 启明创投,英伟达投资 | 新智元](https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652005362&idx=2&sn=c66836e3f0f76eeba620fa9b30652124&chksm=f1211703c6569e15596b66c9122325a52e2302da84572d62e338869670bd07ef6f4f0f03abbd&scene=0&pass_ticket=rqrP6Vxa9PZoQEDHty4l%2FLyT8Hl0x5YUmW7OF27EHbuoBSvSV3DEBV3RHKCl27LP#rd)
29 | 简评:有一家今年4月刚刚成立的自动驾驶初创企业,备受业界关注,却很少对外发声。它的名字是景驰科技,业界对它的关注首先来自其几位重量级创始人:前百度高级副总裁、自动驾驶事业部总经理王劲担任CEO;前百度自动驾驶事业部首席科学家韩旭担任CTO;前Velodyne CFO Qing Lu担任CFO。 30 | 31 | 32 | ## 论文 33 | 34 | - [[1709.09161] EDEN: Evolutionary Deep Networks for Efficient Machine Learning](https://arxiv.org/abs/1709.09161) [[video](https://vimeo.com/234510097)]
35 | 简评:寻找高效的模型架构和超参数没有一个指导,作者将离散型变量如激活函数的类型等网络层,以及连续型的超参数如学习率作为参数,通过传统的遗传算法来寻找最佳模型结构和超参数。 36 | - [[1709.07566] Smart Mirror: Intelligent Makeup Recommendation and Synthesis](https://arxiv.org/abs/1709.07566)
37 | 简评:人像美颜通常都有比较专业的编辑软件,作者提出一个自动化且个性化的美颜化妆系统。用一个模型描述脸部特征和推荐妆容间关系,推荐妆容就可以自然地合成到输入的脸部图像上了。 38 | - [[1709.07626] BreathRNNet: Breathing Based Authentication on Resource-Constrained IoT Devices using RNNs](https://arxiv.org/abs/1709.07626)
39 | 简评:作者研究了使用RNN进行基于呼吸声(breathing acoustics)的端到端认证系统的可行性,并在三种设备(智能手机、智能手表、树莓派)上测试性能,表示该认证系统可以轻松移植到资源有限的设备上(不会造成严重精度损失)。 40 | - [[1709.06622] Distributed Training Large-Scale Deep Architectures](https://arxiv.org/abs/1709.06622)
41 | 简评:本文关注分布式平台上深度学习的训练加速。作者先从以往常规测试中确定在单卡、多卡、多机时数据并行的瓶颈和间接开销,提出一个针对分布式应用以减少通信开销为目的,用于估计服务器数量的公式和一些加速训练过程的指导性意见。 42 | - [[1709.06053] Coupled Ensembles of Neural Networks](https://arxiv.org/abs/1709.06053)
43 | 简评:本文算是模型集成的一个应用。将多个单独小卷积网络作为并行分支以组成一个大网络,好处有三:减少参数数量;精度明显提升;速度基本维持。毕竟分支的使用就是一种正则,在此基础上作者提出训练过程中,在SoftMax层前的操作放置一个融合平均层(fuse layer)可以大大提高精度。使用这种分支和方法的架构称为“coupled ensembles”,该方法具有通用性可以用于几乎所有DCNN架构,作者实验了不同参数规模下的DenseNet-BC结构,在2500万总参数规模下,CIFAR-10、CIFAR-100和SVHN数据集上的错误率分别达到2.92%、15.68%和1.50%。 44 | - [[1709.05804] Minimal Effort Back Propagation for Convolutional Neural Networks](https://arxiv.org/abs/1709.05804)
45 | 简评:本文关注反向传播的梯度更新的加速。作者提出仅计算完整梯度的一部分来更新模型参数,在卷积网络上的实验,仅使用5%的梯度模型仍然能达到相同的性能甚至更好。另外,作者还发现用top-k的梯度来更新参数,可以更高效地实现稀疏反向传播。 46 | - [[1709.06994] Structured Probabilistic Pruning for Deep Convolutional Neural Network Acceleration](https://arxiv.org/abs/1709.06994)
47 | 简评:作者提出一种相比传统剪枝方法,更加考虑训练过程中权重的重要性的剪枝方法(突出重要权重和消除不重要权重):条件概率剪枝(Structured Probabilistic Pruning)。实验表明在ImageNet-2012验证集上对AlexNet网络剪枝,top-5错误率增加1.3%的情况下,可使卷积层的速度加快4到8.9倍(平均5.8倍),同时作者还验证了该方法使用AlexNet在迁移学习上的有效性。 48 | - [[1709.06030] N2N Learning: Network to Network Compression via Policy Gradient Reinforcement Learning](https://arxiv.org/abs/1709.06030)
49 | 简评:作者提出用策略梯度强化学习来做模型压缩。首先拿一个大的网络做为teacher网络作为输入,输出一个压缩后的student网络(源自teacher网络)。第一阶段,一个递归策略网络会对teacher网络侵略性地移除一些层,第二阶段会有另一个递归策略网络会小心翼翼地再对留下的层进行尺寸上的减小。剩下的网络会被评估并得到一个基于该网络准确率和相比原始网络的压缩比例的分数,也是就是reward。作者就是用该reward来训练policies最终得到最佳的student网络。作者实验了ResNet-34,在维持精度下模型缩小了10倍以上,同时在得到的网络上拿来做迁移学习也得到了不错的结果。 50 | - [[1709.05943] Fast YOLO: A Fast You Only Look Once System for Real-time Embedded Object Detection in Video](https://arxiv.org/abs/1709.05943)
51 | 简评:YOLOv2在速度和精度上都有提升,尽管YOLOv2在检测上达到实时,但需要一颗强大的GPU做后援,在嵌入式等内存有限的设备仍很吃力,作者基于YOLOv2使用进化算法提出名为Fast YOLO的新架构,精度(IOU)上有2%的损失,参数数量减少2.8倍。作者又提出运动自适应inference方法,基于时间运动特性来进一步减少推理频率,在Nvidia Jetson TX1嵌入式系统上Fast YOLO可以达到18FPS的实时性能。 52 | - [[1709.05011] 100-epoch ImageNet Training with AlexNet in 24 Minutes](https://arxiv.org/abs/1709.05011)
53 | 简评:作者提出当前训练DNN的瓶颈在于算法层面(说白了就是batch size太小如512,不足以充分用好大量处理器)。对于大规模的DNN训练,作者关心在给定epochs数目不损失精前提下,数据并行中使用大batch的同步SGD。受到前阵子LARS算法和Facebook一小时训练ImageNet的启发,作者用AlexNet在24分钟训练100个epoch的壮举,此外又在一小时内对ResNet-50训练90个epoch。 54 | 55 | 56 | ## 开源项目 57 | 58 | - [deeplearn.js style transfer](https://github.com/reiinakano/fast-style-transfer-deeplearnjs) [[demo](https://reiinakano.github.io/fast-style-transfer-deeplearnjs/)]
59 | 简评:使用deeplearn.js框架进行风格迁移的实例代码,附属演示demo。 60 | - [Binarized Convolutional Landmark Localizers for Human Pose Estimation and Face Alignment with Limited Resources | Adrian Bulat](https://www.adrianbulat.com/binary-cnn-landmarks) [[code](https://github.com/1adrianb/binary-face-alignment)] [[paper](https://arxiv.org/abs/1703.00862)]
61 | 简评:二值化卷积网络在嵌入式设备上的人体姿态估计和人脸对齐应用,两个模型大小分别是1.3MB、1.4MB,模型和代码开源。 62 | - [fregu856/2D_detection: TensorFlow implementation of SqueezeDet, trained on the KITTI dataset.](https://github.com/fregu856/2D_detection)
63 | 简评:作者基于TensorFlow的官方SqueezeNet模型,在KITTI数据集上实现用SqueezeNet的检测模型。 64 | - [sagar448/Self-Driving-Car-3D-Simulator-With-CNN: Implementing a self driving car using a 3D Driving Simulator. CNN will be used for training](https://github.com/sagar448/Self-Driving-Car-3D-Simulator-With-CNN)
65 | 简评:快来训练自己的CNN自动驾驶模型吧! 66 | 67 | 68 | ## 博文 69 | 70 | - [揭秘支付宝中的深度学习引擎:xNN | 阿里技术](https://mp.weixin.qq.com/s?timestamp=1506823063&src=3&ver=1&signature=Gdy-nKe1o1DmbeI6I53eJ7ePAyWBZcPOcswSFlR49-3UBG61HLZqa9oE14*quIRjuKmIqQY17L7QyaFleCyRrbD*gDv0z*mZyCVHPWm8lu7EMrSWAGEaQOU4m1JBfJBozYFZstpb82FaE1hyjCZ74hNJyZ*kI09xcOBm7mJQT4g=)
71 | 简评:本文介绍支付宝App中的深度学习引擎——xNN。xNN通过模型和计算框架两个方面的优化,解决了深度学习在移动端落地的一系列问题。xNN的模型压缩工具 (xqueeze) 在业务模型上实现了近50倍的压缩比, 使得在包预算极为有限的移动App中大规模部署深度学习算法成为可能。xNN的计算性能经过算法和指令两个层面的深度优化,极大地降低了移动端DL的机型门槛。 72 | - [深度学习只能用实数?凭什么不能用复数?! | 机器人圈](https://mp.weixin.qq.com/s/A3zniHGsubiOoyOvfVcDAw) [[英文原文](https://medium.com/intuitionmachine/should-deep-learning-use-complex-numbers-edbd3aac3fb8)]
73 | 简评:在深度学习架构中使用复值确实有很多“真正的”优势。研究表明,跨层梯度信息的传播更加强大,更高的记忆容量,更精确的遗忘行为,大幅降低序列的网络大小以及提高GAN训练中的稳定性。 74 | - [浅析 Hinton 最近提出的 Capsule 计划 | 知乎专栏](https://zhuanlan.zhihu.com/p/29435406)
75 | 简评:Hinton近几年以 “卷积神经网络有什么问题?” 为主题做了多场报道,提出了他的Capsule计划。 76 | - [“信息瓶颈”理论揭示深度学习本质 | 新智元](https://mp.weixin.qq.com/s/pdv-T69rz4jO47CMf-CUhg) [[英文原文](https://www.quantamagazine.org/new-theory-cracks-open-the-black-box-of-deep-learning-20170921/)]
77 | 简评:希伯来大学计算机科学家和神经学家Naftali Tishby等人提出了一种叫做“信息瓶颈”的理论,该理论认为,深度神经网络在学习过程中像把信息从瓶颈中挤压出去一般,去除噪音输入,只保留与通用概念最相关的特征。 78 | - [Introducing Radeon Instinct: The Fusion of Human Instinct and Machine Intelligence | RADEON INSTINCT](https://instinct.radeon.com/en/introducing-radeon-instinct/)
79 | 简评:本文副标题是:AMD’s Open Source Deep Learning Strategy。探讨了AMD深度学习的开源策略,并解释了AMD ROCm计划在加速深度学习方面的优势。 80 | - [神经网络DSP核的一桌麻将终于凑齐了 | 唐杉 StarryHeavensAbove](https://mp.weixin.qq.com/s?__biz=MzI3MDQ2MjA3OA==&mid=2247484055&idx=1&sn=fe9cfbe984510abe4e902c994bcb6097&chksm=ead1ff86dda67690c97fa01e67ed111a558ab04fbc31b2369af125b60ce7e1783cc57c7b774d&mpshare=1&scene=1&srcid=0525e1INuCTINEUEngTsQrsT&pass_ticket=rqrP6Vxa9PZoQEDHty4l%2FLyT8Hl0x5YUmW7OF27EHbuoBSvSV3DEBV3RHKCl27LP#rd)
81 | 简评:随着VeriSilicon和Cadence相继发布支持AI(神经网络)的DSP IP,加上CEVA和Synopsys,几家主流DSP IP厂商全部粉墨登场。之前的系列文章“处理器IP厂商的机器学习方案”中已经介绍了CEVA和Synopsys的方案。今天看看VeriSilicon和Cadence的方案吧。 82 | - [AR 增强现实技术在移动端有比较成熟或者比较创意/创新的应用吗 | 知乎]( 83 | https://www.zhihu.com/question/19575198)
84 | 简评:快下载一波好玩儿的APP吧! 85 | - [中信研报:AI群“芯”逐鹿,英伟达、谷歌、寒武纪等25家公司实力拆解 | CITICS电子研究](https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652004960&idx=3&sn=ef3284dd5e90c0b6751cdf3c96f69bb3&chksm=f1211691c6569f871842d9b8c131e4a5dcf4ac6f32ade193b45b94de05fb6fe71530f99abd45&scene=0&pass_ticket=rqrP6Vxa9PZoQEDHty4l%2FLyT8Hl0x5YUmW7OF27EHbuoBSvSV3DEBV3RHKCl27LP#rd)
86 | 简评:选自中信证券研究部电子行业研究团队报告《群芯逐鹿时代:AI未来,星辰大海——人工智能深度系列研究报告》,从技术角度全面剖析整个AI芯片市场格局及发展。 87 | 88 | ---- 89 | 90 | Editor: 张先轶、袁帅 91 | 92 | ---- 93 | 94 | 知识共享许可协议
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。 95 | -------------------------------------------------------------------------------- /bi-weekly-reports/2017-08-07.md: -------------------------------------------------------------------------------- 1 | --- 2 | layout: default 3 | --- 4 | 5 | # 嵌入式AI 双周简报 (2017-08-07) 6 | 7 | ## 业界新闻 8 | 9 | - [OpenCV 3.3版本发布](http://opencv.org/opencv-3-3.html) 10 | - [鱼和熊掌兼得,DNN加入 OpenCV 全家桶 | 知乎专栏](https://zhuanlan.zhihu.com/p/28323601?utm_source=wechat_timeline&utm_medium=social&from=timeline) 11 | - [Qualcomm Snapdragon Neural Processing Engine (NPE) | Qualcomm Developer Network](https://developer.qualcomm.com/software/snapdragon-neural-processing-engine) 12 | - [AI让芯片业洗牌: 苹果、微软和谷歌挤入赛道,英特尔、英伟达、高通、AMD几家欢乐几家愁 | 新智元](http://mp.weixin.qq.com/s/WlZTXCRy0xGeuJLQMxZGeQ) 13 | - [解密图森:英伟达为何投资这家无人车公司;估值18亿背后有位长者 | 量子位](http://www.sohu.com/a/162189343_610300)   14 | - [被英伟达相中,给Tier1供货,天瞳威视仅靠AI就搞定ADAS | 车东西](https://mp.weixin.qq.com/s?src=3×tamp=1502018174&ver=1&signature=UozfhYMHOaRae6vesHbE0yvQl8DqpLOL5ru3ZXmsKHVAUaiot1ZdwO6KVmCEe7TVhPO1DlSEsgl-*X8wwn95LDDoauBV*GJIlk*DWEgLhmdZ5gddTV90tMZybHzU4iyJy7n3SZfs99YI4GewOq3LFpwPkrcGBIE20iavJ6jnDaM=) 15 | - [ARM的最新NB-IoT报告 | 5G](https://mp.weixin.qq.com/s?src=3×tamp=1502018201&ver=1&signature=gUEmNUHy8y-SoCfrsriCmcDhzptEE4mc0M9tSLutgZ7ao2TvO25ZLK0iqVLspVKOADxdgPe3tu0IrjdlVtfx4aek4KEufToHuOAz2eXGro2OoeY8Yry0KfC47D8H8B0XiJvv-2G-PKJQN378zkUovM9LwC5SkxceA-8pa6t*-D4=) 16 | - [ARM发飙!几个月后手机处理器将因它们而变天! | 智趣狗](https://mp.weixin.qq.com/s?__biz=MzI2NTM2OTc1Nw%3D%3D&mid=2247485358&idx=1&sn=1fb5f161cbf80093d952186dc5e8f02c&scene=45#wechat_redirect) 17 | - [人工智能和云计算让芯片业洗牌,英特尔成了最大输家 | 量子位](http://mp.weixin.qq.com/s/G_OEZJ0a62TZuMRq5jpXmA) 18 | - [The Rise of AI Is Forcing Google and Microsoft to Become Chipmakers | WIRED](https://www.wired.com/story/the-rise-of-ai-is-forcing-google-and-microsoft-to-become-chipmakers/) 19 | - [如何评价腾讯刚出的ncnn库? | 知乎](https://www.zhihu.com/question/62871439) 20 | - [沈向洋宣布微软开发 AI 芯片HPU,剑指英伟达等芯片巨头软肋 | 新智元](http://www.sohu.com/a/160700395_473283)   21 | - [超越GPU,FPGA、ASIC和更智能的手机 | 新智元](http://www.sohu.com/a/160215465_473283)   22 | - ["TensorFire - runs neural networks in the browser using WebGL"](https://tenso.rs/) [[Demo: style-transfer]](https://tenso.rs/demos/fast-neural-style/) 23 | - [Getting Started with Neural Compute Stick and Rasbperry Pi 3 | YouTube](https://www.youtube.com/watch?v=f39NFuZAj6s) 24 | 25 | ## 论文/幻灯片 26 | 27 | - [CVPR2017] [Squeeze-and-Excitation networks (ILSVRC 2017 winner) at CVPR2017](http://image-net.org/challenges/talks_2017/SENet.pdf) 28 | - [1707.06990] [Memory-Efficient Implementation of DenseNets](https://arxiv.org/abs/1707.06990) 29 | - [BranchyNet: Fast Inference via Early Exiting from Deep Neural Networks](http://www.eecs.harvard.edu/~htk/publication/2016-icpr-teerapittayanon-mcdanel-kung.pdf) 30 | - [Learning to Prune: Exploring the Frontier of Fast and Accurate Parsing](http://www.cs.jhu.edu/~jason/papers/vieira+eisner.tacl17.pdf) [[code]](https://github.com/timvieira/learning-to-prune) 31 | - [1704.06904] [Residual Attention Network for Image Classification](https://arxiv.org/pdf/1704.06904.pdf) [[code]](https://github.com/buptwangfei/residual-attention-network) 32 | - [1707.09102] [Fine-Pruning: Joint Fine-Tuning and Compression of a Convolutional Network with Bayesian Optimization](https://arxiv.org/abs/1707.09102) 33 | - [1708.00999] [Extreme Low Resolution Activity Recognition with Multi-Siamese Embedding Learning](https://arxiv.org/abs/1708.00999) 34 | - [1608.01409] [Faster CNNs with Direct Sparse Convolutions and Guided Pruning](https://arxiv.org/abs/1608.01409v5) 35 | - [1606.05316] [Learning Infinite-Layer Networks: Without the Kernel Trick](https://arxiv.org/abs/1606.05316v2) 36 | - [1707.09422] [Hyperprofile-based Computation Offloading for Mobile Edge Networks](https://arxiv.org/abs/1707.09422v1) 37 | - [1705.04630] [Forecasting using incomplete models](https://arxiv.org/abs/1705.04630v2) 38 | - [1707.09068] [Tartan: Accelerating Fully-Connected and Convolutional Layers in Deep Learning Networks by Exploiting Numerical Precision Variability](https://arxiv.org/abs/1707.09068v1) 39 | - [1707.09926] [A Framework for Super-Resolution of Scalable Video via Sparse Reconstruction of Residual Frames](https://arxiv.org/abs/1707.09926v1) 40 | - [1707.09855] [Convolution with Logarithmic Filter Groups for Efficient Shallow CNN](https://arxiv.org/abs/1707.09855v1) 41 | - [1707.09597] [ScanNet: A Fast and Dense Scanning Framework for Metastatic Breast Cancer Detection from Whole-Slide Images](https://arxiv.org/abs/1707.09597v1) 42 | - [ASPLOS’17] [Neurosurgeon: Collaborative intelligence between the cloud and mobile edge](http://web.eecs.umich.edu/~jahausw/publications/kang2017neurosurgeon.pdf) 43 | - [1604.08772] [Towards Conceptual Compression](https://arxiv.org/abs/1604.08772) 44 | - [1608.02893] [Syntactically Informed Text Compression with Recurrent Neural Networks](https://arxiv.org/abs/1608.02893) 45 | - [1608.05148] [Full Resolution Image Compression with Recurrent Neural Networks](https://arxiv.org/abs/1608.05148v2) 46 | - [CVPR2017] [Local Binary Convolutional Neural Networks](http://xujuefei.com/lbcnn.html) [[code]](https://github.com/juefeix/lbcnn.torch) 47 | - [1703.09746] [Coordinating Filters for Faster Deep Neural Networks](https://arxiv.org/abs/1703.09746v3) 48 | - [1707.08005] [Towards Evolutional Compression](https://arxiv.org/abs/1707.08005v1) 49 | - [ICML2017] [Analytical Guarantees on Numerical Precision of Deep Neural Networks](http://proceedings.mlr.press/v70/sakr17a.html) 50 | 51 | ## 开源项目 52 | 53 | **网络压缩** 54 | 55 | - [yonghenglh6/DepthwiseConvolution: A personal mobile convolution implementation on caffe by liuhao.(only GPU)](https://github.com/yonghenglh6/DepthwiseConvolution) 56 | - [liuzhuang13/DenseNet: Densely Connected Convolutional Networks, In CVPR 2017 (Best Paper Award)](https://github.com/liuzhuang13/DenseNet) 57 | - [kevinzakka/DenseNet: PyTorch Implementation of "Densely Connected Convolutional Networks"](https://github.com/kevinzakka/DenseNet) 58 | - [hollance/MobileNet-CoreML: The MobileNet neural network using Apple's new CoreML framework](https://github.com/hollance/MobileNet-CoreML) 59 | - [AngusG/tensorflow-xnor-bnn: BinaryNets in TensorFlow with XNOR GEMM op](https://github.com/AngusG/tensorflow-xnor-bnn)   60 | - [jonathanmarek1/binarynet-tensorflow](https://github.com/jonathanmarek1/binarynet-tensorflow) 61 | - [farmingyard/caffe-mobilenet: A caffe implementation of mobilenet's depthwise convolution layer](https://github.com/farmingyard/caffe-mobilenet)   62 | - [kedartatwawadi/NN_compression](https://github.com/kedartatwawadi/NN_compression) 63 | - [chuanqi305/MobileNet-SSD: Caffe implementation of Google MobileNet SSD detection network, with pretrained weights on VOC0712 and mAP=0.727.](https://github.com/chuanqi305/MobileNet-SSD) 64 | 65 | **性能** 66 | 67 | - [hollance/BNNS-vs-MPSCNN: Compares the speed of Apple's two deep learning frameworks: BNNS and Metal Performance Shaders](https://github.com/hollance/BNNS-vs-MPSCNN) 68 | - [DeepMark/deepmark: THE Deep Learning Benchmarks](https://github.com/DeepMark/deepmark) 69 | 70 | **模型加密** 71 | 72 | - [OpenMined/Syft: Homomorphically Encrypted Deep Learning Library](https://github.com/OpenMined/syft) 73 | 74 | **增强现实** 75 | 76 | - [ProjectDent/ARKit-CoreLocation: Combines the high accuracy of AR with the scale of GPS data](https://github.com/ProjectDent/ARKit-CoreLocation) 77 | - [bjarnel/arkit-tictactoe: Tic-Tac-Toe implemented using ARKit+Scenekit](https://github.com/bjarnel/arkit-tictactoe) 78 | - [arirawr/ARKit-FloorIsLava: Basic ARKit example that detects planes and makes them lava.](https://github.com/arirawr/ARKit-FloorIsLava) 79 | - [exyte/ARTetris: Augmented Reality Tetris made with ARKit and SceneKit](https://github.com/exyte/ARTetris) 80 | - [bjarnel/arkit-portal: Simple portal demo implemented with ARKit+SceneKit, the trick is to change the rendering order and render invisible "masks" to hide what's inside.](https://github.com/bjarnel/arkit-portal) 81 | - [bjarnel/scenekit-tictactoe](https://github.com/bjarnel/scenekit-tictactoe) 82 | 83 | **安卓** 84 | 85 | - [madeye/yolo-android: Quantized Tiny Yolo Demo on Android](https://github.com/madeye/yolo-android) 86 | 87 | **iOS** 88 | 89 | - [kingreza/SeeFood: Inspired by HBO's Silicon Valley: SeeFood is an iOS app that uses CoreML to detect various dishes](https://github.com/kingreza/SeeFood) 90 | - [hollance/TensorFlow-iOS-Example: Source code for my blog post "Getting started with TensorFlow on iOS"](https://github.com/hollance/TensorFlow-iOS-Example) 91 | - [Naituw/CoreMLDemo: Demo for CoreML & Vision Framework](https://github.com/Naituw/CoreMLDemo) 92 | 93 | **模型应用** 94 | 95 | - [msracver/FCIS: Fully Convolutional Instance-aware Semantic Segmentation](https://github.com/msracver/FCIS) 96 | - [bearpaw/PyraNet: Code for "Learning Feature Pyramids for Human Pose Estimation" (ICCV 2017)](https://github.com/bearpaw/PyraNet) 97 | - [aquaviter/iot-demo-mxnet-greengrass](https://github.com/aquaviter/iot-demo-mxnet-greengrass) 98 | - [bearpaw/PyraNet: Code for "Learning Feature Pyramids for Human Pose Estimation" (ICCV 2017)](https://github.com/bearpaw/PyraNet) 99 | - [CongWeilin/mtcnn-caffe: Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Neural Networks](https://github.com/CongWeilin/mtcnn-caffe)   100 | - [foreverYoungGitHub/MTCNN: Repository for "Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Neural Networks", implemented with Caffe, C++ interface.](https://github.com/foreverYoungGitHub/MTCNN) 101 | - [OAID/mtcnn: C++ project to implement MTCNN, a perfect face detect algorithm, on different DL frameworks. The most popular frameworks: caffe/mxnet/tensorflow, are all suppported now](https://github.com/oaid/mtcnn) 102 | - [Seanlinx/mtcnn: this repository is the implementation of MTCNN in MXnet](https://github.com/Seanlinx/mtcnn) 103 | - [LaoDar/cnn_head_pose_estimator: a simple and fast mxnet version CNN based head pose estimator](https://github.com/LaoDar/cnn_head_pose_estimator) 104 | 105 | **加速库/框架**  106 | 107 | - [Darknet with NNPACK: NNPACK was used to optimize Darknet without using a GPU. It is useful for embedded devices using ARM CPUs](https://github.com/thomaspark-pkj/darknet-nnpack)   108 | - [naibaf7/libdnn: Greentea LibDNN - a universal convolution implementation supporting CUDA and OpenCL](https://github.com/naibaf7/libdnn) 109 | - [blei-lab/edward: A library for probabilistic modeling, inference, and criticism. Deep generative models, variational inference. Runs on TensorFlow](https://github.com/blei-lab/edward) 110 | - [dmlc/nnvm-fusion: Kernel Fusion and Runtime Compilation Based on NNVM](https://github.com/dmlc/nnvm-fusion) 111 | 112 | **音频图像视频处理** 113 | 114 | - [MTG/essentia: C++ library for audio and music analysis, description and synthesis, including Python bindings](https://github.com/MTG/essentia) 115 | - [Pili-完美直播体验(Pili Streaming Cloud)](https://github.com/pili-engineering)   116 | - [pili-engineering/PLDroidMediaStreaming: PLDroidMediaStreaming 是 Pili 直播 SDK 的 Android 推流端,支持 RTMP 推流,h.264 和 AAC 编码,硬编、软编支持。具有丰富的数据和状态回调,方便用户根据自己的业务定制化开发。具有直播场景下的重要功能,如:美颜、背景音乐、水印等功能。PLDroidMediaStreaming 是现在目前重点维护的版本,自带采集模块也支持用户自己做采集端。](https://github.com/pili-engineering/PLDroidMediaStreaming) 117 | - [pili-engineering/PLDroidShortVideo: PLDroidShortVideo 是七牛推出的一款适用于 Android 平台的短视频 SDK,提供了包括美颜、滤镜、水印、断点录制、分段回删、视频编辑、混音特效、本地/云端存储在内的多种功能,支持高度定制以及二次开发。](https://github.com/pili-engineering/PLDroidShortVideo) 118 | - [pili-engineering/PLDroidPlayer: PLDroidPlayer 是 Pili 直播 SDK 的安卓播放器。支持所有直播常用的格式,如:RTMP、HLS、FLV。拥有优秀的功能和特性,如:首屏秒开、追帧优化、丰富的数据和状态回调、硬解软解支持。而且可以根据自己的业务进行高度定制化开发。](https://github.com/pili-engineering/PLDroidPlayer) 119 | - [pili-engineering/PLMediaStreamingKit: PLMediaStreamingKit 是 Pili 直播 SDK 的 iOS 推流端,支持 RTMP 推流,h.264 和 AAC 编码,硬编、软编支持。具有丰富的数据和状态回调,方便用户根据自己的业务定制化开发。具有直播场景下的重要功能,如:美颜、背景音乐、水印等功能。](https://github.com/pili-engineering/PLMediaStreamingKit) 120 | - [pili-engineering/PLShortVideoKit: PLShortVideoKit 是七牛推出的一款适用于 iOS 平台的短视频 SDK,提供了包括美颜、滤镜、水印、断点录制、分段回删、视频编辑、混音特效、本地/云端存储在内的多种功能,支持高度定制以及二次开发。](https://github.com/pili-engineering/PLShortVideoKit) 121 | - [pili-engineering/PLPlayerKit: PLPlayerKit 是 Pili 直播 SDK 的 iOS 播放器。支持所有直播常用的格式,如:RTMP、HLS、FLV。拥有优秀的功能和特性,如:首屏秒开、追帧优化、丰富的数据和状态回调、硬解软解支持。而且可以根据自己的业务进行高度定制化开发。](https://github.com/pili-engineering/PLPlayerKit) 122 | - [pili-engineering/PLPlayerKit: PLPlayerKit 是 Pili 直播 SDK 的 iOS 播放器。支持所有直播常用的格式,如:RTMP、HLS、FLV。拥有优秀的功能和特性,如:首屏秒开、追帧优化、丰富的数据和状态回调、硬解软解支持。而且可以根据自己的业务进行高度定制化开发。](https://github.com/pili-engineering/PLPlayerKit) 123 | 124 | **其它** 125 | 126 | - [facebook/fb-caffe-exts: Some handy utility libraries and tools for the Caffe deep learning framework.](https://github.com/facebook/fb-caffe-exts) 127 | - [Samsung/iotjs: Platform for Internet of Things with JavaScript](http://www.iotjs.net) [code](https://github.com/Samsung/iotjs) 128 | - [hollance/Forge: A neural network toolkit for Metal](https://github.com/hollance/Forge) 129 | - [christopher5106/FastAnnotationTool: A tool using OpenCV to annotate images for image classification, optical character reading, etc.](https://github.com/christopher5106/FastAnnotationTool)   130 | - [raphui/rnk: rnk is a RTOS targeting ARM architecture.](https://github.com/raphui/rnk) 131 | 132 | ## 数据集 133 | 134 | - [HandNet - A dataset of depth images of hands](http://www.cs.technion.ac.il/~twerd/HandNet/) 135 | 136 | 137 | ## 博文/教程 138 | 139 | - [Tutorial on Hardware Architectures for Deep Neural Networks | MIT MICRO-50](http://eyeriss.mit.edu/tutorial.html) 140 | - [基于mtcnn和facenet的实时人脸检测与识别系统开发 | 知乎专栏](https://zhuanlan.zhihu.com/p/25025596?refer=shanren7) 141 | - [Creating insanely fast image classifiers with MobileNet in TensorFlow | HACKERNOON](https://hackernoon.com/creating-insanely-fast-image-classifiers-with-mobilenet-in-tensorflow-f030ce0a2991) 142 | - [How to squeeze the most from your training data | KDNUGGETS](http://www.kdnuggets.com/2017/07/squeeze-most-from-training-data.html) 143 | - [Ubuntu16.04腾讯NCNN框架入门到应用 | CSDN](http://blog.csdn.net/Best_Coder/article/details/76201275) 144 | - [Building Cross-Platform CUDA Applications with CMake | NVIDIA](https://devblogs.nvidia.com/parallelforall/building-cuda-applications-cmake/?_lrsc=dca4b9d4-7747-48e0-b9a0-961aba39a657&ncid=so-twi-lt-799) 145 | - [Caffe2 Bay Area Meetup (5/31/2017) | YouTube](https://www.youtube.com/playlist?list=PLD5D5H5YL9SIjxj3IC019AprtgJAjIU3q) 146 | 147 | ---- 148 | 149 | Editor: 张先轶、袁帅 150 | 151 | ---- 152 | 153 | 知识共享许可协议
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。 154 | --------------------------------------------------------------------------------