NVIDIA张建中:深度学习改变汽车未来

正文
我来说两句(人参与)

2015年07月06日13:28

来源：搜狐汽车作者：钛媒体

关闭

钛媒体、商业价值联合主办的第五届"MIIC移动互联网创新大会"如期举行。2015 MIIC大会主题是：新生代，万物生，以"新生"为豪；天地变，邀"新生"为宴。连续举办五届的MIIC在过去五年中见证了中国互联网业的高速成长和天翻地覆的变化。

关于汽车未来的形态，无论是汽车厂商还是心片厂商都在一直探索，本次MIIC大会上NVIDIA全球副总裁兼中国区总经理张建中则是从GPU发展的角度阐述了深度学习对智能汽车未来发展的影响。

他首先表示，智能产品本身不是很难的事情，智能产品的智商高低才是最难办到的，这和人类一样，高智商也是需要通过后期不断的学习、训练积累起来的，这一点在所有智能物联网产品中都适用。

由于NVIDIA是GPU起家的公司，图形渲染是强项。而未来，GPU技术的突飞猛进，最大的受益者就是深度学习领域，更快的图形识别速度和先进算法会让计算机识别更多的物体，机器也会不停的学习现实生活中的图片。

张建中认为"无人驾驶技术说到底就是深度学习"，自动驾驶或者无人驾驶，需要的精度都非常高，其中第一个条件是必须得懂路上发生的状况，一定要能看得懂、看得明白，然后思考决定要干什么，人们才可以采取各种不同的决策，深度学习可以让汽车就能做到这一点。

由于深度学习需要足够多的数据、足够长的时间训练，所以下一代GPU的学习能力也将越来越强大，当强大的计算能力和强大的云计算能力结合在一起时，可以变成强大的智慧大脑。

以下为张建中演讲全文，经钛媒体编辑：

智能设备为何需要慢慢"培养"智商？
我接下来想跟大家讲的题目是"Deep Learning enable self driving"。王博士刚才介绍了一个最关键的关键词，在很多互联网技术的基础架构设施上，很多创新除了离不开好的商业模式和好的想法之外，其实最核心的是智能，智能本身不是很难的事情，智商的高低是很难的事情，每个人都有智慧，地球上有70亿人口，但是，很少有人绝顶聪明，他们的智商非常非常高，这些高智商的人群是不是天生就有那么高的智商呢？是通过学习才可以积累积累知识的。

今天，在新的智能化时代，我们就要有一个新的方式，怎么样武装我们的智能设备，让它通过学习方式不停的积累知识，然后达到高智商的智能设备。

我们都知道，现在智能设备当中目前最火的一个产品是汽车，如何让汽车变得更加智能？让汽车能够做到以前我们想象中汽车做不了的事情？今天我想谈的题目是深度学习的帮助，让汽车能够更加智能化。

之前播放一段小视频，今天利用了NVIDIA最新的移动处理器之后，奔驰在路上的汽车大概已经有750万辆。把德国和美国的汽车做了广告，这些都是主要的全球合作伙伴，在汽车设计当中，他们已经考虑到未来的汽车实际上在整车里面至少有10个屏幕。今天很多汽车可能就在中控位置有一个大屏幕，实际上几乎汽车每一个角落都是一个屏幕，反光镜就是个屏幕，中控两边的仪表盘是屏幕，3D导航中央是个屏幕，后排两个座椅是屏幕，后排中控也是屏幕，两边窗户也是屏幕。

如果一辆智能汽车几乎每一个地方都是显示，每个地方都可以Touch的话，汽车跟你的互动通过无数只眼睛和感官与每个人互动，机器跟人互动的黏结性非常非常强，要做好的话，汽车里要装有无限大计算能量的超级计算机，汽车跟手机不太一样，如果操控那么多显示装备，考虑到摄像机和镜头不同传感器的话，整个汽车几乎就是一个超级计算及。

我们设计的汽车基本从两端开始：一个是前端的INFORTAINMENT+SELF DRIVE，还有一个自动驾驶系统。把这两个机器结合在一起的时候，能够解决汽车和人之间互动的方方面面。

我们了解一下计算机怎么样改变今天传统的机械化仪表盘，用CS之后，电脑操控今天的仪表盘，仪表盘只是一个屏幕，显示的仪表盘看起来像真正的仪表盘，感官看到的仪表盘和实际使用当中的一模一样，中间的导航系统可以直接做到3D导航，很多人走路的时候，开车有立交桥、街道、楼房，这些都是3D立体的，有上有下，如果只是平面导航，对于很多司机来讲，使用起来很不方便，一定要有3D导航。

如果看仪表盘的话，智能化时代，每个人手机天天换皮肤，司机也不希望仪表盘每天都一样，可以由金属感，可以由木纹感，可以是石头、水晶等等，可以选择自己的材质库。NVIDIA是GPU起家公司，图形渲染是强项，可以描述生活当中各种各样品质的材料，然后把这些材料应用到汽车中。今后你的汽车可以出现不同材质的仪表盘，甚至可以每天根据自己的心情更换仪表。

对于整个计算机来讲，做这些渲染非常简单。可是，对于一辆汽车来说，如何增加它的智能，让它能够实现或者完成一些我们以前想让它做它做不了的事情？

深度学习技术的进步得益于GPU性能提升
今年在全球有一个非常大的突破，叫做深度学习，之前一提到人工智能，绝大部分人都会做图形、图像、语音识别，要达到准确度很高的话或者接近于人的眼睛看到的图像识别能力的话是非常困难的。

每年3月份，我们在硅谷举办GPU研发大会，在会上谷歌利用GPU把GPU图形、图像识别能力提升到很高的水平，同时谷歌、百度包括香港中文大学很多教授和科研人员利用GPU在图形识别大赛上把计算机图形识别能力和准确度提高到超过人眼，达到99.5%，最新的研究成果会更高。

如果这些研究成果不停的提升，已经超过人类的话，我们可以想象一下计算机对于图形、图像识别能力在今后一段时间还有更多的提升空间，所有这些人的科研成果都基于同一个概念，用深度学习的方法让计算机识别更多的物体。大概有几百万个图形库，对于现实生活中各种各样图形物体，计算机能够准确的识别出来，而且准确度很高，非常难得，有些人的照片，我们自己可能都不能够认识，比如你们的同学，你拿回照片的时候，计算机能够把从小到大的照片认识出来，这是非常困难的。

我们都知道，正是因为深度学习的方法改变了我们以前的科研方式，就需要大量的并行计算，这就是今天GPU带来的好处，如果没有GPU，深度学习是无从谈起的，正是因为GPU发展非常快，用计算机渲染模型时候，时间大大缩短了，原理非常简单，比如通过图形怎么识别一辆车辆？首先，有几个步骤，每一步透过不同的层次能够识别汽车的线条，从线条开始识别形状，然后再从形状看它的整体，每一层过后，就能判断这辆车是什么车，是不是奥迪A7。

汽车通过不断训练学习将"懂得更多知识"
互联网时代，是信息爆炸的时代，也是大数据的时代，所有人的照片、所有物体的照片形形色色、千千万万，当收集到图片之后，模型可以得到非常准确的结果，再把图片放进互联网，机器很容易识别出物体是什么。今天所有互联网公司都在关注图形图像识别，所有公司的算法都会通过深度学习的方式让机器不停的学习现实生活中的图片。

比如汽车，透过深度学习可以在马路上看到很多很多标志，它可以识别路上发生的状况，以及是否有行人，都可以识别出来。如果每天在路上开车，交通标识里认识，行人你认识，限行标志你都认识，基本可以遵守交通规则了。认识这些车辆、认识图片当中所有物体，准确度非常重要，如果把一个行人忽略了，就产生很大的交通事故，对准确度的要求非常高。

除了白天之外，晚上还要认识，不能把路灯跟交通灯混为一谈，不能把刹车灯和信号灯混在一起等等，有很多训练过程让你的汽车能够更加智能化的认识每一个物体。刚才那辆汽车是在街道上行驶的识别准确度几乎百分之百。除此之外，还可以识别是什么车，是不是警车，是消防车，还是卡车或出租车，可以判断驾驶行为。通过这些认识，汽车就可以有自己的思维方式。

要想做自动驾驶或者无人驾驶，其中第一个条件是必须得懂路上发生的状况，一定要能看得懂、看得明白，然后思考决定要干什么，人民才可以采取各种不同的驾驶决策，是前进、刹车、并线等等。如果假设汽车能够有很强的自学生能力，能力不停的提高能力的话，一天比一天聪明，智商越来越高，采取的决策也会越来越好。在今天，人的驾驶行为不结果，产生的结果也不一样，开车也是一样道理，有的人开车起步比较快，有的人可能比较稳妥，但是，如果自动驾驶的汽车，怎么样采取合适的行为，让它在合法的情况之下能够最大限度的保护自己的安全，也能够保护别人的安全，这才是驾驶行为的学习过程。

把所有行为学习方式应用到汽车上，下一步的汽车应该比我们自己开的还要好，那时候才叫真正的无人驾驶。如果在汽车周边装上很多不同的设施，包括雷达、激光传感器等，汽车会比人看的更多，我们驾车有盲区，汽车没有盲区，比人采取的决策更加聪明。

如果想把汽车做的更好，在美国，我们跟其他公司合作，通过机器让它自动学习驾驶行为，改变汽车每一天的行为，通过几百张或者几万张图片训练之后，汽车可以有自己的能力。在GPU深度学习算法当中，图像识别之前，没有GPU应用之前，准确度大概在50%左右，通过很多努力，可以做到70%。有了深度学习之后，准确率提高到90%，现在会越来越高。我们都知道，只有准确度高了之后，才能训练，不然训练的图片每次都不认识物体是什么的话，学习结果是很差的。

我们可以看一个例子，汽车装上NVIDIA处理器，如果开出去，必须很智能化的知道哪些地方能开、哪些地方不能开，以及没有路的话怎么找出一条路，训练结果是蛮好的，经过20多万张照片训练之后，能够从起点顺利从夹缝中开出去。我们训练的图片有22.5万张，可以看出没训练时候的效果，碰到障碍物，直接撞上了，因为不知道能不能过去，训练时要告诉他哪个能过、哪个不能过，时间久了以后，就知道哪个能过、哪个不能过。

如果训练图片不够多的时候，训练到5万多张图片时候，其实效果已经蛮不错了，可以顺利地走，但是有些地方会误判，因为它以为这个杆可以过去，实际上车比较小，过不去，数据不够的时候，会有很多误差，还不能够保证100%的准确。直到训练到22.5万张图片之后，效果已经非常棒，能够顺利的走出后院。

每一个地方的训练结果可能不一样，对于每一个应用场景来说，需要的精度也不一样，在无人驾驶当中，需要的精度都是很高的，千万不能误判，如果有任何误判，造成的损失可能是非常巨大的，一定要有足够多的数据、足够长的时间训练，能够在不同国家、不同地区训练之后才能上市。

下一代GPU强大的学习能力可应用到更多领域的深度学习
在今天的研发当中，有很多机会做更多的试验，各个领域当中，也可以利用深度学习做各种不同行业的学习，比如互联网搜索，互联网搜索有语音识别，我们都知道，在中国每个人的口音非常不一样，估计一万个人讲话，一万个人都不一样，你要训练的话，要有足够大的数据量才能够保证训练的模型能够适应所有人。在中国有一个比较好的好处，几乎人人都有手机，利用训练模型，就可以不停的学习，通过深度学习模式，可以不停的修正模型，不停的迭代模型，让研究成果得到广泛使用。

在其它地方也一样，人脸识别是最简单的，在传统模式识别情况下，准确度非常低，通过大数据，用深度学习方式研究的时候，人脸识别准确度已经非常高了，包括智能手机上人脸识别的App，识别准确度已经做到非常高了。所有的深度学习的方式在未来的应用当中，随着芯片性能的提升，学习能力也在不停的提升，应用也会越来越广泛。

下一代芯片，大概可以提升几千倍运算速度，下一代GPU学习能力越来越强大，GPU性能发展非常快，强大的计算能力和强大的云计算能力结合在一起，就可以变成强大的智慧大脑，可能很多人都在谈自己的云计算计划，很多人都想通过不同方式建立自己的云计算中心，如果计算能力足够强大，GPU运行速度足够快，实行人工智能的时代就会非常快。我们希望通过NVIDIA GPU强大的计算能力和深度学习方式能够让整个行业产生巨大变化，也希望深度学习成果能够帮助所有行业、所有企业在新的互联网时代、新的智能化时代让我们的产品、服务和用户更加满意。

主持人：谢谢！很小的细节往前走的时候可以看到非常多的细节，平常可能是没有机会这么早感受到这么细致的环节。在整个上墙过程中，大家有很多疑问，我总结了一下，通过深度学习提升自动驾驶的能力，我们都很期待。但整个人类有两个共同棘手的问题，一个问题是女司机的问题，女司机的问题好象深度学习也没法解决，当女司机每天在计算机系统里处理那么多信息时候，会不会使得自动驾驶更乱了？第二个问题，很多不守交通规则、乱过马路、也不知道从哪个就出来一个老头、老太太，自行车驾驶习惯也不好，面对非常复杂的路况，通过语音搜索这样的训练都无法解决的问题，您觉得英伟达能解决吗？

张建中：我觉得你讲的题目非常好，之所以要做深度学习，解决的问题就是不想按照规则走，如果制定好一个规则，靠左行驶，靠右行驶，这样就变成一个程序了，汽车变成程序的话，基本不能说路，尤其在中国，几乎每天都有不守交通规则的人出现，汽车几乎不能开。深度学习的结果是什么呢？

刚才我们看到了在后院走的情况，其实没有路，他怎么知道能够走哪条路，这是深度学习的内容，他会学习很多司机的驾驶行为，在中国，绝大多数司机驾驶行为是正确的，可能少数人的驾驶行为是错误的，有人甚至把它教坏，如果每天教坏的行为，最后结果可能是上街到处撞，这是很差的结果，中国99%的司机都是好司机，如果99%司机都变成坏司机的话，训练结果是可想而知的，我们也没法开车了。

跟我们训练一个小孩子是一样的道理，父母培养的小孩长大之后跟父母的行为几乎是一样的，这些是机器学习简单的方式和理念。不要看成已经有一定的学习规则，是学习当中掌握的，并不是某个人设定的，这就是深度学习和平时计算机程序最大的差别。（钛媒体编辑李玉鹏根据张建中在MIIC2015上的演讲整理）

(责任编辑：温晓薇)