162. 网络的重参数化

A+A-

    马斯克的主要商业图是汽车与火箭这样的重工业,其实原本与这个时间点的人工智能关系没有那么大。

    不过他个人的确是想法极其前沿又激进的一个人,造普通的车可不是他的风格。

    特斯拉不仅要带电,还要带自动驾驶!

    不仅如此,面对孟繁岐在视觉算法上的接连突破,他有一个大胆的想法。

    那就是希望为自己的特斯拉电车产业打造一个纯计算视觉系统,而不借助其他技术段。

    这是导致他此次再次来寻找孟繁岐,追求技术突破的主要原因。

    個人来,他其实已经对上次的结果非常满意了,只不过他给自己的目标定的太高,想要完成这还远远不够。

    自动驾驶在深度学习发展起来之前就已经有了一些不错的成果,不过那些内容都是基于雷达和传感器居多。

    主要通过激光雷达或者其他传感器来检测物体,以及这些物体距离车辆的距离。

    不过马斯克觉得,这与人类操作车辆的方式不大一样,太不酷了。

    想想人类是怎么开车的?

    一个人在驾驶汽车的时候,基本上就是纯视觉的,只靠看就能驾驶。车辆上那些镜,主要就是为了方便人看到周围和后面。

    可能偶尔有一些听觉的辅助效果,比如鸣笛,不过不是特别关键。主要还是视觉系统在起到作用。

    马斯克称之为第一原理思维,他希望做出的智能系统完全按照人类的逻辑去驾驶车辆,而不是借助传感器,毕竟人类可没有这样的超能力。

    但是视觉系统完全是基于大量的相的,非常依赖高精度的检测算法,这就会带来很多的问题。

    如果检测到的东西数据集中没有见过怎么办?那还能检测到吗?

    基于激光雷达的传感器办法,不管碰到什么,总是可以检测到粒子和物体,它的原理像不像人类不,至少不那么容易直接撞上去。

    纯依靠视觉的智能系统那可就不好了,必须先用络处理图像,然后加以分析。

    一旦分析出错,出现了误判,那是必撞无疑,肯定会发生车辆事故,一头创死在上面。

    ()(e)  马斯克激进的技术策略和喜好导致了一个问题,那就是人工智能算法要做的事情太多了。

    想要完全弃用传感器,那四面八方都得安装车载摄像头才行,才能保证前后左右都看得清楚。

    此外,还有一个重要的事情,那就是距离的估计。

    对于人类来,根据一张图片去判断其中距离的远近,实在太过容易,可这对人工智能视觉算法来,不是一件容易的事情。

    以现在的技术条件,需要进行非常复杂的标注,去分析样例图片中各个部位和像素的距离远近。

    因为图片毕竟是2d平面的,而自动驾驶是一个需要掌握好空间距离的任务。

    通过大量不同角度的平面图片,来重构一个三维的空间,甚至鸟瞰视角的三维空间是必要的。

    不过现在这还只是空中楼阁,马斯克再次联系孟繁岐的来意非常简单,就是希望这个作为骨干的神经络可以再快一点,或者计算量再一点。

    否则以目前的情况看,特斯拉很难负担得起这个运算量。

    实际上,马斯克没有对这件事情抱有特别大的希望。在他看来,孟繁岐上次给出的方案已经好到非常离谱了。

    在这个大家才刚开始复现dre,还没把残差的原理和一些变种搞明白的时间点,孟繁岐已经针对各种不同平台的其他运算设备,做了相当多的实验。

    从而通过优化算子结构,调整特定计算过程的方式,将这个核心的骨干络参数量减少了接近十倍。

    运算快了这么多,性能却没什么变化,这已经非常不得了了。

    马斯克有这一问,也是私下里的随口一提。

    但他名头太大,以往自己做的事情又太疯狂,导致孟繁岐听着他那颇为低沉,有磁性的声音之时,当了真。

    还真以为这是个非常严肃认真的需求。

    “自动驾驶的热度确实也快起来了,我专门针对这方面做点优化工作,也不算亏。”

    孟繁岐一边利用着重生优势开始抄底一些车企的股票,一边开始着实现一个巧妙的加速并且节省内存的方式。

    ()(e)  这个新的优化办法叫做络结构的重参数化。

    这半年来,视觉方法性能的突飞猛进来自于孟繁岐提出的残差方法,也就是将y=f()变为y=f()+。

    这里的写法比较简便,将一系列复杂的操作,抽象归纳为f(),在实际运算过程中,这个f()还是比较复杂的,往往需要算上好一会。

    但在计算的时候,就有一个问题了,原本y=f()运算开始的时候,就不再需要继续存储这个变量了,因为它已经在参与f()的运算。

    在运算过程当中,它会变成其他的中间变量,然后最终变为我们所想要的y。

    可在残差办法当中,y=f()+,这个原始的输入,是不能够舍弃的。

    必须有空间一直被占用着,用来存放这个,因为它还等着最后加上去呢。

    在比较复杂,分辨率比较高的任务当中,这个变量的大是相当可观的。

    这种情况有没有办法可以规避?规避之后,残差方法带来的性能提升能不能不要被影响?

    答案当然是肯定的,完全可以做到。

    孟繁岐准备实现的这种结构重参数化,其最核心的思想就是模型训练和实际使用推理的分离。

    首先构造一系列结构(一般用于训练),并将其参数等价转换为另一组参数(一般用于推理),从而将这一系列结构等价转换为另一系列结构。

    在现实场景中,训练资源一般是非常丰富的,可以在大型的服务器上得到。

    而推理的时候,计算资源往往会比较有限,因此大家更在意的是推理时的开销和性能。

    想要训练时的结构较大,具备好的某种性质,比如性能特别好,准确率特别高。

    但在推理的时候,则把结构变变快,同时在数学上等价于大型的结构。

    孟繁岐的这个新办法,就提供了这种可能,他相信,重参数+移动端络的算力削减,将会成为自动驾驶领域的一大催化剂。