功能描述:
机器学习全靠调参?这个思路已经过时了。
谷歌大脑团队发布了一项新研究:
只靠神经网络架构搜索出的网络,不训练,不调参,就能直接执行任务。
这样的网络叫做WANN,权重不可知神经网络。
它在MNIST数字分类任务上,未经训练和权重调整,就达到了92%的准确率,和训练后的线性分类器表现相当。
除了监督学习,WANN还能胜任许多强化学习任务。
团队成员之一的大佬David Ha,把成果发上了推特,已经获得了1300多赞:
第一项任务,Cart-Pole Swing-Up。
这是经典的控制任务,一条滑轨,一台小车,车上一根杆子。
小车在滑轨的范围里跑,要把杆子从自然下垂的状态摇上来,保持在直立的位置不掉下来。
(这个任务比单纯的Cart-Pole要难一些:
Cart-Pole杆子的初始位置就是向上直立,不需要小车把它摇上来,只要保持就可以。)
难度体现在,没有办法用线性控制器 (Linear Controller) 来解决。每一个时间步的奖励,都是基于小车到滑轨一头的距离,以及杆子摆动的角度。
WANN的最佳网络 (Champion Network) 长这样:

第二项任务,Bipedal Waker-v2
一只两足“生物”,要在随机生成的道路上往前走,越过凸起,跨过陷坑。奖励多少,就看它从出发到挂掉走了多长的路,以及电机扭矩的成本 (为了鼓励高效运动) 。
每条腿的运动,都是由一个髋关节、和一个膝关节来控制的。有24个输入,会指导它的运动:包括“激光雷达”探测的前方地形数据,本体感受到的关节运动速度等等。
比起第一项任务中的低维输入,这里可能的网络连接就更多样了:
所以,需要WANN对从输入到输出的布线方式,有所选择。
这个高维任务,WANN也优质完成了。
你看,这是搜索出的最佳架构,比刚才的低维任务复杂了许多:

第三项任务,CarRacing-v0。
这是一个自上而下的 (Top-Down) 、像素环境里的赛车游戏。
一辆车,由三个连续命令来控制:油门、转向、制动。目标是在规定的时间里,经过尽可能多的砖块。赛道是随机生成的。
研究人员把解释每个像素 (Pixel Interpretation) 的工作交给了一个预训练的变分自编码器 (VAE) ,它可以把像素表征压缩到16个潜在维度。
这16维就是网络输入的维度。学到的特征是用来检测WANN学习抽象关联 (Abstract Associations) 的能力,而不是编码不同输入之间显式的几何关系。
这是WANN最佳网络,在-1.4共享权重下、未经训练的赛车成果:

1、创建初始的最小神经网络拓扑群。
2、通过多个rollout评估每个网络,并对每个rollout分配不同的共享权重值。
3、根据性能和复杂程度对网络进行排序。
4、根据排名最高的网络拓扑来创建新的群,通过竞争结果进行概率性的选择。
然后,算法从第2步开始重复,在连续迭代中,产生复杂度逐渐增加的权重不可知拓扑(weight agnostic topologies )。
|