新智元专栏
作者:JimFan(范麟熙)
NIPS是一届不平凡的会议,DeepMind、FB、英伟达、BATJ为了招人使出了浑身解数,但各家公司展示自己的思路各有不同。李飞飞、哈萨比斯、IanGoodfellow等大牛做了哪些分享?MichealJordan还在现场击鼓助兴?斯坦福大学博士生、师从李飞飞教授的JimFan(范麟熙)全程参与了本届NIPS所有主要的活动和讲座,带来他的第一手观察和体验。
我现在在斯坦福大学攻读人工智能博士,师从斯坦福人工智能实验室主任、现谷歌云首席科学家李飞飞教授。这是我第一次参加NIPS会议。今年的NIPS不仅热度上达到历史峰值,内容和活动上也异常精彩。NIPS上听到的演讲和遇到的人物,很多都和我研究人工智能的心路历程直接相关,所以有不少“相见如故”和“感慨万千”的瞬间和大家分享。
我第一天一早6点45分就到会场门外了,排在签到队伍的第一个,没想到转身一看,紧接着排在我后面的居然是YoshuaBengio大神。我之前就听说了他老人家晚睡早起的习惯,果然名不虚传。
NIPS学术讲座:与7位大神面对面
EmmaBrunskill:如何把强化学习与人相结合NIPS的第一天,我全程参加了tutorialsessions。早上8点第一场tutorial是我们斯坦福的教授EmmaBrunskill主讲的,题为《ReinforcementLearningforthepeopleandbythepeople》。这个标题巧妙地借用了美国总统林肯在葛底斯堡演讲里的一句名言“Governmentofthepeople,bythepeople,forthepeople,shallnotperishfromtheEarth.”
Emma和我在斯坦福一起合作过一个元学习(meta-learning)的项目。她在强化学习(RL)的理论上有很深的功底,她参与的很多篇论文里都含有大量的收敛性证明。DeepMind把最新的深度学习技术和古老的强化学习算法结合在一起之后,大家把RL也做成了“炼金术”。像Emma这样严谨的数学证明也是越来越少了。
回到Emma的讲座内容:如何把人和强化学习有机结合呢?
Emma提到了自己在教育学方面的一些研究,比如把学生作为RL环境的一部分。在这个环境里,RL智能体就是“虚拟老师”,它根据学生的学习情况,自动设计下一个教程里应该引进哪些知识点,既不能太容易,也不能远远超过学生的能力范围。智能体获得的奖励(rewardsignal)就是学生的考试成绩等客观指标。
在教育学里的RL和在Atari电子游戏里的RL有非常大的区别。电子游戏相当于一个高速模拟器,你可以在短短几分钟里玩上百局,几乎没有成本地获得大量的训练数据。但是,牵涉到人的话就要复杂很多。一个学生可能在几个月之后才会有明显的进步,这就意味着每一次实验的反馈周期非常长。如果盲目地套用Atari游戏上的RL算法,可能要几十年的时间才能训练一个算法,这是不现实的。Emma的讲座重点讨论了各种提高采样效率(sampleefficiency)的方法,以及在没有现成数据的场景下如何做出有意义的推断(counterfactualreasoning)。
RL和人的结合虽然困难重重,但同时也有很大的机遇。因为人工智能终究是为人类服务的,算法和人的互动将会是未来一个越来越重要的课题。
李飞飞教授:计算机视觉在医疗上的应用和前景这次很遗憾没能挤进自己导师的讲座专场,只能站在门口踮着脚尖观望。我稍微晚了一点点,整个大厅摩肩接踵,不仅座无虚席、还几乎站无虚席。当天没有第二场讲座有如此盛况的。
飞飞老师的演讲主题是人工智能和计算机视觉在医疗上的应用以及未来的前景。
DemisHassabis:AlphaZero和“鳕鱼”引擎的传奇DeepMind联合创始人DemisHassabis自从年3月的AlphaGo比赛之后,就一跃成为人工智能届的天王巨星。DeepMind掐准了时间,在NIPS期间发表了“AlphaZero”的最新论文。AlphaZero没有任何专门为围棋设计的组件,它能原封不动直接应用于任何完备信息(白癜风应该怎么样治疗北京治疗白癜风要多少费用