李航,字节跳动人工智能实验室总监整理
夕颜一阵凉风吹过人工智能,让这个曾是燥热的领域逐渐冷却下来,留下的是扎实地在做研究的人、机构、企业。先后在NEC公司中央研究所、微软亚洲研究院、华为诺亚方舟实验室从事和领导AI技术研发,现任字节跳动人工智能实验室总监的李航,就是一位AI技术的坚实研究者和实践者。从年起,李航参与组织了字节跳动ByteCamp训练营活动。年8月24-30日,字节跳动ByteCamp夏令营将在北京正式开营。本届夏令营,来自全球各大高校的名同学,经过笔试和面试几个环节,从名报名者中脱颖而出,将在北京接受来自全球的学术界专家、工业界大咖亲自授课,并进行项目实践。李航除了将在夏令营中亲自授课之外,还通过自己的人脉关系,邀请到了包括年图灵奖获得者、深度学习三巨头之一YoshuaBengio,艾伦人工智能研究所CEO、AAAIFellowOrenEtzioni等在内的国内外知名专家来授课。夏令营开营前夕,在字节跳动的一间会议室,笔者第一次见到这位卓有建树的AI技术研究者和实践者。关于李航的严谨和认真笔者早有耳闻,而在这次会面中,笔者才真正领会了他的学者风范。让笔者欣喜的是,李航非常友善且健谈,从早年的研究经历到最近的新书《统计学习方法》第二版,再到对机器学习热门技术的看法及对未来人工智能的展望,相关问题他都一一做了详尽的回答。初遇“机器学习”,也曾有过怀疑从事AI研究30多年,目前李航作为字节跳动人工智能实验室总监,负责领导AI技术基础研究和产品落地,主要集中在搜索、推荐、对话、问答、教育几个领域。目前,李航投入主要的精力在产品研发上,但仍有一些精力放在基础研究上。例如在搜索领域,李航表示他们今年发表了一篇关于排序学习的论文,提出使用点击数据训练搜索排序模型的新方法。因为点击数据会有偏差,这个方法能自动做纠偏同时学习排序模型,在搜索中很有效。据悉,这项成果已经用到了字节跳动的搜索引擎中。这项技术的成功为搜索引擎变成一个自学习的系统迈出了重要一步。在字节跳动,李航的主攻方向还是自然语言处理、信息检索、数据挖掘,认为学术和落地两者的结合至关重要。他认为,把研究的成果应用到产品,解决实际问题,同时把具有普世意义的成果,作为学术论文发表,在计算机领域这样的工作很有价值。因此,他表示将不断推动产品开发和学术研究,同时做好两者之间的平衡。对李航的现状有所了解之后,我们不妨来了解一下,当初是什么样的契机,让他走上了AI研究的道路并一直坚持到现在。相信这会让有意进入该领域,但是对于未来职业和人生规划感到迷茫的年轻人受益匪浅。1、京都大学留学开始“AI”生涯李航回忆道,他最初与AI“结缘”,是年,在日本京都大学留学的本科时期。当时,他最早做的两个工作都是文本生成相关的。然而,彼时的主流技术并不是机器学习,而是基于规则的方法。读本科时,李航做了一个叫做SystemGrammar(系统文法)的语言学框架,用它进行中文生成;硕士期间,他研发了一个能够根据不同需求生成多样表达的系统。但值得一提的是,这两个项目中使用的都是基于规则的方法。他回忆道,其实到90年代初,机器学习才进入到自然语言等领域,或者说在这些领域产生更大的影响,逐渐变成主流技术。但当李航开始进入这个行业时,状况并不是这样,他也未曾想到,机器学习后来会给AI带来翻天覆地的变化。回首90年代初开始接触机器学习时的经历,李航坦诚当时内心也有过一些怀疑,因为人的语言理解和生成机制与机器学习是完全不同,当时整个业界都认为应该基于规则建立认知模型,去做一些智能相关的任务。李航说,他的机器学习知识也都是从那时开始,通过自学获取的。“可以说,80年代至90年代初,人们对人工智能的期待非常高,比如80年代日本有所谓的第五代计算机项目,那时人们觉得人工智能的实现应该通过推理技术,但后来发现那些路根本走不通。接着,在90年代,人工智能进入低谷期,当时业界甚至都不愿意提及人工智能这个词。相反地,更多的人把AI落到实处,用机器学习去做简单的事情。”在李航的眼中,90年代的AI从业者和研究者,是一群务实的人。2、务实的90年代李航以他自己的亲身经历,讲解了90年代那群“务实”的人。他最早接触的机器学习算法是决策树,叫做ID3,这个算法其实只能做一些简单的事情。再如,基于神经网络的手写数字识别,也是一个典型的例子。李航认为,这些事情都比较简单,听起来也没有那么智能,但是当时人们更多地是在脚踏实地做一些实际的事情,没有过多考虑智能。所以,从90年代到本世纪初的10年,在大约20年的时间里,关于人工智能的谈论并不多,更多的是用机器学习、数据挖掘去解决实际问题。年左右,深度学习开始火起来。而实际上,-年,最火的词汇还不是人工智能,是大数据。直到年AlphaGo横空出世,人工智能这个词才又一次完全火爆起来。所以说,业界在不断发生变化,技术在演进,大家的