科技交流黑夜降临华人和中国公司却在全球学术

2019-06-29 19:43

  2019年6月18日加州长滩,计算机视觉和模式识别大会(CVPR)的主议程如期展开。这项会议代表着全世界科技创新领域内的最重要方向之一:计算机视觉 (computervision)。

  自诞生以来,计算机技术已经获得了长足的进步,从最初的算数开始,不断进化出新的计算模式和形态,现已能够执行广泛的任务。但是万法归宗,计算机对这个世界的一切感知,仍然回到1和0的输入,依赖预先设计好的逻辑序列。只要人不教给计算机,计算机就无法学会新的能力。

  十多年前,一小撮科学家潜心研究一项名为深度学习的技术,模仿人脑神经元的连接结构,在计算机上创造“人工神经网络”,终于实现重大突破。通过深度学习,今天的计算机已经拥有许多新的能力,而其中一项就是基于深度神经网络的计算机视觉——“看到”,“看懂”真实世界,并以此为逻辑基础进一步完成复杂任务的能力。

  在美国,计算机视觉驱动的自动驾驶汽车已经在部分地区上路,承担出租车的职能;在中国,广受用户喜爱的相机美颜滤镜app,则是基于计算机视觉的人脸识别能力,对人脸上的特征进行学习和识别,自动修改脸型、放大眼睛、叠加妆容;计算机视觉还在欠发达地区成为了“医生”,诊断病症并建议治疗方案,极大改善人们的健康状况和生活质量。

  大会主席团成员朱松纯教授在开幕演讲中透露,CVPR2019共收到超过1.4万名作者投稿的5,160篇论文。按照提交者国别统计,来自中国的论文占到了39%,超过美国(25%),在全部72个国家中也遥遥领先。,中国已经连续两年成为CVPR第一大投稿论文来源国。

  ▲这一数据并不反应最终CVPR2019最终接收论文的结果。组委会今年最终接收了1,294篇论文。

  今年的参会者总人数也超过了9,200,突破了自从1985年首次举办以来的历届记录。来自中国的参会者更是达到1,044人,仅次于4,743人的美国。

  硅星人在议程和展区内走访,发现黄皮肤、讲普通话者众多,比例远超人种和语言。中国参会者的热情,加上美国本土大批华人研究员的参与,让CVPR变成了亚洲面孔的海洋。

  尽管官方并未提供参会者的族群细分情况(为促进多样化,保护参会者利益和隐私,过于具体的数据通常不会统计和公布,)几乎可以确定的是,华人构成了本届CVPR参会者的最主要部分。

  一些网友在Twitter上表示,因为看到了来自中国投稿论文的惊人数量,对中国的科技和公司产生了更高的兴趣。

  该论文由美、英、加三国大学的研究者共同完成,第一作者为辛书冕,梅隆大学(CMU)机器人学院博士生,西安交通大学电气工程学士、CMU电气和计算机工程硕士。

  这篇论文的标题听上去十分晦涩,但它实际上探讨了一个极为重要的问题:目前的计算机视觉能够清楚地看到在视野(lineofsight)之内的物体;而对于人类来说,即便一个物体在拐角背后,无法看到完整面貌,也可以透过物体在表面上的反射、漫射投影,以及在直觉的帮助下,猜出物体是什么、长什么样。

  而这篇论文的最重要的贡献,就是让机器获得类似人的“直觉”一样的能力,提取极其有限、零碎和非直接的光学信息,最终精确地重建出物体本来的模样。

  比如在上图中,例子(a)显示相机和硬币之间被障碍物挡住,直接视角只能看到硬币侧面;例子(b)显示相机和硬币之间有一张不透明的纸。研究者设计的计算机视觉系统可以通过几何光学原理,结合硬币在可见表面上的投影,最终重建出一个相当准确的硬币表面浮雕。

  辛书冕等人的这篇论文有很大希望成为非视距重建领域的重要研究基础。在可见未来的日常应用场景里,这篇论文将能够帮助计算机视觉驱动的系统变得更加“智能”。比如,自动驾驶汽车将能够更准确地“看到”障碍物的背后,从而提高决策判断的能力,变得更安全。

  CVPR2019组委会给了该篇论文极高的评价:“该论文在非视距重建(也即看到拐角背后)上作出了杰出的贡献。这是一篇理论优美且具有启发价值的论文,扩展了计算机视觉可能性的边界。”

  本届大会的最佳学生论文奖颁发给了《用于视觉语言导航的强化跨模态匹配和自我监督模拟学习》一文,第一作者为加州大学圣巴巴拉分校自然语言处理组的王鑫。他师从本校助理教授王威廉(在社交网络上活跃于人工智能话题讨论的@王威廉),本科毕业于浙江大学。

  这项研究的主要内容是让机器人可以遵守自然语言指令(先右转,到厨房后左转,走过桌子进入走廊,进入走廊上右手没有门的入口,在厕所前面停下)进行视觉导航。

  和上一篇论文类似,王鑫等人的这篇论文希望解决的也是一个人能够轻松理解,但机器尚无法驾驭的任务。机器人想要按照这段指令进行导航,前提是它拥有一个全局地图,从而提前设定好路点,就像在即时战略游戏里那样。但是在该论文的试验环境中,机器人并没有这样的地图。人类可以根据命令走一步看一步,但这样的能力在过去对于机器人来说太过于复杂、不现实。

  王鑫等人提出了一套新的解决办法。简单来说,机器人可以识别当前所处的局部区域,从自然语言指令里关注到对应的部分,进行导航,再次识别新的局部环境,关注指令里对应的部分,再次导航,以此往复,达到最终的目的地。

  这篇论文同样得到了组委会的高度评价。王威廉透露,本文是CVPR2019满分文章,在全部5,160篇投稿文章中得分排名第一,并且被程序委员会和领域主席评审团确定为口头报告论文之一。

  计算机视觉领域的开创式论文ImageNet,更是在本届大会上斩获最高荣誉“朗吉特·希金斯奖”。这篇论文由华人研究员邓嘉等人于十年前发表,斯坦福大学李飞飞教授指导。

  ImageNet项目的本质是一个大规模的标注图像数据库,每一张照片上的物体,甚至物体之间的互动,都用单词或短语进行了标注,使得神经网络训练成为可能。ImageNet论文目前在学术数据库GoogleScholar上的引用次数已经达到11,615次,在计算机视觉领域排名第一。

  ImageNet的存在使得更多研究者可以利用它来设计、训练和测试最新的计算机视觉技术。在李飞飞等人举办的ImageNet挑战赛上,许多高分神经网络模型崭露头角、引发轰动,推动了深度学习的进步。

  有趣的是,当下的许多论文往往使用了高性能计算设备和崭新的算法,才能取得卓越成绩,而ImageNet其实很大程度上依赖“为人工智能打工的人”。为了构建这个数据集,研究团队密集使用了亚马逊的MechanicalTurk众包平台,用真人手动给图片进行标注。

  ▲ImageNet 作者获颁朗吉特·希金斯奖 Image Credit: Tony Peng/Synced

  邓嘉目前在普林斯顿大学计算机系担任助理教授,领导着该校的视觉和学习实验室,是领域内的知名学者之一。因为ImageNet、推动计算机视觉技术发展以及诸多贡献,李飞飞也被视为当今人工智能方面的卓越人物。

  回望当年的CVPR2009上,刚发表的ImageNet并未进入主议程,只是一篇默默无闻的poster论文,在展区中间和论文一起,限定时间内张贴展示,到点就要撤下。

  发表十周年之际,ImageNet获颁CVPR朗吉特·希金斯奖,已经证明了其对于计算机视觉领域的重要价值。

  三篇获奖论文,让奋斗在美国学术界一线的华人学者迎来了高光时刻。而在大会的另一个“舞台”,大洋彼岸的中国科技公司也正在扮演更重要的主角。

  根据大会官方资料,共有22家注册于中国的科技公司参展 CVPR2019,加上注册于美国具有中国团队和资本背景的科技公司,总数在30家左右。许多在计算机视觉学术研究以及工业应用方面世界领先的中国公司,出现在了CVPR2019的展区内,吸引了大批参会者驻足交流。

  因为要放下一辆卡车车头,图森未来占据了展区内较大的一块地方。这家公司美国总部位于加州圣迭戈,目前正在亚利桑那州的图桑市附近区域路测无人驾驶货运卡车,技术水平和路测经验在该领域方向内名列前茅。

  据美国公共广播电台报道,图森未来在今年五月底和美国邮政署 (UnitedStatesPostalService)签订协议,将在达拉斯和凤凰城之间超过一千英里的公开道路上测试无人驾驶卡车运输,为期两周。美国邮政署官方资料显示,该机构属于美国政府,拥有近60万名员工和22万辆汽车,是全美国乃至世界最大的民用车队,每年行驶里程超过12.5亿英里,约合20亿公里。

  除了与美国邮政署合作,图森未来还和亚利桑那州当地的皮马社区大学共同创建了自动驾驶卡车司机课程和认证项目,以促进当地就业增长和升级。该公司曾于2017年公开自动驾驶数据集,以帮助全球学者改进计算机视觉算法在真实驾驶环境中的性能。

  阿里巴巴、腾讯和百度也来到了CVPR2019现场,给来自全球的参会者以机会一睹三家最具代表性的中国互联网科技巨头,在计算机视觉领域的研究和工业应用进展,如开源深度学习框架、人脸识别、自动驾驶和无人门店解决方案等。

  三家公司分别有数十篇论文得到CVPR2019收录,在职研究员也在大会的不同领域委员会担任主席。

  参照美国知名科技公司Google、微软产学研互补的方式,结合各自在中国互联网行业的技术需求,BAT也在过去几年内分别组建了自己的前沿技术研究院:阿里的达摩院下设视觉实验室,腾讯则有专司计算机视觉的优图实验室,百度研究院在硅谷也一直有较强的科研存在。

  被称为中国计算机视觉“四小龙”之一的旷视,带来了本届CVPR大会上最有趣的展示:没有手柄,两名玩家使用自己的身体作为“输入设备”,控制各自的角色在《街霸》游戏中对打。

  这项技术可以同时锁定两名玩家的脸部,并追踪他们的肢体动作,而硬件仅需要一台笔记本电脑和一个现成的普通网络摄像头。

  它的厉害之处在于不但能进行人脸识别和表情追踪,还加入了神经图像风格迁移,一项在计算机视觉领域较为热门的技术,在复制表情的同时,还能保留原版自画像特有的,梵高自成一派的风格。

  在CVPR2019上发表多篇论文并组织领域研讨的滴滴出行,也在这段时间备受学术和业界的关注。这是因为在CVPR2019开幕的几天前,另一项机器学习学术会议ICML2019期间,滴滴宣布和今年图灵奖得主约书亚·本吉奥 (YoshuaBengio)领导的加拿大科研机构Mila达成了战略合作。

  计算机视觉技术在近几年的飞速发展,皆是因为深度学习作为基础方法取得了重要突破,而本吉奥正是深度学习的“开山鼻祖”之一。因为上世纪90年代至今的不懈研究和贡献,本吉奥另外两位同时代的专家被合称为深度学习的三剑客,共同获颁被称为“计算机界诺贝尔奖”的2018年图灵奖。

  根据公开资料,本吉奥创办的Mila是截至目前全世界最大规模的大学级别深度学习研究机构。而和这样的机构达成战略合作,不但意味着滴滴的学术贡献潜力得到世界级专家的认可,还标志着来自中国的科研创新力量踏上了全球舞台。

  去年,滴滴成立了AIforSocialGood(AI赋能社会)共创平台,与十多所高校、科研机构和社会组织展开合作,在安全、健康、环境、无障碍等几大核心方向进行项目研究,其中包括绘制高清空气质量地图帮助解决环保问题、推进新能源解决方案和智能交通技术的融合发展,以及推出司机AI关怀助手等。

  在本届CVPR筹备期间,滴滴还放出了D⊃2;-City,一个大规模行车视频的高清标注数据集,并在此基础上举办了自动驾驶算法挑战赛,两支分别来自瑞典和中国的团队摘得冠军。

  本吉奥表示,滴滴在AI赋能社会方面的努力和Mila一致,“过去,Mila曾经是一个专注基础科学研究的机构;转变思路之后,我们的主要任务之一就是产出能够对世界带来正面影响的研究。”

  ▲约书亚·本吉奥和滴滴出行科技合作总监吴国斌接受采访。ImageCredit: 杜晨/硅星人

  当前,中国科技公司正在面临全球技术禁运的逆风环境。美国商务部将多家中国公司加入美国公司技术出口对象限制名单当中;一些计划参加CVPR2019大会的中国研究者,也因为美国移民局的签证审批而行程受阻。

  而位于加拿大的Mila,是近期首个公开站出来对中国科技公司和研究者张开怀抱的北美学术机构。本吉奥对滴滴的青睐,显得尤为可贵。

  在采访中,本吉奥告诉硅星人,“我们正处在一个关键时间点上,比历史上任何时候都更需要强有力国际协作。否则,我们将永远无法决定地球命运的重要问题上达成共识。”

  他认为,不仅仅是学术界,各行各业都应该正视中国创新力量对于全球技术整体进步的贡献。“Mila与滴滴的战略合作只是一小步,希望有更多的(北美)学术机构能够站出来。”

责任编辑:admin  作者:admin