2017机器学习与自然语言处理学术全景图:多产的作者与机构都是谁?

原创 2018年01月06日 06:49:37

在这篇文章中,作者统计了来自 ACL、EMNLP、NAACL、EACL 等学术会议的信息,用可视化的方式展现了 2017 年机器学习与自然语言处理领域的学术情况,例如最高产的作者、机构、主题等。机器之心在展现这些以 NLP 为主的会议后,还增加了如计算机视觉等会议的情况。值得一提的是,该作者在 2017 年初也统计了 2016 年的信息,感兴趣的读者可查看《2016 机器学习与自然语言处理学术全景图:卡耐基梅隆大学排名第一》


2017 年是自然语言处理(NLP)和机器学习(ML)非常高产的一年。两个领域持续增长,会议论文数量纷纷打破记录。本文中我将根据个人作者和组织进行更详细的细分。统计信息来自以下会议:ACL、EMNLP、NAACL、EACL、COLING、TACL、CL、CoNLL、Sem+SemEval、NIPS、ICML、ICLR。与上年不同,这次把 ICLR 包含了进来,它在过去两年飞速发展为一个很有竞争力的会议。此外,机器之心也将我们统计的会议结果添加到该报告中,并作一定的分析。


MAREK REI 的分析是通过爬虫自动抓取会议官网和 ACL 选集的发表信息而完成的,因此分析主要集中在自然语言处理。MAREK REI 表示作者姓名一般列在议程之中,因此可轻松提取;但是机构名称相对麻烦,需要从 PDF 直接抓取。而我们添加的信息主要来源于 2017 年报道过的人工智能方面的顶会,因此它正好可以补充原作者提供的信息。


会议


首先,让我们看看 2012-2017 年间的公开会议。NIPS 当仁不让,今年共发表 677 篇论文,排名第一。其他多数会议也快速增长,是 ICML、ICLR、EMNLP、EACL 和 CoNLL 规模最大的一年。相比之下,TACL 和 CL 的论文发表数量似乎每年保持不变。NAACL 和 COLING 的论文数量则为零,期望其在 2018 年有更好表现。


22493WX20180103-102543@2x.png

其实从接收论文的情况我们就能看出一些趋势,因为自 2015 年来 NIPS 的接收论文就有很大的提升,这与机器学习和深度学习的崛起有很大的关系。神经信息处理系统大会(Neural Information Processing Systems,NIPS)是机器学习与计算神经科学方面的顶会,本届 NIPS(31st)大会注册人数超过 8000 人;共收到 3240 篇提交论文。其中有 20.9% 被组委会接收;议程包括 679 个 Poster 演讲,40 个长演讲(Oral), 112 个短演讲(Spotlight)。若根据 NIPS 2017 提交论文数量进行分析,最热门的三个子领域为算法、深度学习和应用,由于深度学习目前并没有一种给我们美感的完整体系,所以很可能这一领域的研究在 2018 年将会继续进行下去。


48173image%20(1).png

NIPS 2017 的热门子领域。


MAREK REI 更多关注的是自然语言处理与 ML 会议,而其它如 CVPR、ICCV 和 KDD 等计算机视觉顶会与数据挖掘顶会都没有涉及到。因此我们可以补充一些 2017 年的论文提交与接收情况,如下展示了 11 项顶会的论文提交与接收情况。其中除了上述的 NIPS,AAAI 和 CVPR 等大会也非常值得我们关注。


74794image%20(2).png AAAI、CVPR、IJCAI、ICCV、NIPS 今年的投稿数量均超过 2000,接收的论文数量均超过 600。ICLR 2017 是举办以来的第五届,去年的论文录用率接近 30%,今年达到了 40%。KDD 论文录用率 18.9%,是上图九大会议中论文录用率最低的会议。


作者


2017 年最多产的个人作者是 Iryna Gurevych(达姆施塔特工业大学),共发表论文 18 篇。Lawrence Carin (杜克大学) 发表论文 16 篇,其中 10 篇被 NIPS 收录。紧随其后的是 Yue Zhang(新加坡大学)、Yoshua Bengio(蒙特利尔大学)和 Hinrich Schütze(慕尼黑大学)。


19470WX20180103-102713@2x.png

值得注意的是,曾撰文批评了蒙特利尔大学的新论文《Adversarial Generation of Natural Language》的 Yoav Goldberg 也有 10 篇论文被这些会议接收。他曾表明:「尽管我同意 arXiv 上短时间的发布周期比现在长时间的同行评议流程更好,但现在人们在使用 arXiv 树旗帜、占山头,规避同行评议过程,而且这个趋势已越来越显著。这种情况对于那些「强」研究组而言更是显著。目前来说,将你的成果(通常是初步的和不完整的)发在 arXiv 上没有什么实质的坏处,只有潜在的好处。」


其实目前很多作者都将论文预先发表在 arXiv 上,以上 MAREK REI 统计的接收论文情况很大程度上反映了这些学者的学术水平,只不过由于原作者重点关注自然语言处理,所以还有很多 2017 年优秀的学者与论文没有展示在统计中。


看一下 2012-2017 年的累积统计结果,Chris Dyer(DeepMind)遥遥领先,紧随之后的是 Iryna Gurevych(达姆施塔特工业大学)和 Noah A. Smith(华盛顿大学)。Lawrence Carin(杜克大学)、Zoubin Ghahramani(剑桥大学)和 Pradeep K. Ravikumar(卡内基梅隆大学)发表的论文主要在机器学习会议,而其他人则在 NLP 和机器学习之间平衡。


44231WX20180103-103134@2x.png

按年份将发表论文数分开表明 Chris Dyer 在今年的发表论文数有所下降,而 Iryna Gurevych 的发表论文数有很强的上升趋势。


65503WX20180103-103300@2x.png


第一作者


我们来看看第一作者的情况,第一作者通常是实现代码和运行实验的人。Ivan Vulić(剑桥大学)、Ryan Cotterell(约翰霍普金斯大学)和 Zeyuan Allen-Zhu(微软研究院)都在 2017 年以第一作者的身份发表了 6 篇论文。紧随其后的是 Henning Wachsmuth(魏玛大学)、 Tsendsuren Munkhdalai(微软 Maluuba)、李纪为(斯坦福大学)和 Simon S. Du(卡内基梅隆大学)。


30200WX20180103-103607@2x.png

如上所示,斯坦福博士李纪为在 2017 年也有非常多的接收论文,他主要的研究方向是自然语言处理(NLP)。在三年的博士生涯中,他的多篇论文被各类顶级会议接收。在四月底结束的 ICLR 2017 上,李纪为有三篇论文被大会接收,其中两篇为第一作者;而在即将于 9 月份举行的 EMNLP 2017 上,他有两篇论文被大会接收,均为第一作者(参见:如何生物转CS,并在斯坦福大学三年拿到PhD:独家专访李纪为博士)。


此外,由于 ICCV 等计算机视觉领域的会议没有得到统计,因此何恺明等人并没有在以上统计中展现。在 ICCV 2017 中,Facebook AI 研究员何恺明获得最佳论文奖,同时是最佳学生论文的作者之一。算上此前在 CVPR 2009、CVPR 2016 上的两篇「最佳论文」,何恺明现在已获得了四个最佳论文称号(参见:ICCV 2017奖项公布:最大赢家何恺明获最佳论文,参与最佳学生论文)。


机构组织


看一下 2017 年的不同机构组织的发表模式,卡内基梅隆发表了 126 篇论文,处于领先地位,而微软、谷歌和斯坦福紧随其后。包括 MIT、哥伦比亚、牛津、哈佛、多伦多、普林斯顿和苏黎世在内的大学发表的论文中,相比 NLP,机器学习占比例更大。相比之下,包括爱丁堡、IBM、北京、华盛顿、约翰霍普金斯、宾州、中科院、达姆施塔特、卡塔尔在内的大学和机构更关注 NLP 会议。


85466WX20180103-103810@2x.png

如上在 2017 年的大会接收论文中,清华大学和北京大学分别以 38、37 篇接收论文取得了非常好的成绩,中国科学院在 2017 在这些大会中也有 22 篇接收论文。


看一下 2012-2017 年的整段时期,卡内基梅隆依然是其中的佼佼者,而微软、谷歌和斯坦福紧随其后。


07809image%20(3).png

在这些会议历年的累积接收论文中,北京大学、清华大学、中国科学院和哈尔滨工业大学都有非常好的排名。但这这些会议偏重于自然语言处理,因此国内还有其他一些非常优秀的学府没有统计并展示在内。


看看下方的时间序列,卡内基梅隆、斯坦福和 MIT 在发表论文数上呈上升趋势。相比之下,行业领袖谷歌、微软和 IBM 的发表论文数略微有所下降。


32852WX20180103-104051@2x%20(1).png


主题聚类


最后,我对所有发表过 9 篇或以上论文的作者的论文文本进行了 LDA 分析,并用 tsne 将结果可视化。图中间是机器学习、神经网络和对抗学习的主题。最密集的聚类涵盖了强化学习和不同的学习策略。图左的聚类包含 NLP 应用、语言建模、文本解析和机器翻译。图底的聚类包含信息建模和特征空间。


60108image%20(5).png

原文链接:http://www.marekrei.com/blog/ml-nlp-publications-in-2017/


一文读懂机器学习大数据/自然语言处理/算法全有了【一】

机器学习是什么,为什么它能有这么大的魔力,这些问题正是本文要回答的。同时,本文叫做“从机器学习谈起”,因此会以漫谈的形式介绍跟机器学习相关的所有内容,包括学科(如数据挖掘、计算机视觉等),算法(神经网...
  • tangdong3415
  • tangdong3415
  • 2016年09月05日 14:41
  • 1725

一文读懂机器学习,大数据/自然语言处理/算法全有了

特别赞的文章,这里看到的http://www.36dsj.com/archives/20382 作者:计算机的潜意识 这个应该是大牛!! 在本篇文章中,我将对机器学习做个概要的...
  • pinellina
  • pinellina
  • 2015年12月21日 22:07
  • 2348

李航博士的《浅谈我对机器学习的理解》 机器学习与自然语言处理

算算时间,从开始到现在,做机器学习算法也将近八个月了。虽然还没有达到融会贯通的地步,但至少在熟悉了算法的流程后,我在算法的选择和创造能力上有了不小的提升。实话说,机器学习很难,非常难,要做到完全了解算...
  • jdbc
  • jdbc
  • 2015年09月09日 18:37
  • 2340

自然语言处理(nlp)与机器学习(Machine Learning)

  • 2018年01月16日 10:01
  • 222KB
  • 下载

机器学习与自然语言处理

  • 2016年10月18日 12:50
  • 31.76MB
  • 下载

一文读懂机器学习,大数据/自然语言处理/算法全有了……

阅读目录 1.一个故事说明什么是机器学习2.机器学习的定义4.机器学习的方法5.机器学习的应用–大数据6.机器学习的子类–深度学习7.机器学习的父类–人工智能8.机器学习的思考–计算机的潜意识9...
  • wangshfa
  • wangshfa
  • 2015年05月21日 16:44
  • 1045

自然语言处理分词汇总和相关机器学习

中科院NLPIR(推荐) http://ictclas.nlpir.org/ 原名ICTCLAS,是由中科院计算所历经数年开发的分词工具,采用C++编写。 主要功能包括分词、词性标注、命名实体识...
  • lb521200200
  • lb521200200
  • 2017年11月02日 11:11
  • 5748

一文读懂机器学习,大数据/自然语言处理/算法全有了……

在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进...
  • leoking01
  • leoking01
  • 2016年03月22日 01:20
  • 611

2015百度机器学习/数据挖掘工程师+自然语言处理工程师笔试题目

1.new 和 malloc 的区别。new 返回指定类型的指针,并且可以自动计算所需要大小。 比如:   int *p;    p = new int; //返回类型为int* 类型(整数型指针)...
  • u013207865
  • u013207865
  • 2016年04月20日 18:28
  • 1304

机器学习, 自然语言处理, 和图像识别 很不错的行业嘛

1) 机器学习, 自然语言处理, 和图像识别  现有数据科学家团队都具有博士背景,且有美国和英国留学经历, 但我们欢迎非博士和非海外背景的人才。  2) 安卓 钱柜娱乐开户 开发  现有...
  • SoulsCarrier
  • SoulsCarrier
  • 2015年02月25日 09:45
  • 965
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:2017机器学习与自然语言处理学术全景图:多产的作者与机构都是谁?
举报原因:
原因补充:

(最多只允许输入30个字)