禹锡均博士主讲 | 使用机器学习与自然语言处理进行科学政策研究

2020-01-02

20191218日上午,美国佐治亚理工大学公共政策学院的禹锡均(Seokkyun Woo)博士在第六教学楼504教室为师生们带来使用机器学习与自然语言处理进行科学政策研究Using Machine Learning and Natural Language Processing for Science Policy Studies)的学术报告,本次报告由复旦大学全球公共政策研究院主办,由复旦大学国际关系与公共事务学院李寅青年副研究员主持。

禹锡均博士在讲座的开始针对为什么要在社会科学研究中使用机器学习(Machine Learning)和自然语言处理(NLP)进行了阐述。他认为,通过数字文本(digital texts)而表达的人类互动、交流以及文化显著增加,因而它们可以成为开展研究的一个重要的信息或数据来源。例如,我们可以使用对产品的评价文本研究消费者行为、利用文本信息预测宏观经济趋势或是基于大量学术发表的文本信息研究知识的生产。但是,不同于我们常见的直观展现的数值型变量,文本本身具有高维度的特征,若要利用文本展开上述研究,便需要相应的方法。幸运的是,自然语言处理能够帮助我们从量化层面对文本数据进行测度或分类,进而为后续的因果推断分析提全新的数据来源。

紧接着,禹锡均博士对机器学习和自然语言处理进行了介绍。首先,机器学习分为有监督的学习和无监督的学习两类,并对两类学习所各自包含的方法进行了简要介绍。其次,对自然语言处理的概念进行了说明,强调该方法是关于如何利用电脑编程处理并分析大量自然语言数据的一个交叉学科领域。此外,禹锡均博士指出,在机器学习的应用中,区分预测和变量构建是重要的。最后,禹锡均博士向听众们介绍了学界利用自然语言处理开展研究的最新成果。

在讲座前半部分内容的基础上,禹锡均博士向大家汇报了一项个人近期研究成果,该研究题目为“On the Shoulders of Fallen Giants: Understanding Scientists’ Behaviors Through Post-retraction Citations(站在跌倒的巨人之肩:通过撤稿后引用理解科学家行为)。该研究基于一个典型事实:许多文章仍在引用撤稿后的论文,即便遭撤稿多年后,这些论文仍被其他文章引用。针对上述现象,禹锡均博士基于既有的文献进行了可能的解释,从科学的规范结构、社会建构以及惯例式引用(perfunctory citations)等视角就如何理解引用行为进行了文献回顾。基于此,提出两个研究问题:(1)如撤稿后的引用更可能来自领域较远的研究吗?(2)如果距离很重要,这种距离效应能够表明仍引用撤稿文献的科学家的这种错误是由于善意的忽视吗?

针对上述两个研究问题,禹锡均博士进行了详细的阐述,并提出相应的有待验证的假说。该研究的主要创新之处在于使用知识距离(Knowledge Distance)测度引文和被引文之间的研究内容关联程度,知识距离可通过自然语言处理进行测度,具体可通过词嵌入向量(Word Embedding)的方法进行,它是自然语言处理中的一个重要概念,可以利用Word Embedding将一个单词转换成固定长度的向量表示,以便于数学处理,进而为每一个文本文档建立一个唯一的向量,使用余弦相似度(Cosine Similarity)即可计算引文和被引文两个文本之间的距离大小。此外,进一步使用MeSH方法计算研究领域的规模和范围,并将其作为控制变量。研究结果表明,知识距离对撤稿后引用有显著的正向影响,但这种距离效应对只对高影响因子刊物有显著影响,表明施引与被引文献之间的知识距离越远(领域差异越大),撤稿后仍被引用的概率就越高。该发现这也在一定程度上表明科学家的撤稿后引用行为具有诉诸权威(argument from authority)的特征。此外,研究还发现,领域规模大小与撤稿后引用成显著正向相关关系,而对于更小的领域而言,其内部的范围能够调节规模大小的影响。

讲座最后,在场的师生与禹锡均博士进行了交流讨论。师生们对机器学习方法在社会科学研究中的应用产生了浓厚的兴趣,尤其是讲座中涉及的方法原理、使用机器学习方法需要注意的事项以及学习该方法的学术路径等方面。最后,讲座在掌声中结束,在场的师生们期待今后有更多类似的讲座以帮助大家理解并使用计算机技术开展社会科学领域的研究,这对于回答传统或经典的学术问题或许将产生革命性的进展。

供稿:吴昭洋

审校:全球公共政策研究院