学术出版领域的人工智能应用:现状、挑战与应对
发布时间:3/1/2019 5:29:45 PM 浏览次数:1686
分享到:


  摘 要  学术出版商早就已经使用一些早期人工智能技术来增强科学编辑的自动化过程,包括反剽窃和同行评审专家匹配、学术文献存取环节的智能学术搜索、学术文献质量评价环节的文献计量智能等。然而,学术出版领域的人工智能应用也面临着科学数据开放、科学出版与算法伦理等挑战。学术出版商可以通过协作、开放算法应对这些挑战,同时,在同行评审环节,主要部分必须由同行进行,人工智能可以作为同行评审的支持。
  关键词  人工智能;学术出版;同行评审;智能学术搜索;文献计量智能
  近年来,学术界开展了大量关于如何利用人工智能技术来支持出版和编辑过程的讨论。许多出版商认为人工智能是提高学术出版运营速度和效率的一种手段,并已经使用一些早期人工智能技术来增强和自动化科学编辑过程所涉及的任务。人工智能应用将是学术出版领域的新趋势[1],将会在学术期刊编辑的各个环节得到全面应用,并推动科技期刊出版方式的变革[2]。
  1 反剽窃和同行评审专家匹配:学术文献出版环节的人工智能应用
  人工智能已经被用于学术出版的一系列功能:从保障论文基本质量的剽窃检测,到同行评审专家的识别和匹配,其应用极大地提升了学术出版的效率。
  过去的反剽窃软件多采用逐字审查文本的方式,识别不了更加隐蔽的剽窃。2014年的一项研究考察了1991年年中至2012年中期arXiv仓储库757000篇文章中潜在的抄袭模式。研究发现,在筛选出评论文章和合法引用后,约有6%的arXiv作者从以前发表的作品中复制了长短语和句子,其中1.3%的论文作者直接复制他人论文的文字,而没有注明引用。因此,传统的反剽窃软件的效用急速下降。目前,运用人工智能技术不仅能够逐字审查,而且还可以识别整个句子或段落的组成部分。例如“交叉参考”(CrossRef)为学术期刊部门专门设立的剽窃检测工具“交叉审查”(CrossCheck)可以将提交的稿件与已发表的文献进行逐字以及短语、长句和段落的综合比较,并自动生成关于文件之间匹配程度的报告。除此之外,一些反剽窃软件已经开始在系统中增加图像检测功能,检测论文中出现的重复图像或伪造图像。
  同行评审环节既是学术出版的重要基石,也是学术出版环节中成本最高、争议最大的环节。其中,同行评审专家对稿件研究领域的不熟悉带来的不专业、主观偏见、耗时过长等都是其饱受诟病的地方。因此,近年来,学术出版商已经应用人工智能技术来增强和自动化同行评审中涉及的任务。例如为支持2009年国际计算机学会数据挖掘及知识发现专业委员会的国际知识发现和数据挖掘会议(ACM SIGKDD Conference on Knowledge Discovery and Data Mining,简称KDD)而设计的会议论文自动化审查分配系统“提交筛选”(SubSift),将多个论文提交筛选网络服务组合成一个由向导式用户界面驱动的工作流程,用于分析和匹配论文的潜在同行评审人,建立作者和潜在的同行评审人双向选择的用户界面。“提交筛选”系统通过一系列自动化工具,组建同行评审小组,将评论者评分汇总,并依据评分自动发出退稿、修改或录用决定。该系统还可以创建作者同行评审终稿的链接,在论文被系统接受时立即在线发布。该系统自2009年起,不仅用于每一年的KDD会议论文审查,而且自2010年开始用于支持数据挖掘及知识发现专业委员会编辑的机器学习相关期刊的同行评审专家分配[3]。分析、匹配和专家发现是同行评审的重要环节之一,也是学术出版人工智能应用的重要领域。
  2 智能学术搜索:学术文献存取环节的人工智能应用
  辛巴信息(Simba Information)统计数据显示,每年有超过250万篇的科学文章发表在28000余种英文学术期刊上,仅在生物医学领域每天就会发布2000~4000篇论文,仅就p53蛋白的研究就发表了7万多篇论文。[1]科学文献存在着巨大的信息超载,大量的研究使得阅读所有论文成为不可能。因此,学术文献存取环节的人工智能应用主要集中在智能学术搜索方面,这也是学术出版公司和科技企业发展的重点领域。
  虽然现有的数字化服务,如谷歌学者(Google Scholar)等可以通过关键词搜索科学文献,但用于导航数字内容的方法较少,无法访问元数据或引用指标。随着在线学术文献的数量不断增加,科研人员和科技企业需要采用更新的方式,才能不被海量的科学信息所淹没。为了增加对科学内容的访问,很多科技公司都在探索进一步将人工智能导入学术搜索,开发旨在超越Google学术搜索的基于人工智能的学术搜索引擎。在“必应”(Bing)中,与学术有关的搜索查询会触发特定的实体,例如搜索某个学者或某篇文章时,不仅会看到该学者的所有文章列表,而且会出现该专业领域其他相关学者以及最著名的研究论文的链接;如果搜索某种期刊,将会看到相关的期刊。这个基于学术文献的学术实体知识图的概念建立在早期的研究成果上,即微软学术搜索(Microsoft Academic Search,简称MAS)。微软学术搜索这一开创性研究项目,在这一新搜索技术浪潮中取得了令人瞩目的成果——知识图谱搜索。微软学术搜索项目的成功证明了知识图谱搜索的价值,并且启发了微软学术(Microsoft Academic)的设计和开发,该项目是一个支持访问超过16 000万篇学术论文的搜索服务,可以识别作者、论文、期刊或研究领域。它通过递归算法(免费提供)来判断:根据论文被其他重要论文的引用频次来判断其重要性,据此得出每个分支学科中最具影响力的科学家和出版物的排行榜,并每日更新排行榜。微软学术在实体之间建立有意义的关联,并自动生成可视化的知识图谱,引导学者阅读。语义学者(Semantic Scholar)和微软学术一样,也是采用语义方法从文本中提取上下文,建立语言模型的智能学术搜索引擎。而米塔(Meta)还可以从用户的搜索历史中学习,提供与用户的搜索历史相关的研究论文的更新,并创建可以展示所有已发布论文之间关系的知识图谱,并跟踪科学家的进展,使识别研究领域的趋势和未来变得更加容易,让研究资助者可以利用这些信息来决定研究经费的分配,研究人员可以规划未来的研究项目[4]。人工智能创业公司虹膜(Iris.AI)则采用了非语义方法的人工智能,不是试图理解语句,而是理解语境,为已发表的研究提供情境化的访问。该公司致力于解决专业人员和科技企业在“不知道找什么,且不是领域专家的情况下想要获取核心知识”方面存在的痛点。虹膜使用一种具有启发式功能的非语义神经主题建模方法,从科学论文中提取摘要,从频率分析开始,从被搜索的文章中提取出最重要的词汇和表达,然后将这些单词中的每一个变成一个多维向量空间中的一个矢量。虹膜运行从所有其他部分的内容找到相关词语,例如同义词和上位词一起运行;其后,将这些词汇集在一起,得到这些关键词与文本中找到的每个关键词相关的字符串或字符块,计算这个字符块最适用的标签;用这些标签标注到从开放存取论文数据库中提取的相关论文上[5]。目前这些项目都处于实验阶段,还没有足够的证据表明哪种方法更好,但是可以预见,智能学术搜索未来必然成为专业人员和企业存取学术文献和数据的重要工具。
  3 文献计量智能:学术文献质量评价环节的人工智能应用
  对学术文献影响力进行评价不仅有助于客观鉴定作者科学创作及其学术作品的质量,而且在一定程度上有助于促进学术文献质量的提高,是学术出版的重要环节。使用引文数据,特别是期刊级影响因子来判断研究人员和部门研究成果的质量的方法虽然普遍,但越来越受到批评。一方面,同一期刊文献被引用的分布有着巨大偏差,思格伦(Seglen)1992年进行的一项调查显示,一种期刊中15%的文章被多次引用,占该期刊被引文献的50%,将引用最多的文章与引用较少的文章判断为同等质量并不合理[6]。另一方面,引文分析具有极大的滞后性,不利于学术期刊的选题策划和组稿。
  目前,元文献计量智能(meta bibliometric intelligence)是文献计量智能的开拓者。元文献计量智能使用复杂的机器学习算法,挖掘全球数百万篇学术文献全文进行训练——这一系列文章包含了地球上最大的学术文本挖掘集合,以论文的引用而非期刊的引用数据为参照,挖掘出各个学科领域引用最多的文章的特征。当系统收到新提交的稿件后,元文献计量智能通过算法从论文中挖掘出数百个特征,并与该研究领域引用最多的论文特征进行匹配,估算稿件的未来引用次数和影响。元文献计量智能与业界合作开展的大规模试验表明,在出版前,元文献计量智能对新稿件影响级别的预测准确性是人工预测的2.5倍。在“超级巨星文章”(top1%)的预测准确性是人工预测的2.2倍。白羊座系统公司2016年10月宣布将元文献计量智能集成到其同行评审系统“编辑经理”中,帮助编辑对新稿件进行影响力预测、分类和排名[7]。
  4 科学数据开放、科学出版与算法伦理:学术出版人工智能应用面临的挑战
  首先,科学数据开放是学术出版人工智能应用面临的一个重要挑战。人工智能在学术出版领域的应用是基于对于科学文献的深度解析、机器学习,进而形成日趋准确的算法,更好地帮助编辑和出版商制定出版决策。人工智能获取和学习的科学文献数量越多、范围越大,其算法就越准确,自动化决策能力就越强。然而,大量的科学文献都被各大学术出版商锁定在其收费壁垒之内,各个领域最有声望的研究成果更是出版商版权保护的重中之重,这就使得学术出版领域的人工智能系统无法得到充分的学习,其有效性也必然大打折扣。例如前面提到的学术文献剽窃检测工具“交叉审查”,尽管它可以将文本与网络上的文档进行比较,但这些服务对于检查科学文稿是没有用的,因为科学文献数据库无法被这些服务访问。虹膜的检索范围虽然已经扩大到大约6600万篇开放获取论文,然而因为还有近千万篇学术出版商出版的整体质量相对更高的同行期刊评审论文被锁定在收费壁垒之内,因此,其可以智能解析的科学文献类型和领域也相对有限。目前,人工智能应用主要集中在航空航天、汽车、物理学、化学等开放获取程度较高的学科领域。
  其次,科学出版与算法伦理的建设也是人工智能应用于学术出版领域面临的重要挑战。学术出版的重要目标包括促进学术交流、展示重要的科学研究成果、评判作者、研究机构和大学的影响力、确保研究资助的合理性等。这些功能都隐含着价值判断的问题。而众所周知,在价值判断问题上,人类比机器拥有更大的优势。我们要清醒地认识到,在海量的科学文献中,存在大量科学价值极低的文献,这些文献同样是人工智能系统学习的对象,这将误导机器对文献价值的判断。除此之外,计算机算法基于各种标准的加权平均来创建分数,一旦算法设计不够合理,就会包含某种偏见。从统计角度讲,某一篇可能会根据加权平均得到高分的文献并不一定意味着内容更有意义,多项研究表明高质量的论文多为某个特征较为突出,而非各个特征平均优化的“精致”且“精确”的标准化论文。稿件的质量还取决于创新程度、重要性以及对该领域的潜在影响,而这些特征不容易量化。因此,尽管自动化学术出版会加快科学交流,消除人的偏见,然而,正如迪沃思(DeVoss)所提倡的:“无监督的人工智能决定科学研究的方向是我们必须警惕的。真正的发现应该完全是人类的想法。”[8]
  5 应对学术出版人工智能应用挑战的策略
  首先,众多学术出版商可以联合开展人工智能应用实验,在一定范围内消除科学研究数据的壁垒。商业学术出版商基于商业利益,很难完全开放其拥有版权的高质量的科学研究成果,因此,科学研究数据的开放不可能一蹴而就,很难实现完全的开放。但是,在不明显损害其商业利益,甚至对其有利的情况下,学术出版商应联合起来部分消除其科学研究数据壁垒。2000年,多家著名的学术出版商就联合创立了非盈利组织出版商国际链接协会(Publishers International Linking Association,Inc.,简称PILA),共同管理“交叉引用”(CrossRef),一个基于数字对象标识符(Digital Object Identifier,简称DOI)实现文献引文跨出版社服务平台链接的参考链接服务系统。该系统有效打破了学术出版商之间的引用和链接服务壁垒,各个学术出版商都从中受益。当前,各大学术出版商均已积极应用人工智能,也越来越越多地感受到科学研究数据壁垒给其人工智能应用带来的挑战。因此,为了提高人工智能应用的效率,各大学术出版商可以再次联合创立和管理一个在一定范围内消除其科学研究数据壁垒,旨在帮助各大学术出版商更加有效地开展人工智能应用实验和研究的组织。
  其次,开放算法,即提供用于计算所有指标的数据和方法,让算法公开和透明。人工智能如何帮助科学编辑确定最适合的同行评审?如何评定一篇科学文献的质量和价值?如何给研究者推荐其最需要阅读的科学文献?这些都是由算法决定的。算法是否公正、合理,决定了其应用的有效性。为了消除研究者的疑虑,最直接的方法就是公开算法。一方面可以最有效地应对质疑;另一方面,算法透明也能让科学共同体更容易找到算法技术的漏洞,然后解决它,让其不断进步,避免科学共同体和学术出版商对人工智能应用的“因噎废食”。
  最后,同行评审的主要部分必须由实际同行进行,人工智能可以作为同行评审的支持。同行阅读和审查彼此研究的结果,然后在此基础上建立关于该专业知识正确性和创新性的确认和信任是科学活动的核心部分之一。这一过程不能用自动化过程完全取代。人类编辑和审稿人提供了什么是“重要”研究的概念,并确保研究“噪音”被滤除。人工智能可以作为同行评审的支持,帮助编辑寻找新的评审者,但是未来仍然需要编辑和审稿人确保人工智能不会错误地支持“准确”却无意义的科学出版。
参 考 文 献
[1]Simba Information. Global Scientific & Technical Publishing 2017-2021[EB/OL].(2017-11-20)[2018-03-25].https://www.businesswire.com/news/home/20171120005455/en/Global-Scientific-Technical-Publishing-Industry-Report-2017-2021.
[2]WareM,MabeM.TheSTMReport:Anoverviewof scientificandscholarly journalpublishing(2015)[EB/OL].(2015-02-20)[2018-03-25].https://www.stm-assoc.org/2015_02_20_STM_Report_2015.pdf.
[3]UniversityofBristol.ScientistslooktoAIforhelpin peerreview[EB/OL].(2017-03-22)[2018-02-27].https://techxplore.com/news/2017-03-scientists-ai-peer.html.
[4]WadeAD,WangK.Therise of the machines:Artificialintelligencemeetsscholarlycontent[J].LearnedPublishing,201629(3): 201-205.
[5]KampsHJ.IrisAIdrastically expedites research through the power of artificial intelligence[EB/OL].(2016-10-25)[2018-03-02].https://techcrunch.com/2016/10/25/iris-ai-for-science/.
[6]SeglenP O.The skewness of science[J].Journal of the American Society for Information Science Banner,1992,43(9):628-638.
[7]Frankfurt.Artificialintelligenceintegration allowspublishers afirst look at meta bibliometric intelligence[EB/OL].(2016-10-17)[2018-03-06].https://www.ariessys.com/views-press/press-releases/artificial-intelligence-integration-allows-publishers-first-look-meta-bibliometric-intelligence/.
[8]Aspire Scientific.Is artificial intelligence the future of scientific publishing[EB/OL].(2017-05-31)[2018-03-30].https://thepublicationplan.com/2017/05/31/is-artificial-intelligence-the-future-of-scientific-publishing/.
来源:https://mp.weixin.qq.com/s/DtltkJMbeKB_HzbzXPk-DQ

声明:本网站为非盈利网站,大多信息来源于网友推荐。如果作者或其他版权所有人认为违反了您的权益,请告知我们,我们会在24小时内删除。