基于主题模型(LDA)的查新辅助分析系统设计研

编辑:admin


  〔摘要〕文章概述了主题概率模型(LDA)的计算原理和方法,以及开源R语言中lda程序包采用快速压缩吉普抽样算法分析语料库的处理流程。设计了基于LDA模型的查新辅助分析系统设计功能框架,对其功能、编程实现思路和工作流程做了描述。最后结合课题查新实例,详述了采用LDA模型通过相关文献关键词进行潜在主题挖掘,对比分析课题研究内容,对课题给出客观评价的过程。结果表明,基于主题模型的查新辅助分析系统可以快速有效挖掘相关文献主题,降低查新员对相关文献的分析难度,提高课题评价的客观性,整体辅助分析效果良好。
  〔关键词〕主题模型;R语言;查新;课题评价
  DOI:10.3969/j.issn.1008-0821.2018.02.018
  〔中图分类号〕TP31152;G2507〔文献标识码〕A〔文章编号〕1008-0821(2018)02-0111-05
  Research on Design of Novelty Retrieval Aided Analysis
  System Based on LDA Model
  Ma Linshan1Guo Lei2
  (1.Library,Hefei University,Hefei 230022,China;
  2.Library,University of Science and Technology of China,Hefei 230026,China)
  〔Abstract〕This paper summarized the calculation principle and method of Latent Dirichlet Allocation(LDA),and the treatment flowsheet using the fast collapsed Gibbs samplings algorithm to analyze the corpus in open source R language.The paper designed the function framework of the novelty retrieval aided analysis system based on LDA model,and described its functions,programming mentality and workflow.Finally,with a novelty retrieval case,this paper explained the basic process of using LDA model,mining potential theme using the keywords of relevant literature,comparing comparative analysis the subject of research content,giving an objective to the research topic.The results showed that the novelty retrieval aided analysis system based on LDA could quickly and effectively mining related literature,reduced the difficulty of analyzing relevant literature topics to Novelty Consultant,improved the objectivity of evaluation subject.The overall analysis effect was good.
  〔Key words〕latent dirichlet allocation;R language;novelty retrieval;subject evaluation
  科技查新是指查新機构对委托人课题的科学技术内容,通过检索文献,对比观点分析,做出新颖性客观公正评价的过程。其在科学研究、开发产品、科技管理活动中扮演十分重要的角色。查新的结果一般是一份规范的报告,但是其过程是十分复杂的脑力智慧劳动。查新员不仅要弄清楚委托人的研究内容,还要利用相关检索技巧,搜集到相关的文献,并从中分析出与委托人研究点的异同。一个高质量的查新,周期一般3~5个工作日,智力劳动强度非常大,需要查新员全身心的投入。为了有效帮助查新员,减轻其工作负担,在信息技术的支持下,出现了一些查新委托系统,从订单委托,报告格式生成等形式上实现自动化。对于查新分析评价内容方面,探讨较少,基本思路还是交给查新员手动完成。
  随着信息技术的发展,特别是大数据挖掘技术的发展,从大量数据中智能分析出评价预测观点的方法越来越多,并且日益成熟。其中基于文本挖掘的聚类方法、潜在主题的挖掘LDA模型方法,应用日益广泛。文章计划立足于文本聚类挖掘方法,探讨构建科技查新辅助分析系统,帮助查新员从检索到的文献中提取潜在主题,有效减轻查新员的对比分析负担,极大提高查新的效率和智能性。
  1LDA模型
  LDA(Latent Dirichlet Allocation)模型是一种典型的用于主题提取的概率潜语义模型,由Blei等在2003年提出,是一种具有文本主题表示能力的非指导学习模型,已经成功应用到文本分类、信息检索等诸多文本相关领域[1]。其内在结构非常清晰。如图1所示,LDA模型假设一篇文档(Document)由多个隐含主题随机组成,文档的主题(Topic)是由一系列相关联的词汇构成。文档语料集(Corpus)是由若干文档构成。基于这一假设,可将隐含主题看做词汇的概率分布(Topic~Word),单个文档可表示为这些隐含主题的概率分布(Doc~Topic),该模型有利于大规模数据处理中的空间降维,将文档投影到Topic空间。另外,该模型中词汇之间假设无关联性,不考虑语法和词序,即所谓的“Bag of Words”假设[2]。

标签:辅助,模型

    与本文相关的文章