简介:在WebofScience数据库中以"artificialintelligence"为主题,检索到1991年至2013年共4736条记录,采用文献计量的方法,使用WebofScience数据库的在线分析功能以及NoteExpress、Excel等软件对检索到的数据从文献的产出年代、学科类别、国家与地区、研究人员、发文期刊、发文机构以及研究热点等七个方面对人工智能领域进行统计和分析,揭示人工智能学科在国际上的研究现状,并将我国在该领域的研究与国际情况做了对比分析,数据显示人工智能学科仍有一定的发展空间,我国与国际相比还存在一定的差距。同时本研究将1991~2013年分成5个时段,在基于频次统计的基础上,分析了各个时段的热点主题。
简介:总结国内外专利文本分类情况,简要叙述基于机器学习的专利文本分类的-般框架,介绍专利文本分类的文本预处理、特征提取、文本表示、分类器构建及效果评价等过程.将应用于专利文本分类的机器学习算法分为单-分类算法和组合分类算法着重探讨单-分类算法主要有NB算法、ANN算法、Rocchio算法、KNN算法、SVM算法等;组合分类算法主要有两种组合算法,如NB-KNN算法、Rocchio-KNN算法、KNN-SVM算法、SVM-其它算法,还有多种组合算法.指出各种机器学习算法应用在专利文本分类上的优势与不足,从专利文本预处理、特征提取、专利文本表示、分类器的构建、新方法的探索等五个方面对专利文本自动分类技术进行展望.
简介:在对相关研究情况进行总结与分析的基础上,通过对HowNet情感词典进行扩展并利用基于PAT树和统计相结合的分词方法,对从淘宝网站中获取的评论内容进行分析,结果表明,基于HowNet和PAT树的情感分析方法对分析网购评论的情感倾向性行之有效,并以淘宝-女装商家为例进行实证研究,最后指出进一步探索情感倾向性分析的几个方向.
简介:由于《中国图书馆分类法》的类目数目庞大和文献在各类目上分布的不均衡,导致基于机器统计学习的自动分类技术在此类多层分类上的力不从心。基于人工标引经验的自动分类试图通过情报检索语言兼容互换的原理解决这一问题,然而直接应用标引词串对分类进行匹配在实际应用中产生了一系列的问题。本文试图通过两种分类技术相结合的方法对信息资源进行分类,提出了用相关度度量来测定关键词和类目概念之间的关联,构建关键词、分类号、归属度三元组矩阵的方法进行分类匹配,并在小规模的测试集上得到了较好的效果。本文详细讨论此种分类器的构建原理、构建方法以及分类流程,并对该方法存在的不足进行了分析。