简介:传统的生物医学命名实体识别方法需要大量的标注数据样本,但是在实际应用中标注样本代价高昂。为降低生物医学命名实体识别对标注样本的需求,本文提出通过使用PU学习中的两步法方法,将生物医学命名实体识别问题转化为PU场景下的命名实体识别问题。在第一步中分别使用1-DNF、Spy、NB和Rocchio算法在未标注数据中抽取强负例,然后在已有的正例数据和强负例数据的基础上构建隐马尔可夫模型,最后对待分类数据进行命名实体识别。在GENIA语料库上的实验结果显示,在标注数据较少的情况下,通过使用PU学习方法的两步法构建分类模型,其性能显著优于直接使用标注数据构建的分类模型,同时降低了人工标注数据的成本。
简介:大数据背景下物联网已成为社会与学术界共同关注的研究热点,对物联网领域的研究现状进行梳理与总结有助于该领域的研究发展,并为相关学者后续研究提供参考和借鉴。通过文献计量统计方法,对CNKI收录的国内物联网研究文献进行统计分析,利用可视化软件绘制了科学知识图谱来揭示该领域核心作者团体、研究主题热点、热点演化趋势,从横向与纵向两个视角全景扫描了国内物联网研究的知识结构和知识特征。从横向看,国内物联网研究已广泛开展,形成了多个显著的合作团体并出现了高影响力论文;从纵向看,研究主题包括3个方面,研究演进经历了3个阶段,分析了各主题、阶段的主要研究内容以发现热点及发展趋势,为后续研究提供参考。