简介:网页去重是提高网络检索效果的有效途径。针对现有网页去重算法的不足和网页正文的结构特征,提出一个基于网页正文逻辑段落和长句提取的网页去重算法。该方法通过用户检索关键词将网页正文物理段落结构表示成逻辑段落,在此基础上提取逻辑段落中的长句作为网页特征码实现相似网页判断。实验证明,该方法提高了篇幅短小的镜像网页和近似镜像网页的去重效果。
简介:“中华字库”工程,是引领中华文化步入信息化、数字化时代,提高中国文化“软实力”的一项重要举措,有着重大的战略意义。是中华民族有史以来规模最大的汉字及少数民族文字整理工作。
简介:通过整理我国公共图书馆事业在1949年以来规模变迁的事实材料,尝试探讨该项事业相关规模指标与我国同时期国内生产总值(GDP)的相关性,分析经济发展与公共图书馆事业变迁的协同关系,探索宏观图书馆学研究的新领域,为未来我国公共图书馆事业的发展提供借鉴。
基于网页正文逻辑段落和长句提取的网页去重算法
“中华字库”工程——中华民族有史以来规模最大的汉字及少数民族文字整理工作
我国公共图书馆事业变迁与经济发展的相关性研究——以规模变迁为例