TEXT CLASSIFICATION TOWARD A SCIENTIFIC FORUM

(整期优先)网络出版时间:2007-03-13
/ 1
文章采矿,也作为发现从文章的知识,作为当前的信息爆炸的一个可能的解决方案出现了,指提取的过程知道重要;从未组织的文本的有用模式。在象聚类的文本那样的文本采矿的一般任务之中,摘要,等等,文本分类是聪明的信息处理的一项子任务,它采用从训练预言未标记的文本的类的文本构造一个分类器的无指导的学习。因为它的简洁;在性能评估的客观性,文本分类通常被用作一个标准工具决定一个文本处理方法的优点或软弱例如文本表示,文本特征选择,等等。在这篇论文,文章分类被执行分类从XSSC网站(http://www.xssc.ac.cn)收集的网文件。支持向量机器(SVM)的表演;背繁殖神经网络(BPNN)在这项任务被比较。明确地,二进制文章分类;多班文章分类在XSSC文件上被进行。而且,两个方法的分类结果被联合改进分类的精确性。一个实验被进行证明BPNN能在二进制文本分类与SVM竞争;要不是多班文章分类,SVM更好表现。而且,分类在二进制代码被改进;有联合方法的多班。