摘要
【摘要】针对传统方法在高维稀疏性、语义信息缺失和主题边界模糊等问题,本文研究了基于Word2Vec和K-means的文档主题聚类方法,旨在提升文档主题聚类的语义准确性和聚类效果。首先,通过Word2Vec模型生成语义嵌入向量,有效降低高维稀疏性,增强文档语义表示能力。其次,使用K-means算法对文档向量进行主题聚类,实现不同主题间的有效区分。实验表明,基于Word2Vec的文档语义嵌入能够显著提高K-means在主题聚类中的效果,相较于传统TF-IDF + K-means方法,本文方法在主题一致性和语义捕捉方面表现相对较优。
出版日期
2024年11月11日(中国期刊网平台首次上网日期,不代表论文的发表时间)