关键词:随机森林;SVM;情感分析;访问行为;交叉验证
1概述
根据报告,世界卫生组织指出,在2010年至2016年,全球自杀率下降9.8%,其中西太平洋地区下降了19.6%,东南亚地区下降4.2%,但是在北美,世界卫生组织统计,自杀率上涨了6个百分点。如今自杀在我们的生活中似乎已经非常频繁,而产生自杀的原因也不经相同,或是压力过大,或是遭遇了痛苦事件、丧亲、生活变故等,但是自杀却给周围的亲人带来了悲痛。那么我们是否能采取一些措施来发现这些潜在的自杀人群,并给予他们及时的关爱,帮助他们,从而避免悲剧的发生呢?本文将使用SVM算法建立模型来判断那些潜在的有自杀倾向的人群,从而采取相应的干预措施。
2数据的来源以及处理
建立模型的数据来源,采取了如下办法:收集以往产生自杀念头险些自杀,自杀了的,以及那些整天嚷嚷着要“自杀”心态乐观积极向上的人的动态信息,例如说说,博客,微博,等一系列社交平台发布的动态,用爬虫爬取所有的动态信息,将数据提取到文本中,利用规则有效地剔除获取的数据中的大量冗余和无意义的数据,对于清除后的数据使用分词工具将文本进行分词,把结果保存在另外一个文本中。将处理后的70%的数据训练数据集,30%的数据作为测试数据集,训练集用于训练模型,测试集用于测试模型。
在特征提取时利用word2vec把句子中的每一个词映射到空间中,得到多个语句对应的词向量的矩阵,将词向量进行切词和去停处理,得到词向量集合,所得的高维数据再用word2vec中的方法将相近的词进行汇聚,利用主成分分析法对高维数据进行降维,最终作为输入数据用于SVM分类。训练后的模型将可以区分那些真正患有抑郁,缺乏关心想要自杀和那些整天开玩笑“不想活了”心态较为良好的人。
3SVM模型的建立分析与求解
给定特征空间上的训练数据集T={(x1,y1),(x2,y2),(x3,y3),?,(xm,ym)}xi∈X=Rn,yi∈Y={+1,?1},i=1,2,3,?,N,表示N个样本实例,xi为第i个特征向量(实例),yi为xi的类标记。
基于训练集T在样本空间寻找一个划分超平面,将不同的类别的样本区分开,加粗直线收到训练集的局限性和噪声的因素的影响最小,泛化能力最强,在样本空间中用下列方程来描述:
其中w=(w1;w2;.....;wd)为法向量,决定超平面的方向;b为位移项,决定超平面和原点的距离。样本空间中任意一个点x到超平面(x,b)的距离可写为
假设超平面(w,b)能将训练样本正确分类,即对(xi,yi)D,若yi=+1,则有w若yi=-1,则有.令
两个异类支持向量到超平面的距离之和为
想要找到“最大间隔”的划分朝平面,使得γ最大,即:
s.t.yi()>=1,i=1,2,…,m
即:
s.tyi()>=1,i=1,2,3,…m
4SVM算法的检验
对于验证分类器的性能,使用的是“交叉验证”,基本思想是把原始数据集进行分组,一部分数据集作为训练集(trainset),另一部分做为验证集,首先用训练集对分类器进行训练,建立分类模型,最后利用测试集来测试训练得到的模型,以此来作为评价分类器的性能指标.
对于用训练集训练好后的SVM模型,对于模型是否有效,可以通过测试集来测试预测的精准度。最终可以使用建立好的模型,通过一个人的网络动态,将那些开玩笑的和真正需要关爱,有自杀倾向的人区分开,进而采取相应的干预措施,来对他采取一定的帮助。
5结论
一种好的预测自杀算法,应该具有两个特征:一是在某人不会自杀的情况下,很少预测此人会自杀;二是在某人会自杀的情况下,很少漏掉此人。决策树的缺点在于,如果想要得到正确的预测,需要生成很多不同的决策树,而不仅只靠一棵决策树,然后取所有这些决策树的预测平均值。这也是使用“随机森林”算法所带来难度,而通过使用SVM算法,具有分类思想很简单,分类效果较好的优势,但SVM算法对于规模过大的样本难以实施,同样也存在不足。因此结合SVM算法和随机森林的混合算法或许能得到一个好的结果。但不管采用什么算法,最终目的是能够找到一个有效的解决办法来挽救那些因各种各样的原因产生了自杀性倾向行为的人。
6参考文献
[1]李泗兰,郭雅.一种基于支持向量机的论坛帖子热度回归预测算法[J].科技通报,2019,35(09):90-93.
[2]吴亮.基于元分类器的SVM模型验证算法的研究[D].华东师范大学,2013.
[3]张玉腾.基于支持向量机的大学生自杀倾向识别研究[J].中国学校卫生,2018,39(05):685-687.
[4]程正双,王亮.基于支持向量机的网络评论情感分析方法[J].电子技术与软件工程,2019(16):3-4.
邮寄地址:付东生,重庆市沙坪坝区重庆大学a区学生宿舍11舍(重庆大学a区中门),13308358024