基于数据挖掘的中药材鉴别模型——2021高教社杯全国大学生数学建模竞赛E题分析

(整期优先)网络出版时间:2021-12-02
/ 2

基于数据挖掘的中药材鉴别模型—— 2021 高教社杯全国大学生数学建模竞赛 E 题分析

徐丽 赵晨曦 刘遵义 李晓敏

山东协和学院 山东省济南市 250109

【摘要】中药材因种类、产地不同,呈现出不同的近红外、中红外光谱特征。如何借助中药材的光谱数据,进行中药材种类及产地的鉴别,使其发挥更好的药效作用,成为中药材鉴别研究的重要任务。本文通过对中药材近红外、中红外光谱数据进行挖掘,研究其光谱特性,判断中药材的种类及产地,对中药材鉴别技术的发展具有重要的指导意义。

关键字:Excel、光谱图、数据挖掘、中药材

一 引言

不同中药材表现的光谱特征差异较大,即使来自不同产地的同一药材,因其无机元素的化学成分、有机物等存在的差异性,在近红外、中红外光谱的照射下也会表现出不同的光谱特征,因此可以利用这些特征来鉴别中药材的种类及产地。本文利用药材的光谱数据进行作图,通过对所作图的分析比较确定中药材的种类和产地。

二 问题分析

根据近红外和中红外光谱数据,鉴别不同中药材的种类和同种中药材的不同产地,分析中药材的特征与差异性。问题一,已知不同中药材中红外的光谱数据,分析各药材的特征以及它们之间的差异性,并且对中药材的种类进行判别。问题二,通过一种中药材在不同产地的中红外光谱数据,研究不同产地的特征与差异,

判别药材的产地,给出所需编号的药材的产地。

针对问题一,将药材的光谱数据以每十个药材编号为一组进行分组,作出其中红外光谱曲线图,与题目中所给图进行比较判断其药材差异性及药材种类。针对问题二,先利用对药材的产地进行筛选,后在同一产地下求其药材吸光度的平均值,作出其平均吸光度光谱曲线图,分析不同产地药材的差异与特征,并鉴别药材的所属产地。

三 结果分析

问题一:

通过不同药材的光谱数据,将药材的编号每10个为一个单位,运用Excel软件中的画图工具,进行绘制不同编号药材的中红外光谱曲线图。

第一步,异常数据的处理——通过对所有编号药材的中红外光谱曲线图的分析,提取出三个编号的中红外光谱曲线图比较特殊。当光谱波数较小时,药材的吸光度相对与其它药材要高很多,所以这三组数据为异常数据。

第二步,分析不同种类药材的特征——根据支撑材料所有编号药材的中红外光谱曲线图,在同一波数下,不同编号药材的吸光度相似。通过分析、提取出具有不同特征的中红外光谱曲线图。在波数为1000cm-1左右,药材对应的吸光度出现峰值,其值为0.15AU(上下浮动);在波段[652,1800]和[2857,3592]区间,随着波数的增长,药材的吸光度变化幅度大,不具有稳定性,然而,在波段(1800,2857)和(3592,3999)区间,其药材的吸光度趋于稳定。

第三步,分析不同种类药材的差异性——通过第二步中,对具有不同特征药材的中红外光谱曲线图,分别抽取一种药材作为代表,更能直观的看出药材之间的差异性。

最后,鉴别药材的种类——根据第二步药材的特征可知,药材的种类大体分为四类。通过第二步中部分药材中红外光谱曲线图与题目中的图1做对比,但由于第二步分析出来,不仅只有两个种类的特征 ,因此,将具有其它特证的药材鉴别为药材X和药材Y[1]

问题二:

(1)数据处理:

对附件2中的数据进行筛选,提取出同一产地的光谱数据。

(2)求每一产地药材吸光度的平均值:

设在每一波数下,同一产地药材的吸光度为x1,x2,3...... xn,则该产地的药材吸光度的平均值[2]为:61a88f76c3350_html_540ec9edea6a02d5.gif61a88f76c3350_html_c7749c515a86d83e.gif61a88f76c3350_html_ce87846c13b01a34.gif61a88f76c3350_html_804ba2cab85053e4.gif61a88f76c3350_html_9e0baf74d84b151c.gif

(3)绘制图表:

通过药材吸光度的平均值,运用Excel画出光谱曲线图。分析同种药材不同产地的特征和差异——通过药材的平均吸光度的数据 ,制作11个产地的光谱曲线图,由题目可知,因为在不同产地的同一药材下,同一波段内的光谱比较接近,所以通过对每一产地药材的吸光度求平均值,来代表同一产地所有编号药材的吸光度。

对于产地1,药材吸光度的初始值为0.33AU,在1050cm-1波数左右出现两次峰值约为0.7AU,在3337cm-1波数左右,出现最大峰值。对于产地2,药材的吸光度的初始值为0.39AU,在波数[1046,1706]范围内吸光度的升降变化比较频繁,且峰值约为0.9AU,在波数为2100cm-1 时吸光度出现最小值0.06AU。对于产地3,药材的吸光度的初始值为0.32AU,在波数[1000,1800 ]范围内出现两次波谷且数值为0.3AU。对于产地4,药材吸光度随波数的增加变化较小,且波峰出现在波数为1625cm-1 时。对于产地5,药材的吸光度的初始值为0.36AU,且在不同波速下波峰数值突破0.9AU。对于产地6,药材的吸光度的初始值为0.37AU,药材吸光度在波速[1648,1795]范围内出现锐减,随后变化较为平稳。对于产地7,药材的吸光度的初始值为0.36AU,在波速3356 cm

-1左右出现峰值为0.88AU,在出现波峰后药材的吸光度随波度的增加而逐渐减小。对于产地8,药材的吸光度的初始值为038AU,在药材的吸光度随波数的增加过程中,出现三个相同的峰值约为0.90AU。对于产地9,药材的吸光度的初始值为0.37AU,药材吸光度的峰值出现在波数为1540 cm-1且在波数为[2360,3350]范围内呈现增长趋势。对于产地10,药材的吸光度的初始值为0.31AU,在该产地下药材的吸光度随波数的变化增减幅度较小且峰值出现在波数为3200 cm-1附近。对于产地11,药材的吸光度的初始值为0.33AU,药材吸光度先随波数的增加而减小在范围[900,1600]内吸光度不断变化最后达到峰值,随后吸光度不断减小且在[1700,2500]范围内变化逐渐平稳。

给出所需编号药材的产地——通过对比所给编号药材与11个产地药材的光谱图做对比,分析可以通过它们的波动曲线幅度,鉴别编号药材的产地,其结果如下:

表1 不同编号药材鉴定结果

No

3

14

38

48

58

71

79

86

89

110

134

152

227

331

618

OP

3

1

4

6

10

9

4

6

3

4

10

6

4

2

1


四 结语

中药材的真假、质量的好坏,会直接影响临床应用的效果和患者的生命安全。所以对于中药材的鉴别有着十分重要的意义。然而,现代科学技术的发展,中药材的鉴别方法更是种类繁多。本文利用中药材的近红外,中红外的光谱数据,绘制出光谱曲线图,分析每种图的趋势、峰值、斜率以及初始点,把相同的划分为一类,通过对比得出药材A,药材B药材C。在筛选出同一产地的光谱数据,求出平均值,然后绘制所给编号的药材光谱曲线图,再与平均吸光度的光谱图进行对比,得出它们的特征与差异性,写出所求编号的产地。利用光谱数据鉴别中药材已成为国际发展的趋势,具有重大意义。

参考文献

  1. 司守奎、孙玺菁.数学建模算法与应用[M].北京,国防工版社,2011年.

  2. 吴孟达,成礼智.数学建模的理论与实践[M].长沙,国防科技大学出版社,1999年