简介:摘要目的构建预测电离辐射诱导DNA双链断裂(DSB)水平的随机森林分类模型,初步研究DSB在基因组中的分布规律。方法将GRCh38参考基因组分为50 kb的片段,根据MCF-7细胞的测序数据把片段分为电离辐射诱导的DSB低水平和高水平区域,以8种表观遗传学特征作为输入,随机将数据集的2/3列为训练集,1/3列为测试集,构建含100棵决策树的随机森林分类模型。分析分类模型中表观遗传学的特征重要性,展示这些标记在不同DSB水平区域的富集差异。结果随机森林分类模型在测试集上预测的准确率为99.4%,精准率为98.9%,召回率为99.9%,受试者操作特征曲线下面积为0.994。8个特征中H3K36me3和DNase标记的重要性最高,富集分析表明DSB高水平区域的这两类标记明显高于DSB低水平区域。结论以表观遗传学数据作为特征输入,随机森林分类模型可在50 kb基因组区域上准确预测电离辐射诱导的DSB水平,分析表明这些DSB可能主要分布在基因组中转录活跃的部位。