图片展示

4+m6A甲基化+机器学习生信思路,不可错过!

2023-09-27 14:35:49

浏览:


导语


今天给同学们分享一篇机器学习+实验的生信文章“Identification of m6a-related signature genes in esophageal squamous cell carcinoma by machine learning method”,这篇文章于2023年1月17日发表在Front Genet期刊上,影响因子为4.772。


作者旨在通过机器学习构建和验证食管鳞状细胞癌(ESCC)相关的m6A调节因子。


1. m6A RNA甲基化调节因子在食管鳞状细胞癌中的表达

作者使用从四川大学华西医院胸外科收集的66个ESCC样本的转录组数据来分析m6A RNA甲基化调节因子的mRNA表达水平。生成热图以可视化21种m6A调节因子的表达,这些调节因子在ESCC和正常组织之间存在显著差异(图1A)。与正常组织相比,ESCC中18种m6A调节因子(METTL3、METTL16、WTAP、VIRMA、RBM15、CBLL1、YTHDF1、YTHDF3、HNRNPC、FMR1、LRPPRC、HNRNPA2B1、IGFBP3、RBMX1、ELAV1、IGF2BP1、FTO和ALKBH5)的mRNA表达水平显著增加。其他3种调节因子(RBM15B、YTHDC1、YTHDC2)在ESCC中下调(图1B)。然后,作者使用来自TCGA-ESCA数据库的转录组数据,使用相同的方法分析m6A RNA甲基化调节因子的mRNA表达水平。类似地,作者发现7种m6A调节因子(YTHDF1、HNRNPC、FMR1、HNRNPA2B1、IGFBP3、ELAVL1和IGF2BP1)的mRNA表达在ESCC中与正常组织相比显著上调,而METTL3、RBM15B、YTHDC2和IGFBP2在ESCC显著下调。

图1 RNA-seq数据和TCGA-ESCA数据中不同m6A RNA甲基化调节因子的表达


2. 利用机器学习筛选食管鳞状细胞癌相关的m6A调节因子

作者首先对我院的转录组数据使用了RF(随机森林)和SVM(支持向量机)机器学习方法,将上述21个m6A基因的表达作为自变量,将正常组和ESCC组作为结果变量纳入RF和SVM模型。作者分析了两个模型的箱线图和累积残差分布,以确定哪一个模型具有更好的性能。图2A显示,RF的平均残差值为.00467,SVM为.00471。RF的残差逆累积分布线大部分位于SVM的残差线内(图2B),表明RF的预测值与真实值之间的差异较小,模型更准确。因此,作者选择RF模型来预测ESCC相关的m6A基因。从图2C中可以看出,ESCC组误差(红色)、正常组误差(绿色)和总样本误差(黑色)的交叉验证***小误差点为.076,对应于233个***随机森林树。通过RF模型进一步获得ESCC相关m6A基因的重要性评分。Gini评分平均值越高,该基因就越重要。***,作者得出IGFBP3、HNRNPA2B1、YTHDF1、YTHDC1、HNRNPC、YTHDF3、WTAP、FTO和RBM15是与ESCC显著相关的m6A调节因子(图2D)。同样,作者将从TCGA-ESCA数据库中筛选出的上述11种m6A调节因子导入RF和SVM模型,其中RF的平均残差值为0.00122,SVM为0.00198(图3A)。RF的残差逆累积分布线主要位于SVM的残差线内(图3B),作者选择RF模型来预测ESCC的本征基因。ESCC组误差(红色)、正常组误差(绿色)和总样本误差(黑色)的交叉验证***小误差点为.076,对应于18个***随机森林树(图3C)。通过平均Gini评分下降,HNRNPC、FMR1以及YTHDF1是与ESCC显著相关的m6A调节因子(图3D)。

图2 使用机器学习在作者的RNA-seq数据中找到ESCC相关的m6A调节因子

图3 使用机器学习在TCGA-ESCA数据库中查找与ESCC相关的m6A调节器


3. 食管鳞状细胞癌相关m6A调节因子预测能力的验证

通过Venn图,在作者的RNA-seq数据和基于机器学习的TCGA-ESCA数据库中筛选出的与ESCC显著相关的m6A调节因子交集,然后筛选出本研究中***终与ESCC相关的m6A调节因子:YTHDF1和HNRNPC(图4A)。作者构建了列线图,以直观地展示ESCC相关m6A调节器对正常组和ESCC组的预测能力(图4B)。列线图显示,YTHFD1对ESCC风险的贡献***,其次是HNRNPC。这些系数用于分配这些独立因素的分数。***,这些分数的总和可以用来预测ESCC的风险(图4B)。根据ROC曲线,作者得出模型的AUC为.877(图4C)。列线图的校准图如图4D所示,这表明ESCC概率的预测风险与真实世界的观察结果非常一致。同时,作者还建立了临床决策曲线预测模型。结果显示,当YTHDF1和HNRNPC被用作预测ESCC发生的标志基因时,患者的净增益更高,这表明该模型值得使用(图4E)。***,在临床决策曲线的基础上,进一步绘制了临床影响曲线(CIC)。红色曲线(数字高风险)表示在每个阈值概率下被模型分类为阳性(高风险)的人数。蓝色曲线(有结果的高风险数字)是每个阈值概率下的真阳性数量。结果表明,蓝色曲线在红色曲线内,表明该模型具有良好的分类能力。这也表明YTHDF1和HNRNPC可以被认为是与ESCC发病机制显著相关的生物标志物。同时,作者还根据YTHDF1和HNRNPC的RNA-seq数据进行了PPI分析。

图4 确定与ESCC相关的m6A监管机构,建立风险模型,并验证模型预测能力

 

4. 食管鳞状细胞癌危险性分组的预后和临床病理意义

关于AUC值为0.877,在TCGA-ESCA数据库中生成热图,显示高风险组和低风险组的临床病理特征、HNRNPC和YTHDF1 mRNA表达水平的差异。值得注意的是,高危组与晚期N期(p<.05)和M期(p<.05)显著相关(图5A)。同时,进行了单变量和多变量COX分析,其中TCGA-ESCA数据库中的单变量分析中,风险分组和TNM分期与OS显著相关。当将统计学显著特征纳入多变量分析时,***终,风险分组和TNM分期也被确定为ESCC患者的独立预后因素(图5B,C)。然后,作者在TCGA-ESCA队列中通过Kaplan-Meier生存率分析验证了风险分组的预后作用,该分析显示,高危组患者的总生存率明显低于低风险组患者(图5D)。

图5 TCGA-ESCA数据库中风险分组的临床意义


5. YTHDF1和HNRNPC在食道鳞状细胞癌组织和临床食管鳞状细胞癌队列中的实验验证

由于YTHDF1和HNRNPC在mRNA水平上的表达如图1所示,其中,作者的RNA-seq数据和TCGA-ESCA数据库的结果显示,YTHDF1与HNRNPC的表达显著高于正常组织样本。然后,在从华西医院采集的5对新鲜冷冻ESCC标本和相关的邻近正常组织中,通过蛋白质印迹验证YTHDF1和HNRNPC在ESCC组织中的蛋白质水平。与邻近的正常组织相比,ESCC组织中YTHDF1和HNRNPC的蛋白水平均显著较高(图6A)。为了更准确地检测YTHDF1和HNRNPC在ESCC中的表达,作者对ESCC组织切片进行了免疫组织化学检查(图6B)。表1和表2中列出了ESCC组织切片中YTHDF1和HNRNPC表达的临床病理特征。就生存率而言,中位随访时间为20.6个月,在作者的研究中为1.0至61.6个月。根据Kaplan-Meier曲线,具有较高HNRNPC(p=0.003,图6C)和YTHDF1表达(p=0.017,图6D)的ESCC患者的预后分别显著较差。经过Cox多变量回归分析,YTHDF1和HNRNPC的表达分别是与ESCC相关的独立预后因素。通过作者的RNA-seq数据分析了蛋白质-蛋白质相互作用(PPI),以找出与YTHDF1或HNRNPC潜在的相关基因(图6E)。相关分析表明,所有调节因子均呈正相关,其中METTL3、DDX5、DDX3X、ALKBH5和FTO均与HNRNPC显著相关。

图6 Western印迹、免疫组织化学染色和PPI网络分析对YTHDF1和HNRNPC的实验验证


总结

在这项研究中,作者使用作者医院的转录组数据和TCGA-ESCC数据库,通过机器学习筛选出两种与ESCC相关的m6A RNA甲基化调节因子:YTHDF1和HNRNPC。WB和IHC证实了YTHDF1和HNRNPC的表达与ESCC患者的预后和临床病理特征的相关性。基于作者构建的m6A RNA甲基化调节因子的风险预测模型,这可能为未来制定诊断和治疗策略提供重要信息。对这篇文章的思路感兴趣的老师,欢迎扫码咨询!

生信分析定制服务

请扫描下方二维码

或添加微信沟通:ShengxinBoss1
往期回顾:
***强攻略1:史上***全单细胞生信数据库汇总解读
***强攻略2:史上***全非编码RNA生信数据库汇总解读
***强攻略3:史上***全外泌体生信数据库汇总解读
***强攻略4:史上***全甲基化表观调控生信数据库汇总解读
***强攻略5:史上***全转录调控生信数据库汇总解读
***强攻略6:史上***全网络药理学生信数据库汇总解读

在看,SCI马上发表

文章内容如有侵权,请联系站长删除。

相关推荐

我们的理念是“用我们的努力,为您创造更新颖的分析,更快速的响应”,我们将继续辅助各位老师,希望各位老师通过自己一步一步的努力始终以发表SCI为目的,让每一位老师都能感受到我们带给您的服务。

  • 专注生信,所以专业
  • 免费咨询
  • 硕博团队1V1服务
  • 7x24客服

联系我们

电话:15322234761

微信:15322234761(电话同步)

邮箱:pubmedgene@163.com

总部:广州市海珠区昌岗达镖国际中心

关注我们

企业微信

生信风暴公众号

智汇基因  粤ICP备10202590号-2

我们的理念是;用我们的努力,为您创造更新颖的分析,更快速的响应;,我们将继续辅助各位老师,希望各位老师通过自己一步一步的努力始终已发表SCI为目的,让每一位老师都能感受到我们带给您的服务。

关注我们

生信分析

定制服务

   公众号

联系我们

电话:15322234761

微信:15322234761(电话同步)

邮箱:pubmedgene@163.com

总部:广州市海珠区昌岗达镖国际中心


© 2010-2021 智汇基因ICP备10202590号-2

添加微信好友,详细了解产品
使用企业微信
“扫一扫”加入群聊
复制成功
添加微信好友,详细了解产品
我知道了