2023-09-27 14:35:49
浏览:
导语
今天给同学们分享一篇机器学习+实验的生信文章“Identification of m6a-related signature genes in esophageal squamous cell carcinoma by machine learning method”,这篇文章于2023年1月17日发表在Front Genet期刊上,影响因子为4.772。
作者旨在通过机器学习构建和验证食管鳞状细胞癌(ESCC)相关的m6A调节因子。
1. m6A RNA甲基化调节因子在食管鳞状细胞癌中的表达
作者使用从四川大学华西医院胸外科收集的66个ESCC样本的转录组数据来分析m6A RNA甲基化调节因子的mRNA表达水平。生成热图以可视化21种m6A调节因子的表达,这些调节因子在ESCC和正常组织之间存在显著差异(图1A)。与正常组织相比,ESCC中18种m6A调节因子(METTL3、METTL16、WTAP、VIRMA、RBM15、CBLL1、YTHDF1、YTHDF3、HNRNPC、FMR1、LRPPRC、HNRNPA2B1、IGFBP3、RBMX1、ELAV1、IGF2BP1、FTO和ALKBH5)的mRNA表达水平显著增加。其他3种调节因子(RBM15B、YTHDC1、YTHDC2)在ESCC中下调(图1B)。然后,作者使用来自TCGA-ESCA数据库的转录组数据,使用相同的方法分析m6A RNA甲基化调节因子的mRNA表达水平。类似地,作者发现7种m6A调节因子(YTHDF1、HNRNPC、FMR1、HNRNPA2B1、IGFBP3、ELAVL1和IGF2BP1)的mRNA表达在ESCC中与正常组织相比显著上调,而METTL3、RBM15B、YTHDC2和IGFBP2在ESCC显著下调。
图1 RNA-seq数据和TCGA-ESCA数据中不同m6A RNA甲基化调节因子的表达
2. 利用机器学习筛选食管鳞状细胞癌相关的m6A调节因子
作者首先对我院的转录组数据使用了RF(随机森林)和SVM(支持向量机)机器学习方法,将上述21个m6A基因的表达作为自变量,将正常组和ESCC组作为结果变量纳入RF和SVM模型。作者分析了两个模型的箱线图和累积残差分布,以确定哪一个模型具有更好的性能。图2A显示,RF的平均残差值为.00467,SVM为.00471。RF的残差逆累积分布线大部分位于SVM的残差线内(图2B),表明RF的预测值与真实值之间的差异较小,模型更准确。因此,作者选择RF模型来预测ESCC相关的m6A基因。从图2C中可以看出,ESCC组误差(红色)、正常组误差(绿色)和总样本误差(黑色)的交叉验证***小误差点为.076,对应于233个***随机森林树。通过RF模型进一步获得ESCC相关m6A基因的重要性评分。Gini评分平均值越高,该基因就越重要。***,作者得出IGFBP3、HNRNPA2B1、YTHDF1、YTHDC1、HNRNPC、YTHDF3、WTAP、FTO和RBM15是与ESCC显著相关的m6A调节因子(图2D)。同样,作者将从TCGA-ESCA数据库中筛选出的上述11种m6A调节因子导入RF和SVM模型,其中RF的平均残差值为0.00122,SVM为0.00198(图3A)。RF的残差逆累积分布线主要位于SVM的残差线内(图3B),作者选择RF模型来预测ESCC的本征基因。ESCC组误差(红色)、正常组误差(绿色)和总样本误差(黑色)的交叉验证***小误差点为.076,对应于18个***随机森林树(图3C)。通过平均Gini评分下降,HNRNPC、FMR1以及YTHDF1是与ESCC显著相关的m6A调节因子(图3D)。
图2 使用机器学习在作者的RNA-seq数据中找到ESCC相关的m6A调节因子
图3 使用机器学习在TCGA-ESCA数据库中查找与ESCC相关的m6A调节器
3. 食管鳞状细胞癌相关m6A调节因子预测能力的验证
通过Venn图,在作者的RNA-seq数据和基于机器学习的TCGA-ESCA数据库中筛选出的与ESCC显著相关的m6A调节因子交集,然后筛选出本研究中***终与ESCC相关的m6A调节因子:YTHDF1和HNRNPC(图4A)。作者构建了列线图,以直观地展示ESCC相关m6A调节器对正常组和ESCC组的预测能力(图4B)。列线图显示,YTHFD1对ESCC风险的贡献***,其次是HNRNPC。这些系数用于分配这些独立因素的分数。***,这些分数的总和可以用来预测ESCC的风险(图4B)。根据ROC曲线,作者得出模型的AUC为.877(图4C)。列线图的校准图如图4D所示,这表明ESCC概率的预测风险与真实世界的观察结果非常一致。同时,作者还建立了临床决策曲线预测模型。结果显示,当YTHDF1和HNRNPC被用作预测ESCC发生的标志基因时,患者的净增益更高,这表明该模型值得使用(图4E)。***,在临床决策曲线的基础上,进一步绘制了临床影响曲线(CIC)。红色曲线(数字高风险)表示在每个阈值概率下被模型分类为阳性(高风险)的人数。蓝色曲线(有结果的高风险数字)是每个阈值概率下的真阳性数量。结果表明,蓝色曲线在红色曲线内,表明该模型具有良好的分类能力。这也表明YTHDF1和HNRNPC可以被认为是与ESCC发病机制显著相关的生物标志物。同时,作者还根据YTHDF1和HNRNPC的RNA-seq数据进行了PPI分析。
图4 确定与ESCC相关的m6A监管机构,建立风险模型,并验证模型预测能力
4. 食管鳞状细胞癌危险性分组的预后和临床病理意义
关于AUC值为0.877,在TCGA-ESCA数据库中生成热图,显示高风险组和低风险组的临床病理特征、HNRNPC和YTHDF1 mRNA表达水平的差异。值得注意的是,高危组与晚期N期(p<.05)和M期(p<.05)显著相关(图5A)。同时,进行了单变量和多变量COX分析,其中TCGA-ESCA数据库中的单变量分析中,风险分组和TNM分期与OS显著相关。当将统计学显著特征纳入多变量分析时,***终,风险分组和TNM分期也被确定为ESCC患者的独立预后因素(图5B,C)。然后,作者在TCGA-ESCA队列中通过Kaplan-Meier生存率分析验证了风险分组的预后作用,该分析显示,高危组患者的总生存率明显低于低风险组患者(图5D)。
图5 TCGA-ESCA数据库中风险分组的临床意义
5. YTHDF1和HNRNPC在食道鳞状细胞癌组织和临床食管鳞状细胞癌队列中的实验验证
由于YTHDF1和HNRNPC在mRNA水平上的表达如图1所示,其中,作者的RNA-seq数据和TCGA-ESCA数据库的结果显示,YTHDF1与HNRNPC的表达显著高于正常组织样本。然后,在从华西医院采集的5对新鲜冷冻ESCC标本和相关的邻近正常组织中,通过蛋白质印迹验证YTHDF1和HNRNPC在ESCC组织中的蛋白质水平。与邻近的正常组织相比,ESCC组织中YTHDF1和HNRNPC的蛋白水平均显著较高(图6A)。为了更准确地检测YTHDF1和HNRNPC在ESCC中的表达,作者对ESCC组织切片进行了免疫组织化学检查(图6B)。表1和表2中列出了ESCC组织切片中YTHDF1和HNRNPC表达的临床病理特征。就生存率而言,中位随访时间为20.6个月,在作者的研究中为1.0至61.6个月。根据Kaplan-Meier曲线,具有较高HNRNPC(p=0.003,图6C)和YTHDF1表达(p=0.017,图6D)的ESCC患者的预后分别显著较差。经过Cox多变量回归分析,YTHDF1和HNRNPC的表达分别是与ESCC相关的独立预后因素。通过作者的RNA-seq数据分析了蛋白质-蛋白质相互作用(PPI),以找出与YTHDF1或HNRNPC潜在的相关基因(图6E)。相关分析表明,所有调节因子均呈正相关,其中METTL3、DDX5、DDX3X、ALKBH5和FTO均与HNRNPC显著相关。
图6 Western印迹、免疫组织化学染色和PPI网络分析对YTHDF1和HNRNPC的实验验证
总结
在这项研究中,作者使用作者医院的转录组数据和TCGA-ESCC数据库,通过机器学习筛选出两种与ESCC相关的m6A RNA甲基化调节因子:YTHDF1和HNRNPC。WB和IHC证实了YTHDF1和HNRNPC的表达与ESCC患者的预后和临床病理特征的相关性。基于作者构建的m6A RNA甲基化调节因子的风险预测模型,这可能为未来制定诊断和治疗策略提供重要信息。对这篇文章的思路感兴趣的老师,欢迎扫码咨询!
生信分析定制服务
请扫描下方二维码
点在看,SCI马上发表
文章内容如有侵权,请联系站长删除。
相关推荐
卷王必看!非肿瘤+WGCNA+单细胞,快...
7+差异分析+WGCNA+PPI网络,学...
探讨m6调控因子与人类癌症之间的因果关系...
单基因泛癌+实验简单验证,要素丰富,没研...
快来看看如何拿下7+干湿结合生信思路!赶...
经典泛癌纯生信思路,适合小白学习!赶紧来...
5+泛癌+免疫,这种生信思路?看这篇就够...
5+单基因泛癌范文式教学,适合小白学习!...
39+!又是一篇惊鸿巨作,教你如何打造高...
5+单细胞+铜死亡+实验,干湿结合生信思...
3+铜死亡+WGCNA,铜死亡为什么打得...
3+单细胞+代谢+WGCNA+机器学习,...
4+m6A+机器学习+分型,要素过多,没...
5+非肿瘤+细胞凋亡相关生信思路,请自行...
又见非肿瘤泛癌分析!学会这个8+非肿瘤+...
热点机制推荐!5+缺氧+铁死亡+分型生信...
非同一般的5+机器学习+分型+免疫的生信...
8+非肿瘤免疫浸润+机器学习+动物验证,...
5+单基因+甲基化+实验分析,强烈推荐!
8+单细胞marker基因生信思路,快来...
双重热点,8+M2巨噬细胞+分型生信思路...
8+双疾病+转录调控+分子对接生信思路,...
简单易懂的7+非肿瘤生信思路,轻松复现!
高分文章秘籍!10+炎症反应相关+分型生...
双热点机制结合!5+铜死亡+铁死亡相关基...
8+机器学习+TRP+体外实验高分思路,...
***6+双癌种+激素代谢相关构建预后模型...
***6+TRP+泛癌分析生信思路,不容错...
想发文章还没思路?5+基于肿瘤免疫的ln...
5+差异+PPI+生存分析鉴定关键基因,...
3+肿瘤+预后模型+甲基化,经典组合机制...
7+线粒体相关基因预后模型+肿瘤微环境+...
非肿瘤纯生信拿下7+!!多种机器学习算法...
内质网应激又玩出了什么新花样?脂质代谢+...
16+sci!!多重免疫组织化学+CIB...
8+肿瘤+多组机器学习+分型,汇集10种...
模范思路!单基因泛癌+实验轻松拿捏sci...
国自然研究热点SUMO化如何开展研究?这...
强势得分套路之一:单基因泛癌+实验验证轻...
不到一个月就接收的文章!!这篇5+铁死亡...
常规生信思路内再创新!泛凋亡+分型+预后...
11+单基因泛癌,转录组+单细胞+机器学...
8+容易拿分的思路!共病+WGCNA+机...
8+单细胞生信发文思路:探讨肿瘤微环境的...
探讨肠道微生物群与癌症之间的因果关系,纯...
8+线粒体自噬+铁死亡+分型+实验,双热...
8+内质网应激+分型+分子对接,结合WG...
5+肿瘤+预后模型+实验,这种文章课题两...
凋亡+自噬+焦亡!三重经典热点联手,预后...
5+单细胞+分子对接生信思路,干湿结合的...
聚焦“泛素化修饰”的生信分析思路,搭配分...
8+非肿瘤分析!WGCNA+机器学习筛选...
8+NETosis+机器学习+表达验证,...
强烈推荐!5+共病+MPL网络生信思路,...
8+机器学习+分型,一文剖析常见的双疾病...
8+肠道微生物群+孟德尔随机化,高分SC...
8+生物信息学+机器学习,机器学习加持生...
5+泛癌+孟德尔随机化生信思路,SCI轻...
8+双硫死亡+分型+预后模型生信思路,既...
6+孟德尔随机化生信思路,简单几张图教你...
5+非肿瘤生信思路经典思路,没有机器学习...
5+基于谷氨酰胺代谢在肿瘤中的分型,结合...
10+非肿瘤!热点基因集+单细胞+多数据...
涨分利器!8+单基因泛癌+甲基化+实验,...
5+m6A/m5C+分型生信思路,研究调...
热点机制推荐!!8+双硫死亡+分型+预后...
紧跟2023国自然热点!8+线粒体自噬+...
9+氧化应激+肠道微生物群+孟德尔随机化...
6+肠道微生物群+孟德尔随机化,孟德尔随...
5+乳酸化修饰+预后模型,肿瘤纯生信分析...
5+肿瘤+预后模型+实验,胶原家族蛋白如...
8+中性粒细胞+分型+单细胞,结合WGC...
6+孟德尔随机化,孟德尔随机化已成大热趋...
5+肿瘤+预后模型,探讨胶原蛋白相关基因...
9+代谢+分型,基于代谢通路对肝癌进行分...
8+结合10种机器学习算法构建模型,可复...
6+单细胞+多组机器学习,搭配热点基因集...
8+干细胞+多组机器学习,结合机器学习与...
8+双疾病联合生信分析搭配机器学习+实验...
墙裂推荐!8+中性粒细胞+预后模型+分子...
11+肠道微生物群+孟德尔随机化,孟德尔...
11+孟德尔随机化+GWAS分析,又是一...
10+家族基因+泛癌+空间转录组生信思路...
8+铜死亡+铁死亡+分型生信思路,多热点...
6+孟德尔随机化,套路简约却不简单,教你...
9+单细胞+代谢+分型,基于代谢通路对肝...
5+m7G+分型+单细胞生信思路,这个热...
10+肿瘤+分型生信思路解析,还没有设计...
6+非肿瘤+Friends分析+实验生信...
8+脂肪酸代谢+预后模型,刚发布一周的高...
想发“肿瘤+分型+微生物”的文章真不难,...
***4+单基因+单细胞生信思路!可借鉴可...
看看RNA结合蛋白+人工神经网络+外部验...
这篇15+的纯干货生信文章教你如何玩转孟...
5+Bluk+单细胞+分型+实验,经典好...
12+单细胞+泛癌生信思路,要素丰富,思...
8+失巢凋亡+分型+风险模型+泛癌生信思...
8+NAM+分型+单细胞生信思路,纯生信...
8+非肿瘤+线粒体+实验生信思路解析,好...
被这篇6+单基因泛癌生信思路的“骚操作”...