2023-10-08 17:07:14
浏览:
导语
今天给同学们分享一篇非肿瘤+人工神经网络的生信文章“An artificial neural network model to diagnose non-obstructive azoospermia based on RNA-binding protein-related genes”,这篇文章于2023年4月24日发表在Aging (Albany NY)期刊上,影响因子为5.955。
非梗阻性无精子症(NOA)是一种严重的男性不育,但其病理机制和诊断生物标志物尚不清楚。由于RNA结合蛋白(RBPs)的失调对精子发生具有不可忽视的影响,作者旨在研究RBPs在NOA中的功能和诊断价值。
1. 51种RBPs在对照和NOA样品之间有差异表达
流程示意图如图1所示,以图形方式描述了这项研究的方法。首先,作者比较了从先前研究中收集的1542个RBPs在GSE9210队列中对照和NOA病例睾丸样本中的mRNA表达水平。结果表明,1542个RBP中有51个差异表达,如火山图(图2A)和热图(图2B)所示。功能注释显示,51个差异表达基因(DEG)主要参与翻译调节、RNA代谢、RNA稳定性调节和精子发生过程,这表明RBPs在NOA的发病机制中具有巨大作用(图2C)。
图1 本研究的工作流程
图2 51种差异表达的RBPs及其功能富集
2. PPI网络建设
作者构建了PPI网络,以进一步探索51个DEG在蛋白质水平上的内部接触和相互作用。图3A说明了已建立的PPI网络,其中节点的大小表示GSE9210队列中相应logFC的***值。将网络中基因的重要性和影响量化为程度,并确定和选择程度***的前20个基因进行下一步研究(图3B)。
图3 51个RBP的PPI网络分析
3. 通过特征选择算法和PPI网络分析识别DDX20和NCBP2
通过LASSO回归,5个基因被鉴定为NOA的重要特征(图4A),包括NCBP2、DDX20、TSN、SRPK2和CARHSP1。LASSO回归模型中这些基因的系数分别为−0.121、−0.703、−0.770、−0.921和−0.178(图4B)。同时,通过Boruta算法从51个DEG中选择30个(图4C),并通过SVM-RFE筛选6个基因,包括NCBP2、DDX20、CCDC86、TSN、CARHSP1和TDRD7(图4D)。***终,通过整合PPI网络中具有***程度的前20个基因和这些特征选择结果来识别NCBP2和DDX20(图4E),然后将其纳入诊断模型构建。
图4 通过特征选择方法和PPI网络分析确定了DDX20和NCBP2
4. DDX20和NCBP2的外部验证
432个睾丸细胞样本的scRNA-seq数据表明,DDX20(标称P<0.001,FDR<0.001)和NCBP2(标称P<0.01,FDR=0.05)均与精子发生过程呈正相关(图5A),再次证实DDX20和NCBP1是NOA的重要生物标志物。接下来,作者从当地医院收集了27名对照组和17名NOA患者的精浆和睾丸活检,以进行验证。与对照样品相比,NOA样品精浆中DDX20(P<0.01,图5B)和NCBP2(P<0.05,图5C)的mRNA水平较低,这表明精浆中的DDX20和NCBP1水平也是NOA有希望的诊断生物标志物。ROC分析显示,精浆中的DDX20是NOA的有力分类器(曲线下面积[AUC]=0.826,95%置信区间[CI]=0.706–0.946,图5D),而NCBP2的预测性能相对较低(AUC=0.693,95%CI=0.534–0.852,图5D),这可能是由不同队列的异质性引起的。因此,作者随后使用IHC染色研究了本地队列中DDX20的蛋白质水平,结果支持了之前得出的结论,即DDX20在NOA睾丸样本中显著下调(P<0.05,图5E)。
图5 DDX20和NCBP2的外部验证
5. LR、RF和ANN诊断模型的性能
本研究利用多个数据集,包括GSE9210、GSE45885、GSE45.87和GSE145467,以及本地临床样本来验证所建立模型的预测能力。需要说明的是,作者使用精浆(而不是睾丸样本)中的mRNA表达值来验证本地队列中的模型,因为根据我院伦理委员会制定的政策,无法获得新鲜的睾丸样本。由于作者已经检测到DDX20和NCBP2在精浆中的表达,并发现这两个基因在NOA样本中都被下调,这与训练数据集中的结果相对应,作者认为在来自本地队列的精浆样本中的验证仍然是可以接受的。
首先,构建了LR诊断模型,其中EXP表示基因的mRNA表达值。LR模型在训练队列中的预测能力相当高(AUC=0.955,95%CI=0.865–1.000,图6A)。然而,它在GSE45885队列(AUC=0.514,95%CI=0.256–0.772,图6B)和GSE45887队列(AUC=0.531,95%CI=0.267–0.795,图6C)中的表现并不理想。GSE145467和局部队列中LR模型的AUC分别为0.700(95%CI=0.493–0.907,图6D)和0.597(95%CI=0.465–0.729,图6E)。这些队列中LR模型的混淆矩阵分别如图6F–6J所示。一般来说,LR模型的预测能力远不能令人满意,尤其是在外部验证队列中,这启发了作者利用更多的工具来构建诊断模型。
图6 LR诊断模型在每个队列中的预测性能
随后,作者建立了一个RF模型来对NOA样本进行分类。RF模型在训练数据集(AUC=1.000,95%CI=1.000–1.000,图7A)、GSE45885数据集(AUC=0.6776,95%CI=0.385–0.967,图7B)、GSE4 5887数据集(AUC=0.656,0.381–0.932,图7C)、GSE145467数据集(AOC=0.750,95%CI=0.562–0.938,图7D)和局部队列(AUC=0.656,95%CI=0.547–0.765,图7E)中显示出优于常规LR模型的优势。图7F–7J表示每个队列中RF模型的混淆矩阵。
图7 射频诊断模型在每个队列中的预测性能
人工神经网络也是一种广泛使用的诊断模型建立方法,已经提出了许多人工神经网络诊断模型,并在多种疾病中表现出高可靠性和准确性。因此,作者基于NOA中DDX20和NCBP2的表达开发了一个ANN诊断模型,如图8A所示。与之前的贡献类似,已建立的ANN模型在训练队列中显示出较高的预测性能,图8G-8K显示了这些队列的混淆矩阵。ANN模型在局部队列中的表现并不令人满意(AUC<0.7),但考虑到不同的样本类型和基因表达检测方法,作者认为结果仍然可以接受。总的来说,在不同队列之间高度异质性的背景下,人工神经网络模型是一种很有前途的对NOA样本进行分类的工具。
图8 人工神经网络诊断模型的建立与验证
在这里,作者主要从AUC方面来衡量这些模型的预测性能。然而,其他评估指标,包括准确性、精密度、召回率、F-测量、敏感性、特异性、阳性预测值和阴性预测值,也提供了参考。
6. DDX20和NCBP2相关基因的功能
图9A和9B分别显示了与DDX20和NCBP2连接***的前20个基因及其相互作用模式。DDX20相关基因主要涉及细胞转录、RNA修饰、RNA剪接、RNA定位和RNA稳定性维持(图9C)。NCBP2相关基因主要富集于mRNA和miRNA处理、RNA稳定性调节和DNA修复(图9D)。这些数据揭示了进一步阐明DDX20和NCBP2的生物学功能的线索。
图9 与DDX20和NCBP2相关的基因及其功能富集
总结
总之,作者提出了一个基于RBP DDX20和NCBP2的NOA神经网络诊断模型,该模型在多个公共数据集和临床样本中进行了外部验证,为阐明发病机制提供了可能的切入点,也是临床实践中一个有前途的工具。对这篇文章的思路感兴趣的老师,欢迎扫码咨询!
生信分析定制服务
请扫描下方二维码
点在看,SCI马上发表
文章内容如有侵权,请联系站长删除。
相关推荐
卷王必看!非肿瘤+WGCNA+单细胞,快...
7+差异分析+WGCNA+PPI网络,学...
探讨m6调控因子与人类癌症之间的因果关系...
单基因泛癌+实验简单验证,要素丰富,没研...
快来看看如何拿下7+干湿结合生信思路!赶...
经典泛癌纯生信思路,适合小白学习!赶紧来...
5+泛癌+免疫,这种生信思路?看这篇就够...
5+单基因泛癌范文式教学,适合小白学习!...
39+!又是一篇惊鸿巨作,教你如何打造高...
5+单细胞+铜死亡+实验,干湿结合生信思...
3+铜死亡+WGCNA,铜死亡为什么打得...
3+单细胞+代谢+WGCNA+机器学习,...
4+m6A+机器学习+分型,要素过多,没...
5+非肿瘤+细胞凋亡相关生信思路,请自行...
又见非肿瘤泛癌分析!学会这个8+非肿瘤+...
热点机制推荐!5+缺氧+铁死亡+分型生信...
非同一般的5+机器学习+分型+免疫的生信...
8+非肿瘤免疫浸润+机器学习+动物验证,...
5+单基因+甲基化+实验分析,强烈推荐!
8+单细胞marker基因生信思路,快来...
双重热点,8+M2巨噬细胞+分型生信思路...
8+双疾病+转录调控+分子对接生信思路,...
简单易懂的7+非肿瘤生信思路,轻松复现!
高分文章秘籍!10+炎症反应相关+分型生...
双热点机制结合!5+铜死亡+铁死亡相关基...
8+机器学习+TRP+体外实验高分思路,...
***6+双癌种+激素代谢相关构建预后模型...
***6+TRP+泛癌分析生信思路,不容错...
想发文章还没思路?5+基于肿瘤免疫的ln...
5+差异+PPI+生存分析鉴定关键基因,...
3+肿瘤+预后模型+甲基化,经典组合机制...
7+线粒体相关基因预后模型+肿瘤微环境+...
非肿瘤纯生信拿下7+!!多种机器学习算法...
内质网应激又玩出了什么新花样?脂质代谢+...
16+sci!!多重免疫组织化学+CIB...
8+肿瘤+多组机器学习+分型,汇集10种...
模范思路!单基因泛癌+实验轻松拿捏sci...
国自然研究热点SUMO化如何开展研究?这...
强势得分套路之一:单基因泛癌+实验验证轻...
不到一个月就接收的文章!!这篇5+铁死亡...
常规生信思路内再创新!泛凋亡+分型+预后...
11+单基因泛癌,转录组+单细胞+机器学...
8+容易拿分的思路!共病+WGCNA+机...
8+单细胞生信发文思路:探讨肿瘤微环境的...
探讨肠道微生物群与癌症之间的因果关系,纯...
8+线粒体自噬+铁死亡+分型+实验,双热...
8+内质网应激+分型+分子对接,结合WG...
5+肿瘤+预后模型+实验,这种文章课题两...
凋亡+自噬+焦亡!三重经典热点联手,预后...
5+单细胞+分子对接生信思路,干湿结合的...
聚焦“泛素化修饰”的生信分析思路,搭配分...
8+非肿瘤分析!WGCNA+机器学习筛选...
8+NETosis+机器学习+表达验证,...
强烈推荐!5+共病+MPL网络生信思路,...
8+机器学习+分型,一文剖析常见的双疾病...
8+肠道微生物群+孟德尔随机化,高分SC...
8+生物信息学+机器学习,机器学习加持生...
5+泛癌+孟德尔随机化生信思路,SCI轻...
8+双硫死亡+分型+预后模型生信思路,既...
6+孟德尔随机化生信思路,简单几张图教你...
5+非肿瘤生信思路经典思路,没有机器学习...
5+基于谷氨酰胺代谢在肿瘤中的分型,结合...
10+非肿瘤!热点基因集+单细胞+多数据...
涨分利器!8+单基因泛癌+甲基化+实验,...
5+m6A/m5C+分型生信思路,研究调...
热点机制推荐!!8+双硫死亡+分型+预后...
紧跟2023国自然热点!8+线粒体自噬+...
9+氧化应激+肠道微生物群+孟德尔随机化...
6+肠道微生物群+孟德尔随机化,孟德尔随...
5+乳酸化修饰+预后模型,肿瘤纯生信分析...
5+肿瘤+预后模型+实验,胶原家族蛋白如...
8+中性粒细胞+分型+单细胞,结合WGC...
6+孟德尔随机化,孟德尔随机化已成大热趋...
5+肿瘤+预后模型,探讨胶原蛋白相关基因...
9+代谢+分型,基于代谢通路对肝癌进行分...
8+结合10种机器学习算法构建模型,可复...
6+单细胞+多组机器学习,搭配热点基因集...
8+干细胞+多组机器学习,结合机器学习与...
8+双疾病联合生信分析搭配机器学习+实验...
墙裂推荐!8+中性粒细胞+预后模型+分子...
11+肠道微生物群+孟德尔随机化,孟德尔...
11+孟德尔随机化+GWAS分析,又是一...
10+家族基因+泛癌+空间转录组生信思路...
8+铜死亡+铁死亡+分型生信思路,多热点...
6+孟德尔随机化,套路简约却不简单,教你...
9+单细胞+代谢+分型,基于代谢通路对肝...
5+m7G+分型+单细胞生信思路,这个热...
10+肿瘤+分型生信思路解析,还没有设计...
6+非肿瘤+Friends分析+实验生信...
8+脂肪酸代谢+预后模型,刚发布一周的高...
想发“肿瘤+分型+微生物”的文章真不难,...
***4+单基因+单细胞生信思路!可借鉴可...
看看RNA结合蛋白+人工神经网络+外部验...
这篇15+的纯干货生信文章教你如何玩转孟...
5+Bluk+单细胞+分型+实验,经典好...
12+单细胞+泛癌生信思路,要素丰富,思...
8+失巢凋亡+分型+风险模型+泛癌生信思...
8+NAM+分型+单细胞生信思路,纯生信...
8+非肿瘤+线粒体+实验生信思路解析,好...
被这篇6+单基因泛癌生信思路的“骚操作”...