图片展示

看看RNA结合蛋白+人工神经网络+外部验证如何轻松拿5+!!!

2023-10-08 17:07:14

浏览:





导语


今天给同学们分享一篇非肿瘤+人工神经网络的生信文章“An artificial neural network model to diagnose non-obstructive azoospermia based on RNA-binding protein-related genes”,这篇文章于2023年4月24日发表在Aging (Albany NY)期刊上,影响因子为5.955。

非梗阻性无精子症(NOA)是一种严重的男性不育,但其病理机制和诊断生物标志物尚不清楚。由于RNA结合蛋白(RBPs)的失调对精子发生具有不可忽视的影响,作者旨在研究RBPs在NOA中的功能和诊断价值。


1. 51种RBPs在对照和NOA样品之间有差异表达

流程示意图如图1所示,以图形方式描述了这项研究的方法。首先,作者比较了从先前研究中收集的1542个RBPs在GSE9210队列中对照和NOA病例睾丸样本中的mRNA表达水平。结果表明,1542个RBP中有51个差异表达,如火山图(图2A)和热图(图2B)所示。功能注释显示,51个差异表达基因(DEG)主要参与翻译调节、RNA代谢、RNA稳定性调节和精子发生过程,这表明RBPs在NOA的发病机制中具有巨大作用(图2C)。

图1 本研究的工作流程

图2 51种差异表达的RBPs及其功能富集


2. PPI网络建设

作者构建了PPI网络,以进一步探索51个DEG在蛋白质水平上的内部接触和相互作用。图3A说明了已建立的PPI网络,其中节点的大小表示GSE9210队列中相应logFC的***值。将网络中基因的重要性和影响量化为程度,并确定和选择程度***的前20个基因进行下一步研究(图3B)。

图3 51个RBP的PPI网络分析


3. 通过特征选择算法和PPI网络分析识别DDX20和NCBP2

通过LASSO回归,5个基因被鉴定为NOA的重要特征(图4A),包括NCBP2、DDX20、TSN、SRPK2和CARHSP1。LASSO回归模型中这些基因的系数分别为−0.121、−0.703、−0.770、−0.921和−0.178(图4B)。同时,通过Boruta算法从51个DEG中选择30个(图4C),并通过SVM-RFE筛选6个基因,包括NCBP2、DDX20、CCDC86、TSN、CARHSP1和TDRD7(图4D)。***终,通过整合PPI网络中具有***程度的前20个基因和这些特征选择结果来识别NCBP2和DDX20(图4E),然后将其纳入诊断模型构建。

图4 通过特征选择方法和PPI网络分析确定了DDX20和NCBP2

 

4. DDX20和NCBP2的外部验证

432个睾丸细胞样本的scRNA-seq数据表明,DDX20(标称P<0.001,FDR<0.001)和NCBP2(标称P<0.01,FDR=0.05)均与精子发生过程呈正相关(图5A),再次证实DDX20和NCBP1是NOA的重要生物标志物。接下来,作者从当地医院收集了27名对照组和17名NOA患者的精浆和睾丸活检,以进行验证。与对照样品相比,NOA样品精浆中DDX20(P<0.01,图5B)和NCBP2(P<0.05,图5C)的mRNA水平较低,这表明精浆中的DDX20和NCBP1水平也是NOA有希望的诊断生物标志物。ROC分析显示,精浆中的DDX20是NOA的有力分类器(曲线下面积[AUC]=0.826,95%置信区间[CI]=0.706–0.946,图5D),而NCBP2的预测性能相对较低(AUC=0.693,95%CI=0.534–0.852,图5D),这可能是由不同队列的异质性引起的。因此,作者随后使用IHC染色研究了本地队列中DDX20的蛋白质水平,结果支持了之前得出的结论,即DDX20在NOA睾丸样本中显著下调(P<0.05,图5E)。

图5 DDX20和NCBP2的外部验证


5. LR、RF和ANN诊断模型的性能

本研究利用多个数据集,包括GSE9210、GSE45885、GSE45.87和GSE145467,以及本地临床样本来验证所建立模型的预测能力。需要说明的是,作者使用精浆(而不是睾丸样本)中的mRNA表达值来验证本地队列中的模型,因为根据我院伦理委员会制定的政策,无法获得新鲜的睾丸样本。由于作者已经检测到DDX20和NCBP2在精浆中的表达,并发现这两个基因在NOA样本中都被下调,这与训练数据集中的结果相对应,作者认为在来自本地队列的精浆样本中的验证仍然是可以接受的。


首先,构建了LR诊断模型,其中EXP表示基因的mRNA表达值。LR模型在训练队列中的预测能力相当高(AUC=0.955,95%CI=0.865–1.000,图6A)。然而,它在GSE45885队列(AUC=0.514,95%CI=0.256–0.772,图6B)和GSE45887队列(AUC=0.531,95%CI=0.267–0.795,图6C)中的表现并不理想。GSE145467和局部队列中LR模型的AUC分别为0.700(95%CI=0.493–0.907,图6D)和0.597(95%CI=0.465–0.729,图6E)。这些队列中LR模型的混淆矩阵分别如图6F–6J所示。一般来说,LR模型的预测能力远不能令人满意,尤其是在外部验证队列中,这启发了作者利用更多的工具来构建诊断模型。

图6 LR诊断模型在每个队列中的预测性能


随后,作者建立了一个RF模型来对NOA样本进行分类。RF模型在训练数据集(AUC=1.000,95%CI=1.000–1.000,图7A)、GSE45885数据集(AUC=0.6776,95%CI=0.385–0.967,图7B)、GSE4 5887数据集(AUC=0.656,0.381–0.932,图7C)、GSE145467数据集(AOC=0.750,95%CI=0.562–0.938,图7D)和局部队列(AUC=0.656,95%CI=0.547–0.765,图7E)中显示出优于常规LR模型的优势。图7F–7J表示每个队列中RF模型的混淆矩阵。

图7 射频诊断模型在每个队列中的预测性能


人工神经网络也是一种广泛使用的诊断模型建立方法,已经提出了许多人工神经网络诊断模型,并在多种疾病中表现出高可靠性和准确性。因此,作者基于NOA中DDX20和NCBP2的表达开发了一个ANN诊断模型,如图8A所示。与之前的贡献类似,已建立的ANN模型在训练队列中显示出较高的预测性能,图8G-8K显示了这些队列的混淆矩阵。ANN模型在局部队列中的表现并不令人满意(AUC<0.7),但考虑到不同的样本类型和基因表达检测方法,作者认为结果仍然可以接受。总的来说,在不同队列之间高度异质性的背景下,人工神经网络模型是一种很有前途的对NOA样本进行分类的工具。

图8 人工神经网络诊断模型的建立与验证


在这里,作者主要从AUC方面来衡量这些模型的预测性能。然而,其他评估指标,包括准确性、精密度、召回率、F-测量、敏感性、特异性、阳性预测值和阴性预测值,也提供了参考。


6. DDX20和NCBP2相关基因的功能

图9A和9B分别显示了与DDX20和NCBP2连接***的前20个基因及其相互作用模式。DDX20相关基因主要涉及细胞转录、RNA修饰、RNA剪接、RNA定位和RNA稳定性维持(图9C)。NCBP2相关基因主要富集于mRNA和miRNA处理、RNA稳定性调节和DNA修复(图9D)。这些数据揭示了进一步阐明DDX20和NCBP2的生物学功能的线索。

图9 与DDX20和NCBP2相关的基因及其功能富集


总结

总之,作者提出了一个基于RBP DDX20和NCBP2的NOA神经网络诊断模型,该模型在多个公共数据集和临床样本中进行了外部验证,为阐明发病机制提供了可能的切入点,也是临床实践中一个有前途的工具。对这篇文章的思路感兴趣的老师,欢迎扫码咨询!


生信分析定制服务

请扫描下方二维码

或添加微信沟通:ShengxinBoss1
往期回顾:
***强攻略1:史上***全单细胞生信数据库汇总解读
***强攻略2:史上***全非编码RNA生信数据库汇总解读
***强攻略3:史上***全外泌体生信数据库汇总解读
***强攻略4:史上***全甲基化表观调控生信数据库汇总解读
***强攻略5:史上***全转录调控生信数据库汇总解读
***强攻略6:史上***全网络药理学生信数据库汇总解读

在看,SCI马上发表

文章内容如有侵权,请联系站长删除。

相关推荐

我们的理念是“用我们的努力,为您创造更新颖的分析,更快速的响应”,我们将继续辅助各位老师,希望各位老师通过自己一步一步的努力始终以发表SCI为目的,让每一位老师都能感受到我们带给您的服务。

  • 专注生信,所以专业
  • 免费咨询
  • 硕博团队1V1服务
  • 7x24客服

联系我们

电话:15322234761

微信:15322234761(电话同步)

邮箱:pubmedgene@163.com

总部:广州市海珠区昌岗达镖国际中心

关注我们

企业微信

生信风暴公众号

智汇基因  粤ICP备10202590号-2

我们的理念是;用我们的努力,为您创造更新颖的分析,更快速的响应;,我们将继续辅助各位老师,希望各位老师通过自己一步一步的努力始终已发表SCI为目的,让每一位老师都能感受到我们带给您的服务。

关注我们

生信分析

定制服务

   公众号

联系我们

电话:15322234761

微信:15322234761(电话同步)

邮箱:pubmedgene@163.com

总部:广州市海珠区昌岗达镖国际中心


© 2010-2021 智汇基因ICP备10202590号-2

添加微信好友,详细了解产品
使用企业微信
“扫一扫”加入群聊
复制成功
添加微信好友,详细了解产品
我知道了