图片展示

8+非肿瘤分析!WGCNA+机器学习筛选相关基因,如此简单的纯生信思路也能发8+!

2023-10-30 10:21:50

浏览:


导语


今天给同学们分享一篇非肿瘤+WGCAN+机器学习的生信文章“Identification and validation of immune and oxidative stress-related diagnostic markers for diabetic nephropathy by WGCNA and machine learning”,这篇文章于2023年2月22日发表在Front Immunol期刊上,影响因子为8.786。

糖尿病肾病(DN)以蛋白尿、高血压和肾功能逐渐减退为特征,在发达***是终末期肾脏疾病***常见的原因,也给社会和经济带来了严重负担。研究表明,随着全球糖尿病患病率的上升,患有DN的人数也在增加,预计在未来20年左右,糖尿病患者将从5.37亿增加到7.83亿。然而,目前的治疗方法主要侧重于肾素-血管紧张素系统的阻断、血压管理和血糖控制。因此,迫切需要寻找糖尿病肾病诊断和治疗的新靶点。随着生物信息学的进步,近年来其研究技术已经广泛应用于探索多种疾病的靶点,包括糖尿病肾病。


 图1 流程图


1. 差异表达基因的鉴定

从GSE30528中获得了1696个差异表达基因(DEGs),并从Genecard数据库中挖掘出了另外855个与氧化应激相关的基因。通过对这两者的交集,生成了111个差异表达氧化应激基因(DEOSGs)(图2A-C)。

图2 筛选差异表达基因(DEGs)


2. 免疫浸润分析和加权基因共表达网络的构建

使用CIBERSORT算法,证明了五种免疫细胞类型在DN和对照样本中是可比较的,包括T细胞CD4初级、T细胞γδ、静息NK细胞、静息树突状细胞和静息肥大细胞(图3A)。

图3 免疫浸润分析和加权基因共表达网络的构建


在这项研究中,软阈值功率被校准为14(无标度R 2 = 0.85)(图3B)。***,WGCNA分析揭示了11个模块的总和(图3C)。特别是,绿色模块和品红色模块与T细胞CD4幼稚和γδ亚群呈强正相关。由于它们与免疫浸润细胞的关联显著,绿色和品红色模块被视为额外调查的对象。


3. DEIOSG的获取和功能丰富性分析

DEIOSGs是与WGCNA生成的品红色和绿色模块重叠的基因,共鉴定出24个DEIOSGs(图4A)

图4 DEIOSG的获取和功能丰富性分析


此外,作者通过GO和KEGG对24个差异表达的内源性氧化应激基因(DEIOSGs)进行了功能富集分析。在BP评估中,DEIOSGs主要参与超氧化物代谢过程、中性粒细胞激活等功能。在CC中,DEIOSGs定位于质膜外侧、内吞泡等结构。与MF相关的DEIOSG变化包括酰胺结合、整合素结合和超氧化物生成的NAD(P)H氧化酶活性(图4B)。根据KEGG分析,DEIOSGs在白细胞经内皮迁移、中性粒细胞外细胞陷阱形成、脂质和动脉粥样硬化、糖尿病心肌病、自然杀伤细胞介导的细胞毒作用等通路中特别丰富(图4C、D)。


4. 通过机器学习和蛋白质相互作用网络筛选中心基因

首先,使用LASSO回归算法从DEIOSGs中提取了6个基因(图5A)。其次,SVM-RFE算法确定了6个基因(图5B)。然后,RF算法选择了7个基因(图5C)。随后,通过Venn图将这三个基因重叠,***终得到了两个基因,即CD36和SLC1A3(图5D)。同时,通过PPI网络,作者通过cytoHubba插件获得了一个基因,即ITGB2(图6A,B)。***,通过这两种方法共同确定了3个中心基因,所有这些基因都上调表达。

图5 通过机器学习筛选核心基因

图6 通过蛋白质相互作用网络筛选关键基因


5. 表达中心基因和外部数据集的验证

与正常对照样本相比,作者在GSE30528数据集中发现这些基因在DN中的表达更高(图7A-C)。作者接下来使用另一个数据集确认了这些基因的表达情况,结果显示在GSE104948中,这些基因在DN中的表达也比对照组更强,并且它们在统计学上都具有显著性(图7D-F)。

图7 表达中心基因并验证外部数据集


6. ROC分析

为了探索这3个中心基因的诊断效能,作者进行了ROC曲线分析,其中AUC值大于0.7的中心基因被用作诊断标记。在GSE30528数据集中,CD36的AUC值为0.8215,SLC1A3的AUC值为0.9402,ITGB2的AUC值为0.9060(图8A-C)。

图8 ROC曲线分析


在GSE104948数据集中,CD36的AUC值为1.000(95% CI: 1.000-1.000),SLC1A3的AUC值为0.7937(95% CI: 0.5244-1.000),ITGB2的AUC值为0.9921(95% CI: 0.9669-1.000)(图8D-F)。


7. GSEA分析

根据GSEA的研究结果,CD36高表达组在原发性免疫缺陷和病毒蛋白与细胞因子及细胞因子受体的相互作用方面富集(图9A)。ITGB2高表达组主要集中在柠檬酸循环(TCA循环)和蛋白酶体(图9B)。移植物排斥、原发性免疫缺陷和系统性红斑狼疮都与SLC1A3表达增加有关(图9C)。

图9


8. 临床分析

在DN患者中,相关性分析显示CD36表达与肾小球滤过率(GFR)呈负相关(r = -0.860,p < 0.001),CD36表达与血清肌酐呈正相关(r = 0.887,p < 0.001)(图10A、B)。ITGB2表达与肾小球滤过率(GFR)呈负相关(r = -0.2031,p = 0.6002),但差异无统计学意义,而ITGB2表达与血清肌酐呈正相关(r = 0.5590,p = 0.020)(图10C、D)。

图10 相关性分析


9. 转录调控构建和潜在药物预测

使用JASPAR数据库,***终获得了31个转录因子(TFs),其中有9个转录因子的度≥2,它们是FOXC1,FOXL1,YY1,PPARG,STAT3,HINFP,MAX,USF1,USF2(图11A)。通过TarBase数据库预测了可能的miRNA,其中有10个miRNA的度≥2(图11B)。

图11 调控网络


在DSigDB数据库中筛选了87个潜在的治疗药物,筛选标准为调整后的p值<0.05。


10. 单细胞RNA测序

通过单细胞RNA测序,作者确定了CD36、ITGB2和SLC1A3在12个细胞群中的分布(图12A),其中CD36主要分布在内皮细胞中,而ITGB2和SLC1A3在白细胞中高度表达(图12B-D)。

图12 单核RNA测序


总结

总之,通过将三种机器学习算法与WGCNA分析相结合,本研究确定了三个中心基因,这些基因可能成为DN诊断和治疗的新靶点。




往期回顾:
***强攻略1:史上***全单细胞生信数据库汇总解读
***强攻略2:史上***全非编码RNA生信数据库汇总解读
***强攻略3:史上***全外泌体生信数据库汇总解读
***强攻略4:史上***全甲基化表观调控生信数据库汇总解读
***强攻略5:史上***全转录调控生信数据库汇总解读
***强攻略6:史上***全网络药理学生信数据库汇总解读

在看,SCI马上发表

文章内容如有侵权,请联系站长删除。

相关推荐

我们的理念是“用我们的努力,为您创造更新颖的分析,更快速的响应”,我们将继续辅助各位老师,希望各位老师通过自己一步一步的努力始终以发表SCI为目的,让每一位老师都能感受到我们带给您的服务。

  • 专注生信,所以专业
  • 免费咨询
  • 硕博团队1V1服务
  • 7x24客服

联系我们

电话:15322234761

微信:15322234761(电话同步)

邮箱:pubmedgene@163.com

总部:广州市海珠区昌岗达镖国际中心

关注我们

企业微信

生信风暴公众号

智汇基因  粤ICP备10202590号-2

我们的理念是;用我们的努力,为您创造更新颖的分析,更快速的响应;,我们将继续辅助各位老师,希望各位老师通过自己一步一步的努力始终已发表SCI为目的,让每一位老师都能感受到我们带给您的服务。

关注我们

生信分析

定制服务

   公众号

联系我们

电话:15322234761

微信:15322234761(电话同步)

邮箱:pubmedgene@163.com

总部:广州市海珠区昌岗达镖国际中心


© 2010-2021 智汇基因ICP备10202590号-2

添加微信好友,详细了解产品
使用企业微信
“扫一扫”加入群聊
复制成功
添加微信好友,详细了解产品
我知道了