生信学习,咨询,代做,请关注公众号:生信风暴。或添加客服微信:ShengxinBoss1

利用WGCNA生信分析挖掘非肿瘤疾病轻松发10+

生信精讲 管理员 248℃ 0评论
利用WGCNA生信分析挖掘非肿瘤疾病轻松发10+插图
今天和大家分享的是2019年2月份发表在Thorax杂志上的一篇文章(IF=10.844)“Gene correlation network analysis to identify regulatory factors in idiopathic pulmonary fibrosis”。文章中作者基于262个IPF和对照组进行交叉验证的差异基因表达分析,构建了一个相关调控因子的表达网络并进行系列分析,为该疾病的病理过程提供了新颖的见解。
Gene correlation network analysis to identify regulatory factors in idiopathic pulmonary fibrosis
利用基因相关网络分析确定特发性肺纤维化的调控因素

一、研究背景

特发性肺纤维化(IPF)是一种严重的肺部疾病,其特征是实质性纤维破坏并伴肺基底和周围区蜂窝性改变的常见间质性肺炎。虽然纤维化是该疾病的主要特征,并且在转录组学和组织学研究中已进行了广泛研究,但与IPF相关的其他原因尚未得以明晰。一些关于IPF的研究已经使用了转录组分析,为这种疾病提供了重要的见解。这些研究中使用的方法一般是单基因测试,而在体内基因通过具有相似生物学功能的共表达基因网络发挥作用。因此识别这些共表达模式将提供该疾病相关的生物途径的更多见解。

二、研究思路

利用WGCNA生信分析挖掘非肿瘤疾病轻松发10+插图1

三、结果解读

1 人口统计学数据

IPF和对照组织样本分为两组进行交叉验证分析。剔除异常值后,每个对照组保留51和53个样本,两个IPF组均保留79个样本。各组年龄、性别匹配,IPF组肺功能匹配。

利用WGCNA生信分析挖掘非肿瘤疾病轻松发10+插图2
表1本研究所有受试者的人口统计学数据

2 差异基因分析

IPF和对照组的交叉验证比较发现IPF中有6425个差异表达基因。这些基因的主成分分析显示,IPF组或对照组内的样本存在重叠,IPF组与对照组之间分离良好。差异表达基因也被用于绘制两个独立数据集和完整的LTRC数据集中的对照和IPF样本之间的分离,以显示IPF与其他疾病表型(如COPD)的分离。
利用WGCNA生信分析挖掘非肿瘤疾病轻松发10+插图3
图2.差异表达基因分析的欧拉图、主成分图、基因倍数变化图

3 WGCNA构建基因共表达网络

识别与IPF相关的模块

通过WGCNA在IPF队列中确定了16个模块,在IPF中上调了6个模块,下调了10个模块(图2C)。表2列出了每个模块的五个最相关的基因:
利用WGCNA生信分析挖掘非肿瘤疾病轻松发10+插图4
表2.各模块内相关排名前5位的基因列表
两个IPF组肺功能均与9个模块相关。DLCO与ME3、ME4、ME5、ME14呈负相关,与ME2、ME10、ME13、ME16呈正相关。FVC与ME4、ME5、ME9呈负相关,与ME10、ME16呈正相关。对照样本中无显著相关性,相关模块的热图如下:
利用WGCNA生信分析挖掘非肿瘤疾病轻松发10+插图5
图3.两个IPF组的共识模块与DLCO和FVC相关性

4 模块的生物功能

通过途径富集将模块分为几类:免疫应答(ME5,ME7,ME9,ME11,ME12);细胞外基质或收缩纤维(ME3,ME6,ME13,ME14);特定肺部结构(ME1,ME2)发育途径;细胞分裂、DNA复制和DNA修复(ME4);细胞代谢和分解代谢过程(ME8,ME15,ME16)和表面活性剂代谢(ME10)。表3列出了这些类别的生物功能富集:
利用WGCNA生信分析挖掘非肿瘤疾病轻松发10+插图6
利用WGCNA生信分析挖掘非肿瘤疾病轻松发10+插图7

4.1免疫反应

与免疫应答相关的模块显示出特定的炎症通路和基因图谱细胞类型。下调模块包括ME7、ME12、ME11。ME7富集白细胞活化(GO:0045321, p=2.55×10−10)、脱粒(GO:0043299, pP=4.75×10−8)、CD14 +单核细胞(p=7.96×10−11)和CD33 +骨髓细胞(p=6.08×10−7)。ME12富集于骨髓白细胞活化(GO:0002274, p=8.31×10−4)和白细胞脱粒(GO:0043299, p=0.00171),但这与基因图谱、特定细胞类型无关。ME11与t细胞活化(GO: 004210, p=2.53×10−8)、干扰素信号传导(REAC:913531, p=1.38×10−15)、对病毒的应答(GO:0009615, p=9.0×10−9)和I类MHC介导的抗原处理和递呈(REAC: 983169, p=2.34×10−5)有关,提示t细胞介导的抗病毒表型。人类基因图谱显示CD56 +自然杀伤细胞(p=7.32×10−18)、CD8 +T细胞p = 2.5×10 -8)和CD4 +T细胞(p=4.32×10−6)富集。
ME9在IPF中下调,它是唯一一个与肺功能呈相反趋势的模块,ME9升高与FVC下降相关。富集对细菌的响应(GO:0009617, p=5.52×10−7),凋亡过程(GO:0006915, p=7.2×10−6)、基因表达调控(GO:0010468, p=8.75×10−6)和CD33 +髓系细胞类型(p=2.46×10−9)。

唯一在疾病中升高并与DLCO和FVC肺功能测量呈负相关的免疫反应模块是ME5,它与B细胞活化(GO:0042113, p=3.95×10−5)和开展蛋白反应通路(REAC:381119, p=2.64×10−6)相关。Gene atlas发现该模块富集CD19 +B细胞(p=5.95×10−5),包括与B细胞发育成生发中心和浆细胞相关的基因(如POU2AF1和MZB1)。

利用WGCNA生信分析挖掘非肿瘤疾病轻松发10+插图8

4.2 纤维化反应

细胞外基质组织通路富含ME3(REAC:1474244,p= 5.11×10 -11)和ME6(REAC:1474244,p=3.34×10 -7)。ME6由胶原标记物COL1A2和COL3A1组成,ME3胶原标记物包括COL14A1,COL15A1和TGFB3。虽然两个模块的IPF均上调,但只有ME3与DLCO的下降呈负相关。通过特征基因聚类与ECM模块紧密相关的是ME14,它与肌肉收缩(REAC:397014,p = 4.56×10 -8)和α-平滑肌肌动蛋白有关。收缩纤维和细胞外基质的结合表明这些模块与成肌纤维细胞特征有关。
利用WGCNA生信分析挖掘非肿瘤疾病轻松发10+插图9

4.3 发育反应

ME2模块与血管系统发育(GO:0001944, p=5.39×10−15)和胆固醇生物合成途径(REAC:191273, p=0.00701)相关。该模块在IPF中下调,与DLCO呈正相关。该模块中发现了大量的基因,包括DISP1(其有效的hedgehog信号通路在血管生成中起重要作用)和CAV1(调节VEGF刺激血管生成) ,还包括WNT基因WNT3A和WNT7A。

ME1在IPF中表达上调,并与纤毛组织密切相关(GO:0044782, p=9.88×10−43)。肺中的纤毛主要存在于纤毛状的支气管上皮细胞上,提示该模块可能与气管病理有关,包括蜂窝状囊肿中细支气管结构的发育。有趣的是,该模块还富集了与病毒基因表达相关的基因(GO:0019080, p=6.24×10−6)。

5 模块调控分析

16个模块丰富了25个转录因子和21 miRNA。富集得分最高的是下调病毒免疫反应模块ME11,STAT2 (NES = 9.068)和IRF1 (NES = 9.789);纤毛相关模块ME1,ZBTB7B(NES = 9.935)和DNA复制相关的转录因子模块ME4,E2F4(NES = 10.072)。几个转录因子也包括在它们的相关模块中,表明存在正反馈回路。这些调控因子包括FOXM1 (ME4)、MYBL2 (ME4)、IRF1 (ME11)、STAT1 (ME11)和TCF12 (ME14)。这些转录因子能够直接调控这些模块中44%的鉴定基因。
利用WGCNA生信分析挖掘非肿瘤疾病轻松发10+插图10
图4.模块富集转录因子和miRNA网络分析
在所有模块中,ME1模块的miRNA数量最多,相关性最强。这些相关的miRNA主要来自两个家族,miR-34/449 (miR-34b: p=1.91×10−8,r=0.80, miR-34c-3p, miR-34c-5p, miR-449a, miR-449b)和miR-200/429 (miR-200a: p=6.00×10−9,r=0.80;mir – 200 b: p = 5.55×10−13,r = 0.86;mir – 429: p = 7.49×10−8,r = 0.73)。miR-205 (p=8.86×10−10,r=0.84)和miR-31 (p=3.09×10−9,r=0.82)也密切相关。ME1模块与ME2(miR-205: 3.83×10 -3,r=−0.68;miR-31: p = 6.76×10−4 r =−0.66)也有很强的相关性。miR-30s与ME2(miR-30a: p=1.87×10−6,r=0.68;miR-30b: p = 1.10×10−4 r = 0.72), ME3 (miR-30a: p = 3.19×10−4 r =−0.62;miR-30b: p = 3.19×10−4 r =−0.66)和ME5 (miR-30a: p = 2.47×10−4 r =−0.59;miR-30b: p=2.47×10−4,r=−0.70)相关,进一步支持了纤维化与b细胞之间的联系。收缩纤维通路相关模块ME14也与两个miRNAs相关(miR-133b: p=1.08×10−4,r=0.77, miR-143: p=2.65×10−3,r=0.64)。
作者在以前的研究中发现,许多这些调控分析与它们的相关模块都有重要的作用。对于ME1模块,这些模型证实了miR-34/449家族在纤毛发生中起到重要作用,miR-200/429家族在缺氧条件下上调的重要作用。ME14模块富含转录因子SRF和TCF12,这两种转录因子都被发现是成纤维细胞分化和收缩活性所必需的。特别值得注意的是ZBTB7B作为模块ME1的调节因子被强烈富集。该基因通常与t细胞向CD4表型的谱系保证有关,但此前没有研究表明它可以调节上皮细胞。通过对人类蛋白图谱的检查,我们发现ZBTB7B在所有类型的上皮细胞(皮肤和消化道)中均高表达,而该蛋白在支气管上皮细胞中高表达。此外,使用肺单细胞数据集进行检查发现ZBTB7B在上皮细胞中高表达,进一步支持了其在上皮细胞发育中的作用。

6 生存分析

这些模块的临床相关性使用独立队列的57位IPF外周血RNA表达谱的患者进行评估,使用多变量Cox比例风险模型评估每个模块对预测生存的影响。评估包含每个模块的基因的中位基因表达,以确定在血液样本中是否可检测到基因标记。在确定的16个模块中,发现有4个模块与在多重比较校正后与生存显著相关(ME1 p=0.038, ME8 p=0.008, ME9 p=0.042, ME12 p=0.041)。对这四个模块应用的针对FVC,年龄和性别进行调整的多变量Cox比例风险模型结果表示,ME1与生存的关联最大,总体一致性为0.777,调整后的对数秩检验p值为0.001,ME1 HR为2.73(95%CI为1.28至5.87;p = 0.0097)。
利用WGCNA生信分析挖掘非肿瘤疾病轻松发10+插图11
图5.4个模块的生存分析

四、小结

本文中作者将IPF和对照肺组织样本分组进行交叉验证,通过差异基因分析以及加权基因共表达网络分析(WGCNA),确定了两个IPF组之间重叠的16个共表达基因模块。随后进行模块生物学功能和转录因子调控的富集分析,通过miRNA数据相关性分析确定相关的调控因子。在基因表达数据集中评估IPF的临床相关性,在多变量生存比例模型分析出纤毛相关模块与预后相关。总之,WGCNA网络为IPF疾病的病理过程提供了新颖的见解,并确定了几种转录因子作为干预靶点。
利用WGCNA生信分析挖掘非肿瘤疾病轻松发10+插图12
扫码或添加微信沟通:ShengxinBoss1
往期回顾:
最强攻略1:史上最全单细胞数据库汇总解读
最强攻略2:史上最全非编码RNA数据库汇总解读
最强攻略3:史上最全外泌体数据库汇总解读
最强攻略4:史上最全甲基化表观调控数据库汇总解读
最强攻略5:史上最全转录调控数据库汇总解读

利用WGCNA生信分析挖掘非肿瘤疾病轻松发10+插图13

转载请注明:智汇基因 » 利用WGCNA生信分析挖掘非肿瘤疾病轻松发10+

喜欢 (0)
发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址