全国电台音乐交流群

【肝癌】肝癌相关差异表达基因的生物信息学分析

中华肝脏病杂志2022-05-09 08:34:20



点击标题下「蓝色微信名」可快速关注


文章来源:中华肝脏病杂志, 2017,25(06) : 435-439

作者:白文萱 高健 钱程 张献全



摘要

目的

通过生物信息学方法分析肝癌发生相关差异表达基因,筛选肝癌早期诊断的分子标志物和免疫治疗的潜在分子靶点。


方法

从公共基因表达数据库(GEO)下载肝癌相关芯片数据,应用JMP软件进行GSE数据集相关性分析,使用R语言中的Limma程序筛选差异表达基因,并对差异表达基因进行Gene Ontology(GO)功能富集分析、KEGG通路分析及蛋白相互作用调控网络构建。同时联合TCGA数据库中其他肿瘤RNA-seq转录组数据进行肝癌特异性表达分析,进一步筛选肝癌特异差异表达基因,并进行肝癌患者生存曲线分析。


结果

筛选出共有差异基因92个,其中上调基因21个,下调基因71个。通过GO、KEGG及蛋白相互作用网络分析,RNA-seq数据验证发现,仅有磷脂酰肌醇蛋白聚糖3(GPC3)在肝癌中表达上调,MBL2、SDS、SLCO1B3、TDO2、SAA4、SPP2在肝癌中特异性表达下调。


结论

GPC3可作为肝癌特异性的免疫治疗靶点,其他分子标志物有望成为肝癌早期检测的分子标志物和免疫治疗的潜在治疗靶标。


肝癌是常见恶性肿瘤之一,其发病率和病死率在恶性肿瘤中分别位居全球第6位和第3位[1]。肝癌具有高发病率、高侵袭性、高转移性及预后差等特点。大部分肝癌患者确诊时已是晚期,治疗手段有限,疗效欠佳。目前,临床上主要以手术治疗、肝动脉介入栓塞化疗、全身化疗、中药治疗为主[2];近年以索拉菲尼为代表的靶向药物为肝癌的靶向治疗开辟了新的道路,但索拉菲尼的应用也有一定局限性,长期用药会产生耐药性[3]。因此,不断发现新靶点、开发新药成为世界性医学界的研究热点。


基因芯片是一种高效、高通量获取生物信息的技术,能检测和分析肿瘤组织与正常组织的差异表达基因。基因表达数据库(gene expression omnibus, GEO)为我们提供了大量和疾病相关的表达谱信息[4]。本研究拟用GEO中的肝癌基因芯片数据筛选出肝癌差异表达基因,并对这些基因进行进一步生物信息学分析,预测和筛选出适合作为肝癌早期诊断的分子标志物和免疫治疗的潜在分子靶点,为进一步基础研究提供理论依据。


资料与方法

1.数据集收集及相关性分析:

在GEO(https://www.ncbi.nlm.nih.gov/geo/) 数据库下载肝癌基因芯片数据。选择样本量> 100的数据集进行肝癌发生相关数据挖掘分析,每个数据集均需符合以下条件:(1)数据集来自全基因组RNA表达芯片;(2)实验使用人类肝癌患者组织与正常肝组织对照。使用JMP软件(购自美国SAS公司)对抽提配对样本(肿瘤与非肿瘤)进行相关性分析。


2.方法:

使用RMA (robust multi-array average)法对所有原始芯片数据进行预处理,使各个芯片的数据归一化。再将归一化后的肝癌组织和正常肝组织的芯片数据进行比较,R语言(https://www.r-project.org/)中的Limma程序包识别差异表达基因(differentially expressed genes,DEGs),联合使用线性模型计算DEGs。为了避免单因素线性分析可能造成的假阳性结果,我们使用Benjaminiand Hochberg (BH)法将p值调整为错误发现率(false discovery rate, FDR),并选取FDR < 0.05和log fold change绝对值(logFC) > 2作为阈值。得到数据集的差异表达基因。再用在线的Venny软件(http://bioinfogp.cnb.csic.es/ tools/ venny/ index.html)筛选芯片数据库共有差异表达基因,用DAVID6.8(http://david.ncifcrf.gov)对差异基因进行Gene Ontology(GO)功能富集分析。用KOBAS 2.099(kobas.cbi.pku.edu.cn)基于KEGG数据库,进行信号通路富集分析[5]。最后用STRING10 (search tool for the retrieval of interacting Ggenes/proteins,http://www.string-db.org/)进行差异基因编码蛋白的相互作用网络分析[6]。RNA-seq数据验证差异表达基因在肝癌患者样本中的特异性表达[7];筛选出在不同肿瘤中的表达情况。并联合使用TCGA数据库预测肝癌患者生存曲线。


结果

1.肝癌基因芯片数据集收集筛选及数据集相关性分析:

通过对GEO数据库中肝癌样本量> 100的数据集进行筛选,并抽提配对样本,共纳入4套肝癌癌基因芯片数据集(表1),用JMP软件对纳入的4个芯片数据集进行相关性分析,结果表明|r| ≥ 0.8(图1),说明4个数据集存在显著的相关性,因此,这4个数据集可以作为后续的研究分析。


图1 肝癌癌基因芯片数据集的相关性分析


2.肝癌差异性表达基因分析:

四个芯片集GSE14520、GSE25097、GSE36376、GSE54236分别筛选出差异表达基因845个、1 723个、588个、765个。其中上调表达的基因分别为398个、828个、373个、281个,下调表达的基因447个、895个、215个、484个(图2A)。为了筛选候选的肝癌早期检测的分子标志物及肝癌免疫治疗靶标,消除不同测序平台及不同研究单位样本造成的背景误差,我们使用Venny软件筛选4个芯片数据集共有差异表达基因,获得共有差异表达基因92个,其中上调基因21个,下调基因71个(图2B)。

图2 4个肝癌芯片数据集差异基因表达分析及韦恩图法共有差异基因表达分析



3.共有差异表达基因GO功能富集及KEGG pathway分析:

通过对92个共有差异基因的GO分析,可以找到富集差异基因的GO分类条目,进而可知不同样品的差异基因可能和哪些基因功能的改变有关。本研究取交集后的92个差异基因,用DAVID 6.8作GO富集分析(FDR < 0.01),结果显示这些差异表达基因主要参与有机酸的合成代谢、小分子生物的合成代谢以及细胞对外源性刺激的反应等过程(图3)。KEGG pathway分析可确定信号通路各组件的联系,而KOBAS 2.0可系统地识别和众多通路与疾病相关的基因或蛋白质。本研究取交集后的92个差异基因,用KOBAS 2.0作KEGG通路分析,结果显示这些差异基因主要富集在各种氨基酸的生物合成和代谢、化学物的致癌作用以及细胞色素P50的药物代谢方面(表2)。


图3 共有差异表达基因的Gene Ontology分析


4.蛋白相互作用调控网络构建:

为进一步考察92个共有候选差异表达基因间存在的相互作用关系,用STRING10在线软件(http://www.string-db.org/)对差异表达基因进行基因(或蛋白质)相互作用调控网络图构建。尝试挖掘与肝癌发生明显相关基因的相互作用调控核心模块,进一步探讨这些模块的生物学功能以及与肝癌发生的关系,结果显示92个候选差异表达基因分别位于主要蛋白相互作用节点上,在肝癌的发生、发展中起着重要的调控作用(图4)。



图4 92个共有差异表达基因蛋白相互作用调控网络构建图


       5.肝癌潜在分子标志物筛选:

联合使用TCGA数据库中各种不同癌种RNA-seq转录组数据,对得到的92个共有差异表达基因在肝癌患者RNA-seq数据进行特异性表达及各种癌症共有差异基因分析,结果筛选得到了17个差异表达基因,分别是MBL2、SDS、SLCO1B3、TDO2、磷脂酰肌醇蛋白聚糖3(glypican-3,GPC3)、SAA4、SPP2、AURKA、CCNB2、CDKN3、HMMR、TOP2A、CRHBP、DCN、DNASE1L3、GLYAT、OTC,其中MBL2、SDS、SLCO1B3、TDO2、GPC3、SAA4、SPP2在肝癌患者样本中特异性表达,GPC3在肝癌样本中特异性上调表达,MBL2、SDS、SLCO1B3、TDO2、SAA4、SPP2在肝癌患者样本中特异性下调表达。用TGCA数据库中肝癌样本数据进行17个差异表达基因的生存曲线分析,结果表明:筛选得到的17个肝癌发生相关的差异表达基因可以很好地判断肝癌患者的预后,因此,可以作为潜在的肝癌检测分子标志物;并且GPC3在肝癌样本中特异性上调表达,GPC3在临床上已经作为免疫治疗的分子靶标,我们推测其他肝癌特异性差异表达基因有望作为潜在的免疫治疗分子靶标(图5)。

图5 17个肝癌候选差异表达基因生存曲线


讨论

肝癌的靶向治疗研究进展缓慢,寻找新靶点、探索新药迫在眉睫。本研究以肝癌为研究对象,通过生物信息学分析,联合TCGA数据库中其他肿瘤RNA-seq转录组数据进行肝癌特异性表达分析,筛选出GPC3、MBL2等在肝癌中特异性表达的基因,作为肝癌早期诊断的分子标志物和免疫治疗的潜在分子靶标。


GPC3是一种细胞膜表面的硫酸乙酰肝素糖蛋白,调控细胞生长、繁殖、分化、黏附和迁移等行为,主要在中胚层来源的组织中高表达,而在成熟的组织中低表达或不表达[8]。大量研究结果证实GPC3蛋白在肝癌组织中高表达,而在非癌组织中没有表达或表达量极低[9]。可以通过血清和组织中GPC3的表达情况预测肝癌患者的预后[10]。GPC3主要参与Wnt/β-catenin、ERK、转化生长因子β2等信号通路促进肝癌的形成[11,12,13,14];有报道GPC3适合作为肝癌诊断和预后判断的标志物[15,16,17,18]。也有报道GPC3多肽疫苗可延长肝癌患者总生存期[19]。通过3种高效价的HS20、HN3和YP7抗体,可以有效降低GPC3的表达[20,21];而靶向GPC3的嵌合抗原受体T淋巴细胞疗法能够有效消除GPC3阳性肝癌细胞,为GPC3阳性肝癌提供了潜在新疗法[22,23]。本研究结果表明,GPC3表达在肝癌中特异性上调,有望进一步研究其临床应用价值,可作为以后肝癌治疗研究的方向。


其他在肝癌中特异性下调表达的基因MBL2、SDS、SLCO1B3、TDO2、SAA4、SPP2,也有文献报道过,适合作为肝癌标志物或有望成为靶向治疗靶点[24,25]。但是由于以上标志物的研究都是独立进行的,缺少相同的标准,哪一个或者哪些基因更适合作为肝癌标志物或靶向治疗靶点,还有待于进一步实验验证。


参考文献(略)


Copyright © 全国电台音乐交流群@2017