欢迎访问中南医学期刊社系列期刊网站!

首页 在线期刊 2023年 第36卷,第2期 详情

基于生物信息学筛选胃癌预后生物标志物

发表时间:2023年03月15日阅读:554次 下载:173次 下载 手机版

作者: 黄子林 # 刘可舒 # 陈雄

作者单位: 武汉大学中南医院耳鼻咽喉头颈外科(武汉 430071)

关键词: 胃癌 TCGA数据库 生物标志物 生物信息学 COL1A1 COMP

DOI: 10.12173/j.issn.1004-4337.202101045

基金项目: 国家自然科学基金项目(82071033)

引用格式: 黄子林, 刘可舒, 陈雄. 基于生物信息学筛选胃癌预后生物标志物[J]. 数理医药学杂志, 2023, 36(2): 95-103. DOI: 10.12173/j.issn.1004-5511.202101045

Huang ZL, Liu KS, Chen X. Screening of prognostic biomarkers for gastric cancer based on bioinformatics[J]. Journal of Mathematical Medicine, 2023, 36(2): 95-103. DOI: 10.12173/j.issn.1004-5511.202101045[Article in Chinese]

摘要| Abstract

目的  利用生物信息学技术筛选胃癌临床预后相关生物学标志物。

方法   在TCGA数据库下载胃癌的临床资料和mRNA的表达数据,利用R软件和Bioconductor 软件筛选差异基因,利用GO分析和KEGG富集分析差异基因,以及蛋白互作网络分析进一步确定核心差异基因,并分析上述核心差异基因在胃癌患者中的生存分析以及在临床分期中的表达差异。采用火山图和热图进一步确定相关基因对转录组的影响程度。

结果  COL1A1和COMP基因低表达的胃癌患者生存预后明显好于高表达组。在基于胃癌分期的亚组分析中,虽然COL1A1和COMP的转录水平在Ⅰ期和Ⅱ期内表达差异不明显,但是Ⅲ期和Ⅳ期胃癌患者中COL1A1和COMP的转录水平高于健康人群。此外,火山图与热图提示与COL1A1和COMP基因正相关的主要富集在细胞聚集功能方面。

结论  本研究揭示了COL1A1和COMP在胃癌中的表达差异和潜在的调控网络,为进一步研究COL1A1和COMP在癌变过程中的作用奠定了基础。肿瘤患者中的COL1A1和COMP的表达差异有望作为胃癌潜在的预后指标。

全文| Full-text

胃癌是全球第五大最常见的癌症和第三大最常见的癌症死亡原因,每年新发病例超100万例[1]。胃癌发生过程涉及多种遗传和表观遗传改变,如致癌基因的激活、抑癌基因的失活、细胞黏附分子和DNA错配修复基因的突变等[2-3]。常见的生物标志物如癌胚抗原和癌抗原19-9,可能有助于胃癌的诊断,但其早期诊断效果不佳[4]。由于缺乏可靠的生物标志物用于胃癌早期诊断或筛查高危人群[6-7],胃癌患者早期发现率低,预后普遍较差,5年生存率低于20%[5],因此寻找可靠的诊断和预后标志物至关重要[8]。癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库是一个公共基因组学数据源,包括测序数据和临床样本信息,为用户提供实验和策划的基因表达信息[9]。本研究使用TCGA数据库中胃癌公开样本进行生物信息学分析,筛选出肿瘤患者与健康人群之间差异表达的基因[10],并对胃癌患者的差异基因进行系统性分析,以预测新的胃癌诊断和预后标志物,旨在改善胃癌诊疗现状,为患者预后提供治疗依据。

1 资料与方法

1.1 TCGA数据库分析

本研究收集TCGA数据库中胃癌患者临床资料(包含病理分级、临床分期、治疗、生存时间等)和测序数据中mRNA的表达数据,通过TCGA数据库在线工具筛选差异表达基因。本研究严格遵守TCGA发布的发表指导规范(https://portal.gdc.cancer.gov)。

1.2 LinkedOmics数据库分析

LinkedOmics(http://www.linkedomics.org)是一个基于web的分析TCGA癌症相关多维数据集的平台[11-12]。本研究使用LinkedOmics的LinkFinder模块研究TCGA胃癌队列中与COL1A1、COMP相关的差异表达基因。LinkFinder模块可提供多种属性的查询,不仅可为单个基因绘制统计图,也能查看基因组改变产生的mRNA或蛋白表征、临床属性的候选生物标志物以及转录因子,并且分析结果可以可视化呈现。所有结果都以火山图、热图的形式呈现。LinkedOmics的链接解释器模块对差异表达基因进行通路和网络分析。

1.3 蛋白相互作用网络分析

通过在线数据库STRING进行蛋白-蛋白相互作用(protein-proteion interaction,PPI)网络和功能分析,筛选胃癌表达差异的关键基因对应的具有相互作用的蛋白质(相互作用分数为0.9)。蛋白相互作用结果进一步在cytoscape软件中通过插件Cytohubba采用MCC算法。最后网络边缘的不同颜色展示了应用的生物信息学方法:共表达、网站预测、路径、物理交互和共定位。不同颜色的网络节点主要显示富集基因的生物学功能。

1.4 统计学方法

本研究利用SPSS 22.0软件、R 3.3.5软件和Perl 5.22软件对数据进行处理。使用 R 软件 Survplot 函数包采用Kaplan-Meier法绘制生存曲线,并进行log-rank 检验分析胃癌患者COL1A1、COMP表达水平与生存期的关系。TCGA筛选获得的差异基因通过Bioconductor 软件的limma工具包(LogFC≥2)对基因表达数据进行差异表达分析,LinkFinder结果采用Pearson相关系数进行统计学分析,统计检验P<0.05为差异有统计学意义。

2 结果

2.1 GO分析和KEGG富集分析差异基因

TCGA数据集分析发现胃癌差异基因有COL1A1(Collagen Type I Alpha 1 Chain)、 COMP(Cartilage Oligomeric Matrix Protein)、 CCNE1(Cyclin E1)、SPP1(Secreted Phosphoprotein 1)等,且该分析差异基因集的分子功能主要富集在蛋白结合、金属内肽酶活性、胞外细胞因子活动等方面;在生物学过程方面主要富集在损伤回复、细胞黏附、蛋白水解作用、调节细胞增殖等方面;在细胞成分方面主要富集在细胞外区、细胞外间隙、细胞表面、内质网腔高尔基腔等(图1)。

  • 图1 图 1  胃癌中差异基因的 GO 和 KEGG 分析
    Figure 1.GO and KEGG analysis of differential genes in gastric cancer
    注:BP(biological process),生物学过程;CC(cellular component),细胞成分;MF(molecular function),分子功能

2.2 蛋白相互作用网络分析

为进一步了解上述差异基因在人体内的影响机制,本研究通过STRING数据库构建了队形功能蛋白质-蛋白质相互作用,结果提示其中有5个互作网络的核心基因节点:COL1A1、COMP、CCNE1、SPP1、LAMC2,以及相互作用前20的差异基因,见图2。

  • 图2 图 2 胃癌中差异基因蛋白互作网络图
    Figure 2.The protein-protein interaction network of differential genes in gastric cancer
    注:基于差异基因产物构建的 PPI 网络,PPI 网络图中的蛋白互作关系最强的子网络,线条颜色与图1的生物学功能富集颜色相对应;图形面积越大,说明蛋白之间的相互作用越强;各图形之间的连线代表两个蛋白间互成联系。

2.3 Kaplan-Meier生存分析研究结果

Kaplan-Meier生存分析发现上述5个核心节点基因对于胃癌患者总生存期( overall survival, OS)存在一定的影响。COL1A1(HR=1.48,log-rank P<0.001)和COMP(HR=1.54,log-rank P<0.001)表达水平对患者OS影响较大,COL1A高表达组(第50个月,30.2% vs. 43.5%,P<0.05)、COMP高表达组(22.7% vs. 40.6%,P<0.05)的胃癌患者5年中位生存时间均显著低于低表达组,而CCNE1低表达的胃癌患者生存概率显著高于低表达组(第50个月,36.8% vs. 26.4%,P<0.05),但是远期预后价值不具有差异性,其余两组核心基因LAMC2(HR=0.9,log-rank P=0.200)、SPP1(HR=1.1,log-rank P=0.270)的表达差异与胃癌患者的总体生存预后价值相关性未见统计学意义(图3)。

  • 图3 胃癌基因mRNA水平的预后价值
    Figure 3.The prognostic value of mRNA levels of gastric cancer
    注:a:高低COLI1A 表达情况分组者总生存率的Kaplan-Meier生存曲线;b:高低COMP 表达情况分组者总生存率的Kaplan-Meier生存曲线;c:高低CCNE1表达情况分组者总生存率的Kaplan-Meier生存曲线;d:高低LAMC2表达情况分组者总生存率的Kaplan-Meier生存曲线;e:高低SPP1表达情况分组者总生存率的Kaplan-Meier生存曲线

2.4 COL1A1和COMP表达与胃癌患者分期的关系

在胃腺癌(STAD)中,本研究分析了正常组(34例)、Ⅰ期(18例)、Ⅱ期(123例)、Ⅲ期(169例)和Ⅳ期(41例)共385例样本的COL1A1和COMP基因的表达情况。与正常组患者相比,Ⅰ~Ⅳ期胃癌患者COL1A1基因表达水平增高;Ⅱ~Ⅳ期胃癌患者COMP基因表达水平亦显著增高,见图4。

  • 图4 COL1A1, COMP在不同分期胃癌与正常个体中的相对表达的箱线图
    Figure 4.Box-plot of relative expression of COL1A1 and COMP in different stage gastric cancer or normal individuals
    注: a:基于个体癌症分期的COL1A1在STAD中的表达;b:COMP在STAD中的表达与肿瘤分期的关系

2.5 火山图和热图分析胃癌中COL1A1和COMP相关的基因

通过LinkedOmics的功能模块分析发现,与COL1A1正相关的基因在COLs家族的部分基因包含有SPARC、BGN、CD245、THY1等,说明与COL1A1正相关的上述基因主要富集在细胞黏附、蛋白分泌和调节细胞增殖等方面。此外,与COMP正相关的基因:SFRP4、ITGBL4、FNDC1(0<P<1)主要调节细胞分化和细胞聚集等方面,并且能够作用于多种信号通路的上游。而与COL1A1和COMP基因负相关的富集基因(AP1AR、PPA2、AFTPH等)能够负性调节肿瘤细胞增殖(-1<P<0),见图5。

  • 图5 胃癌中基因差异表达与COL1A1、COMP的相关性(LinkedOmics)
    Figure 5.Correlation between differential expression of gene and COL1A1, COMP in gastric cancer (Linkedomics)
    注:a:COL1A1负相关基因热图;b:COMP负相关基因热图;c:COL1A1正相关基因热图;d:COMP正相关基因热图;e:COL1A1相关基因的皮尔逊系数点图;f:COMP相关基因的皮尔逊系数点图

3 讨论

本研究发现COL1A1、COMP、CCNE1、SPP1、LAMC2五个基因与胃癌发生相关,通过生存分析并结合临床患者癌症分期进一步筛选出COL1A1、COMP与胃癌发生密切相关,LinkedOmics功能模块分析也显示了COL1A1、COMP对转录组有广泛影响,有望作为胃癌诊断和预后预测的潜在标志物。

目前与胃癌预后相关的诊疗标志物主要集中于DNA甲基化、长链非编码RNA、PD-1/PD-L1、循环癌细胞等方面。而胃肠肿瘤的发生与转移与细胞的局部黏附和突变紧密相关,因此与细胞增殖、细胞黏附及肿瘤细胞分化相关的COL1A1和COMP是较为合适的基因标志物。胶原是细胞外基质的重要组成部分,Ⅰ型、Ⅱ型和Ⅲ型胶原的比例最高。作为Ⅰ型胶原家族的成员,COL1A1与肿瘤细胞增殖和侵袭的关系已在许多癌症中被报道,如乳腺癌和肾癌[13-14]。COL1A1表达可促进乳腺癌转移,是一种新的乳腺癌预后生物标志物和潜在的治疗靶点[15-16]。在本研究中,组织中均为高表达,在 PPI 交互网络中 COL1A1和COMP均处于中心位置,且显著富集到胞外基质受体和黏着斑信号等通路。国外已有研究表明,COL1A1在乳腺癌和肺癌中高表达,COL1A1的敲除缺失可以影响多种基因表达,其机制可能是通过改变肿瘤微环境来降低肿瘤的迁移能力和增殖能力,从而抑制肿瘤细胞浸润生长及向别处转移[17-18]。此外,在间皮瘤中,COL1A1的突变与中性粒细胞、CD4+ T细胞和树突状细胞浸润具有明显的相关性;同时,COL1A1的表达水平与肿瘤浸润纯度、CD4+ T细胞、巨噬细胞和中性粒细胞有显著相关性[19]。另一项综合生物信息学分析也发现COL1A1与胃癌的发病机制相关[20]。所以,COL1A1的表达差异可能受胃癌肿瘤免疫微环境调节。

COMP是一种524kda的可溶性五聚糖蛋白[21],在多种细胞及组织中表达,通过与细胞表面的整合素结合发挥生物活性,目前研究表明COMP的异常表达在骨骼疾病、血管生成、乳腺癌及前列腺癌中发挥重要作用[22-23]。肝癌患者血清中COMP水平可用于肝癌发展的无创评估诊断[24]。且COMP在肝癌中诱导依赖CD36的MEK/ERK和PI3K/ AKT通路的激活,以及一系列促肿瘤因子的分泌,包括EMT makers、MMP-2/9、Slug和Twist,从而促进其促肿瘤作用。在肝癌细胞与活化的造血干细胞之间的动态相互作用中COMP也发挥了重要作用,并且该基因可通过阻断半胱天冬酶-3的活化和诱导IAP家族的生存蛋白(BIRC3,BIRC2,BIRC5和XIAP)来抑制细胞凋亡[25-26]。而关于COMP的免疫组化研究发现在胃癌组织中该基因表达高于正常胃黏膜和癌旁组织,同时胃低分化腺癌组织高于高、中分化胃癌组织以及癌旁组织高于正常胃黏膜组织表达,提示该蛋白可能参与胃癌发生与发展,其作用机制可能与COMP蛋白诱导凋亡抑制因子的表达,抑制细胞的凋亡有关[27-28]。结果提示,COMP蛋白的表达与胃癌的分化程度、淋巴结转移及TNM分期有关,随着胃癌组织分化程度的降低、淋巴结转移及TNM分期的增加,阳性表达率则升高。但细胞的凋亡涉及众多细胞因子的参与,至于COMP蛋白如何在胃癌发生与发展中发挥作用,有待后续的进一步研究。虽然目前尚未明确COL1A1、 COMP在胃癌细胞中的确切影响作用, 但根据当前数据库分析以及已发表的文献报道,推测二者可能通过影响胃癌肿瘤细胞的运动和转移促进肿瘤细胞聚集和局部粘附,可能与胃癌的发生发展具有重要关系。

本研究仍存在一定的局限性。首先,近年来越来越多的实验研究从蛋白质表达水平去检测COL1A1和COMP在肿瘤以及癌旁组织中的表达情况,但是其基因下游富集对应着多种细胞代谢通路以及细胞黏附机制,令研究者难以确定其中主要影响胃癌肿瘤细胞发生转移和增殖的重要机制。而且针对上述关键基因的靶向干预研究数据依旧不足,难以确保敲低或者抑制COL1A1和COMP的表达来观察肿瘤细胞系的结果。其次,TCGA数据库中关于胃癌的相关数据缺乏对胃癌患者生活质量数据的关注,可能忽略了胃癌患者患病后因为生活原因导致的死亡或者失访。再次,上述预后相关基因可能受到外界因素的干扰,而TCGA的数据库中也未完全纳入相关数据集案例如吸烟、饮酒、HPV感染状态以及婚姻质量等临床外的数据,因此在统计分析胃癌患者预后相关基因的表达情况时可能不够完善。最后,虽然当前中国地区关于胃癌的治疗预防受到社会的广泛关注,但是相关研究多局限于小规模、局部的抽样调查,缺乏大规模、全人群的时间动态基因数据,将中国国民健康相关的胃癌基因数据研究同欧美地区的同类型研究进行对比的科学性不足。

综上所述,本研究基于生物信息学方法研究发现COL1A1,COMP是对胃癌有预后价值的关键基因。未来可进一步探究胃癌发生发展的潜在分子机制,证实其诊疗价值。

参考文献| References

1.Erratum: Global cancer statistics 2018: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J]. CA Cancer J Clin, 2020, 70(4): 313. DOI: 10.3322/caac.21609.

2.Rosenbaum MW, Gonzalez RS. Targeted therapy for upper gastrointestinal tract cancer: current and future prospects[J]. Histopathology, 2021, 78(1): 148-161. DOI: 10.1111/his.14244.

3.Hsu A, Chudasama R, Almhanna K, et al. Targeted therapies for gastroesophageal cancers[J]. Ann Transl Med, 2020, 8(17): 1104. DOI: 10.21037/atm-20-3265.

4.Ning S, Wei W, Li J, et al. Clinical significance and diagnostic capacity of serum TK1, CEA, CA 19-9 and CA 72-4 levels in gastric and colorectal cancer patients[J]. J Cancer, 2018, 9(3): 494-501. DOI: 10.7150/jca.21562.

5.Mereiter S, Balmaña M, Gomes J, et al. Glycomic approaches for the discovery of targets in gastrointes-tinal cancer[J]. Front Oncol, 2016, 6: 55. DOI: 10.3389/fonc.2016.00055.

6.何磊. 生物标记物在胃癌诊断及预后中作用的研究进展[J]. 医学研究生学报, 2020, 33(9): 1004-1008. [He L. Re-search prowess on the role of biomarkers in the diagnosis and prognosis of gastric cancer[J]. Journal of Medical Postgraduates, 2020, 33(9): 1004-1008.] DOI: 10.16571/j.cnki.1008-8199.2020.09.022.

7.Karimi P, Islami F, Anandasabapathy S, et al. Gastric cancer: descriptive epidemiology, risk factors, screening, and prevention[J]. Cancer Epidemiol Biomarkers Prev, 2014, 23(5): 700-713. DOI: 10.1158/1055-9965.EPI-13-1057.

8.Razzak M. Gastrointestinal cancer: is now the time to extend biomarker stratification to other RAS-family genes?[J]. Nat Rev Clin Oncol, 2013, 10(11): 605. DOI: 10.1038/nrclinonc.2013.176.

9.Paull EO, Aytes A, Jones SJ, et al. A modular master regulator landscape controls cancer transcriptional identity[J]. Cell, 2021, 184(2): 334-351. DOI: 10.1016/j.cell.2020.11.045.

10.Lan Q, Wang P, Tian S, et al. Mining TCGA database for genes of prognostic value in gastric cancer mi-croenvironment[J]. J Cell Mol Med, 2020, 24(19): 11120-11132. DOI: 10.1111/jcmm.15595.

11.Vasaikar SV, Straub P, Wang J, et al. LinkedOmics: analyzing multi-omics data within and across 32 can-cer types[J]. Nucleic Acids Res, 2018, 46(D1): D956-D963. DOI: 10.1093/nar/gkx1090.

12.Liu F, Wu H. Identification of prognostic biomarkers and molecular targets among JAK family in breast cancer[J]. J Inflamm Res, 2021, 14: 97-114. DOI: 10.2147/JIR.S284889.

13.Boguslawska J, Kedzierska H, Poplawski P, et al. Expression of genes involved in cellular adhesion and extracellular matrix remodeling correlates with poor survival of patients with renal cancer[J]. J Urol, 2016, 195(6): 1892-1902. DOI: 10.1016/j.juro.2015.11.050.

14.Liu T, Ye P, Ye Y, et al. Circular RNA hsa_circRNA_002178 silencing retards breast cancer progression via mi-croRNA-328-3p-mediated inhibition of COL1A1[J]. J Cell Mol Med, 2020, 24(3): 2189-2201. DOI: 10.1111/jcmm.14875.

15.Wang Y, Xu H, Zhu B, et al. Systematic identification of the key candidate genes in breast cancer stro-ma[J]. Cell Mol Biol Lett, 2018, 23: 44. DOI: 10.1186/s11658-018-0110-4.

16.Gumpenberger M, Wessner B, Graf A, et al. Remodeling the skeletal muscle extracellular matrix in older age-effects of acute  exercise stimuli on gene expression[J]. Int J Mol Sci, 2020, 21(19): 7089. DOI: 10.3390/ijms21197089.

17.Geng Q, Shen Z, Li L, et al. COL1A1 is a prognostic biomarker and correlated with immune infiltrates in lung cancer[J]. PeerJ, 2021, 9: e11145. DOI: 10.7717/peerj.11145.

18.Shao ZM, Nguyen M. Tumor-specific DNA in plasma of breast cancer patients[J]. Anticancer Drugs, 2002, 13(4): 353-357. DOI: 10.1097/00001813-200204000-00003.

19.Zhang C, Liu S, Wang X, et al. COL1A1 is a potential prognostic biomarker and correlated with immune infiltration in mesothelioma[J]. Biomed Res Int, 2021, 2021: 5320941. DOI: 10.1155/2021/5320941.

20.Liu X, Wu J, Zhang D, et al. Identification of potential key genes associated with the pathogenesis and prognosis of gastric cancer based on integrated bioinformatics analysis[J]. Front Genet, 2018, 9: 265. DOI: 10.3389/fgene.2018.00265.

21.Posey KL, Coustry F, Hecht JT. Cartilage oligomeric matrix protein: COMPopathies and beyond[J]. Ma-trix Biol, 2018, 71-72: 161-173. DOI: 10.1016/j.matbio.2018.02.023.

22.Liu TT, Liu XS, Zhang M, et al. Cartilage oligomeric matrix protein is a prognostic factor and biomarker of colon cancer and promotes cell proliferation by activating the Akt pathway[J]. J Cancer Res Clin Oncol, 2018, 144(6): 1049-1063. DOI: 10.1007/s00432-018-2626-4.

23.Englund E, Bartoschek M, Reitsma B, et al. Cartilage oligomeric matrix protein contributes to the de-velopment and metastasis of breast cancer[J]. Oncogene, 2016, 35(43): 5585-5596. DOI: 10.1038/onc.2016.98.

24.Norman GL, Gatselis NK, Shums Z, et al. Cartilage oligomeric matrix protein: A novel non-invasive mark-er for assessing cirrhosis and risk of hepatocellular carcinoma[J]. World J Hepatol, 2015, 7(14): 1875-1883. DOI: 10.4254/wjh.v7.i14.1875.

25.Li Q, Wang C, Wang Y, et al. HSCs-derived COMP drives hepatocellular carcinoma progression by acti-vating MEK/ERK and PI3K/AKT signaling pathways[J]. J Exp Clin Cancer Res, 2018, 37(1): 231. DOI: 10.1186/s13046-018-0908-y.

26.Gagarina V, Carlberg AL, Pereira-Mouries L, et al. Cartilage oligomeric matrix protein protects cells against death by elevating members of the IAP family of survival proteins[J]. J Biol Chem, 2008, 283(1): 648-659. DOI: 10.1074/jbc.M704035200.

27.Zhao X, Wu S, Jing J. Identifying diagnostic and prognostic biomarkers and candidate therapeutic drugs of gastric cancer based on transcriptomics and single-cell sequencing[J]. Pathol Oncol Res, 2021, 27: 1609955.DOI: 10.3389/pore.2021.1609955.

28.Zhao Q, Xie J, Xie J, et al. Weighted correlation network analysis identifies FN1, COL1A1 and SERPINE1 associated with the progression and prognosis of gastric cancer[J]. Cancer Biomark, 2021, 31(1): 59-75. DOI: 10.3233/CBM-200594.