重症监护医学信息数据库(Medical Information Mart for Intensive Care,MIMIC)汇聚贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center,BIDMC)重症监护病房(intensive care unit,ICU)近二十年医疗记录,涵盖多维度数据,对医学研究、临床决策及医疗管理意义重大。本文系统介绍了MIMIC-IV包含的模块、数据类型、数据关联方式,并解析了主要数据表。MIMIC数据库采用严格的隐私保护和伦理审查机制,确保患者数据匿名化及研究使用的合规性,从而有效保护患者隐私并支持科学研究。未来可通过多中心数据融合、结合人工智能(artificial intelligence,AI)技术、跨领域数据融合等方式,进一步提升MIMIC数据库的应用价值。
随着医疗信息化飞速发展,海量医疗数据不断涌现。重症监护医学信息数据库(Medical Information Mart for Intensive Care,MIMIC)作为医疗大数据的重要数据来源,整合了贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center,BIDMC)重症监护病房(intensive care unit,ICU)近二十年的详尽医疗记录,涵盖人口统计学、实验室检查结果、药物使用记录、诊疗流程及预后信息等多维度数据。这些数据为医学研究者提供了丰富的科研资源,有助于其深入探索疾病机制、评估治疗效果及预测预后。
深入剖析MIMIC数据库的数据结构与内容,对医学研究者、临床医护人员及医疗管理者均具有重要意义。通过分析数据库内容,研究者能够迅速获取疾病相关数据以辅助科研活动;医护人员可以参照类似病例,增强医疗决策的科学性;医疗管理者则能据此优化医疗资源配置。因此,该数据库架构在科研、临床决策及医疗管理中均发挥着重要作用。本研究通过全面解析MIMIC数据库的数据结构,深入挖掘核心数据表的内涵及数据间的内在联系,并可视化展示其数据结构,为科研人员提供直观、高效的参考,帮助其快速掌握MIMIC数据库中丰富的临床信息,精确定位研究所需数据,从而加快科研进程。
1 MIMIC数据库整体架构
1.1 框架概览
1.1.1 模块功能与数据关联性分析
以最新版本MIMIC-IV(v 3.1)为例,该版本共包含六个模块,分别为Hosp、ICU、ED、CXR、Note、ECG。其中Hosp模块提供了从全院电子健康记录(electronic health record,EHR)中获取的所有数据,这些测量数据主要是在患者住院期间记录的,也纳入了院外数据(如labevents中的门诊实验室检查),涵盖了患者基本信息、实验室检查结果、微生物培养结果、诊断、药物管理、医院账单及医院服务等相关信息,主要包括patients表、admissions表、labevents表等22张表,见图1。
ICU模块包含ICU床旁记录的数据,数据主要来自MetaVision系统,主要包括患者进入ICU后的基本信息、生命体征、实验室检查结果、静脉给药、呼吸机设置、手术记录等项目,共包含9张数据表,见图2。stay_id对于 icustays表中每一行都是唯一的,如果患者在两次ICU住院之间转至普通病房,则会形成两个stay_id。
ED模块包含患者在急诊科期间收集的数据,主要包括入院原因、分诊评估、生命体征和药物管理,共6张数据表,见图3,可通过subject_id、hadm_id及stay_id链接到MIMIC-IV其他模块。
CXR模块通过数据表将患者信息与MIMIC-CXR联系起来,并允许将胸部X射线检查结果与来自MIMIC-IV其他模块的临床数据联系起来。该模块主要包含CXR Record List表,该表列出了MIMIC-CXR数据库中的所有记录。每个DICOM文件对应一张单独的胸部X射线摄影胶片,并被分配唯一的dicom_id。该表将这些身份识别与放射学报告的study_id和患者的subject_ id相关联。
Note模块包含住院患者的去标识化自由文本临床记录,主要包括患者的出院小结、放射学报告等信息,目前尚未对外公开。
ECG模块目前单独保存为MIMIC-IV-ECG数据集,其可提供波形数据及查找表,这些查找表可以通过subject_id将受试者与MIMIC-IV其他模块相关联。ECG 模块侧重于提供心脏电生理方面的特定数据。该模块是对临床信息的一种补充,旨在更深入地研究心脏相关问题,其功能相对专一,与其他主要模块在功能定位和使用目的上有一定差异,因此在某些分类方式中不将其与核心临床数据模块等同看待。
如图4所示,MIMIC-IV通过模块化设计实现医疗数据的动态整合与流向管理。患者入院后,Hosp模块首先记录基础住院信息(如患者身份识别、入院时间);随后若经急诊科(ED模块)处理,同步记录急诊诊疗数据(如生命体征、初步诊断);住院期间,Hosp模块持续更新病情进展及治疗记录;若患者转入重症监护室(ICU模块),则通过ICU模块采集高频生命体征、护理记录及干预措施。
Note模块贯穿全流程,整合临床医师的手动记录(如病程笔记、医嘱),并与Hosp/ICU模块的结构化数据联动,形成完整电子病历。ECG与CXR模块分别记录心电图(electrocardiogram,ECG)和胸部X射线检查数据,并通过患者身份识别(subject_id)与主流程数据关联,实现影像学检查结果与临床过程的交叉验证。最终,所有模块数据通过标准化标识符(如hadm_id、icustay_id)实现跨模块关联,构建覆盖患者全诊疗周期的多维度数据网络,从而为医学研究提供系统化、可追溯的高质量数据支撑。
1.1.2 版本演进对架构的影响
随着医学发展与信息技术迭代,MIMIC数据库从II到III,再到IV版本,经历了显著的架构蜕变。数据量呈指数级增长,MIMIC-II涵盖2001—2007年数据,MIMIC-III将时间跨度拓展至2012年,纳入患者数量显著增加,而MIMIC-IV更进一步覆盖2008—2022年的临床数据,纳入超过19万名患者,住院记录达45万次,为大规模、长时间序列研究奠定基础[1-3]。数据表结构持续优化,如部分版本对实验室检查相关表进行重构,使其分类更科学、逻辑更严谨,以适配不断出现的新型检测指标与复杂检测流程。字段含义也与时俱进,以疾病诊断编码为例,从旧版编码体系逐步过渡到国际疾病分类(International Classification of Diseases,ICD)最新版本,既确保诊断信息的精准与通用,又紧跟医学术语标准化步伐。这些架构革新为研究者带来更丰富、精准的数据资源,同时也要求使用者充分了解版本差异,以便精准选取适配的数据进行探索,充分挖掘各版本数据的潜在价值。
1.2 MIMIC的主要数据类型
根据来源划分,MIMIC数据库主要包括三类数据:第一类数据来源于EHR,主要为患者的人口统计学信息、实验室检查结果、疾病诊断及药物治疗情况等;第二类数据为ICU床旁监护仪采集的生命体征、波形数据、液体管理等,主要来源于IMD Soft MetaVision系统;第三类为死亡随访数据,通过社会保险体系获得患者院外死亡日 期[4]。
第一类数据是MIMIC数据库的核心部分,涵盖了患者在医院期间产生的广泛信息,主要包括:① 人口统计学:患者的年龄、性别、种族、婚姻状况、宗教信仰等基本信息;② 实验室检查:血液检查、尿液分析、细菌培养等实验室检查结果,为研究者提供患者的生理和病理状态信息;③疾病诊断:患者接受的疾病诊断信息,如ICD编码,用于标识患者的主要和次要诊断;④药物治疗:患者接受的处方药、药物剂量、用药频率等信息,反映了患者的治疗情况和药物反应。第二类数据提供了关于患者生理状态的连续监测和动态图像信息,包括①生命体征:如心率、血压、体温、呼吸频率等实时监测数据,用于评估患者的健康状况和疾病进展;②波形数据:ECG等生理信号的连续记录,对于分析患者的心脏功能至关重要。第三类数据是死亡随访数据,记录了患者出院后的死亡日期(如已发生死亡),对于分析患者的长期预后、死亡率等关键指标尤为重要。MIMIC数据库通过与社会保险体系相关联,能够准确获取患者院外死亡信息,这一功能使研究人员得以将患者院内临床数据与长期健康结局相结合,从而开展更深入的分析。
1.3 MIMIC数据结构和各层次关联模式及数据流向
1.3.1 主键与外键相关联
MIMIC数据库的主键与外键关系是其数据架构的重要组成部分,它们共同确保了数据的完整性和关联性。主键是表中能够唯一标识每条记录的字段或字段组合。在MIMIC数据库中,每个核心表通常都有一个主键,用于确保每条记录的唯一性,主键通常具有唯一性、非空性、不可变性的特点。它可能是单个字段,如患者身份标识(subject_id),也可能是多个字段的组合,如(subject_id,hadm_id,stay_id),用于在更复杂的场景下唯一标识记录。外键是表中用于建立与其他表之间关系的字段。在MIMIC数据库中,外键通常指向另一个表的主键,从而建立两个表之间的关联,具有引用完整性、可选性、级联操作的特点,然而,是否允许级联操作可能取决于具体的数据表设计和规则。
在MIMIC数据库中,主键和外键共同构成了数据表之间的关联网络。这种关联网络使得用户能够方便地查询、分析和处理相关数据。例如,通过患者身份标识(subject_id)作为主键,可以唯一标识每个患者;而通过住院标识(hadm_id)作为外键,可以将患者的每次住院记录与相应的患者信息关联起来。当研究者需要查询某个患者的住院信息时,只需通过患者身份标识即可快速定位到相关的住院记录。
1.3.2 基于患者标识符的关联
在MIMIC数据库复杂的数据网络中,subject_id、hadm_id、stay_id等患者标识符起着不可替代的作用。subject_id作为患者的唯一身份标识,贯穿于整个数据库,无论患者历经多少次入院、转院,在各模块、各数据表中,它都指向同一患者个体,从而确保数据的连贯性与可追溯性 [5]。以查询某位患有慢性心脏病且多次入院治疗患者的完整诊疗过程为例,通过subject_id,可从Hosp模块的admissions表精准获取患者历次入院的时间、类型等基础信息,锁定每次住院对应的hadm_id;通过hadm_id这一“住院轨迹标签”,切入labevents表,进而高效检索出该次住院期间所有的实验室检查结果,如血脂、心肌酶谱等关键指标的动态变化;与此同时,在ICU模块的chartevents表中,通过hadm_id与subject_id的双重关联,可以定位该患者在重症监护期间的生命体征波动、治疗干预措施,真正实现从宏观住院轨迹到微观诊疗的全方位洞察。
1.3.3 时间序列数据的流向逻辑
在MIMIC数据库中,charttime、storetime等时间字段为数据赋予了时间维度,精准反映了患者病情的动态演进。以急诊转住院这一常见流程为例,当患者因突发胸痛被紧急送至急诊室时,ED模块中的vitalsign表实时记录患者的生命体征,包括心率、血压、血氧饱和度等关键指标,这些数据可反映患者入院时病情的危急程度;Pyxis表依据给药时间的charttime,记录患者在急诊科用药的具体情况。一旦确诊需住院治疗,这些急诊阶段的数据将根据患者的subject_id与hadm_id,流向Hosp模块与ICU模块,成为后续诊疗决策的重要依据。
在住院期间,尤其是ICU病房,chartevents表以更高频率的charttime持续追踪患者的生命体征、实验室检查等重要数据变化;同时,inputevents表凭借用药时间的charttime,详细记录每次静脉给药、抗生素输注的关键节点,与生命体征、实验室检查结果等数据形成完整的治疗反馈闭环。storetime数据被验证并存储到患者病历中的确切时间,有助于追踪数据的处理流程,了解数据从记录到存储的整个过程。其与charttime的主要区别在于,charttime关注观察或测量的时间点,而storetime关注数据被验证并存储到数据库的时间点。storetime较charttime延迟,表明数据需经过临床验证后才被存储,这一延迟可能影响实时预警系统的时效性。
2 主要数据表
2.1 字典表
字典表通常用于定义和解释其他数据表中的编码和术语。在MIMIC-IV中,字典表类型见表1。
2.2 患者基本信息表
患者基本信息表包含患者的身份、人口统计学特征等基本信息,见表2。
2.3 患者细化信息表
患者细化信息表包含患者在住院期间的具体医疗信息,如生命体征、实验室检查结果、用药情况等,见表3。
2.4 其他信息表
其他信息表中包含了一些可能不直接与医疗过程相关,但可能对研究具有重要意义的数据,见表4。
3 MIMIC数据库的隐私保护与伦理
MIMIC数据库作为重症医学研究的重要资源,其数据隐私保护和伦理治理机制至关重要。当前系统已实施多项健康保险携带和责任法案(Health Insurance Portability and Accountability Act,HIPAA)合规措施:在结构化数据处理方面,移除了18类直接标识符(如姓名、地址等),并对日期进行偏移处理以保留时序特征[2];自由文本则采用混合脱敏技术,即结合基于美国人口普查词库的命名实体识别和BiLSTM-CRF神经网络检测隐蔽的个人健康信息。访问控制上实行分级管理,研究者需完成合作机构培训计划(Collaborative Institutional Training Initiative,CITI)伦理培训,并签署数据使用协议,包括保护患者隐私,不将数据用于商业目的和分享给未授权的第三方等。
虽然MIMIC数据库去标识化处理符合HIPAA标准,保证了研究的可行性,但在国际合作中常因各国对知情同意的差异化要求而受阻。针对这些困境,研究人员提出了双轨制解决方案:行业层面由专业机构制定行为准则统一技术标准;国际层面构建兼顾地方伦理审查和全球协调的治理框架[6]。
4 展望
本研究系统解析了MIMIC-IV模块间的关联逻辑,同时深入剖析了MIMIC数据库的数据结构与内容价值。尽管MIMIC数据库具有广泛的数据覆盖范围和丰富的数据类型,但其样本代表性、数据时效性等方面仍存在一定局限性。未来可通过多中心数据融合、实时动态更新与跨领域资源整合等策略,全面提升MIMIC数据库的应用价值。首先,通过与NHANES、eICU等公开数据库的系统整合[7-9],构建更具代表性的多样化临床数据库,增强研究结果的泛化能力。其次,借助医院信息系统(hospital information system,HIS)或电子病历系统(electronic medical record,EMR)的实时对接技术[10],实现数据的动态更新与长期监测,提升数据库的时效性与完整性。在此基础上,整合基因表达谱等多组学数据,建立从分子机制到临床表型多维关联模型[11],为精准医学研究提供支撑,还可进一步整合公共卫生监测数据与物联网设备采集信息[12-13],进而构建覆盖“预防-诊断-治疗”全流程的智能分析平台。除提升应用价值外,还可从安全性和隐私保护方面对MIMIC数据库进一步优化。具体而言,可引入联邦学习(federated learning)框架,在不共享原始数据的前提下,实现跨机构数据的分布式协同建模,有效避免集中式数据共享所带来的隐私泄露与合规风险。其次,依托区块链和隐私计算等前沿技术 [14],在保障数据安全的前提下推动跨国界、跨机构的协作共享机制建设。通过这一系列举措,以期MIMIC数据库在精准医学研究与临床实践转化中展现出更多价值。
1.Lee J, Scott DJ, Villarroel M, et al. Open-access MIMIC-II database for intensive care research[J]. Annu Int Conf IEEE Eng Med Biol Soc, 2011, 2011: 8315-8318. DOI: 10.1109/IEMBS.2011.6092050.
2.Johnson AE, Pollard TJ, Shen L, et al. MIMIC-III, a freely accessible critical care database[J]. Sci Data, 2016, 3: 160035. DOI: 10.1038/sdata.2016.35.
3.Johnson AEW, Bulgarelli L, Shen L, et al. MIMIC-IV, a freely accessible electronic health record dataset[J]. Sci Data, 2023, 10(1): 1. DOI: 10.1038/s41597-022-01899-x.
4.任文森. 入住重症监护室肝硬化患者住院死亡列线图预测模型构建与验证[D]. 泸州: 西南医科大学, 2024. [Ren WS. Development and validation of a nomogram for predicting in-hospitalmortality of intensive care unit patients with liver cirrhosis[D]. Luzhou: Southwest Medical University, 2024.] DOI: 10.27215/d.cnki.glzyu.2024.000134.
5.宋伟伦, 田国祥, 柳青青, 等. MIMIC数据库申请、导入、结构关系及查询[J]. 中国循证心血管医学杂志, 2018, 10(10): 1157-1161. [Song WL. Tian GX, Liu QQ, et al. Introduction of CHNS official website and data collection methods[J]. Chinese Journal of Evidence-Bases Cardiovascular Medicine, 2018, 10(10): 1157-1161.] DOI: 10.3969/j.issn.1674-4055.2018.10.02.
6.McLennan S, Shaw D, Celi LA. The challenge of local consent requirements for global critical care databases[J]. Intensive Care Med, 2019, 45(2): 246-248. DOI: 10.1007/s00134-018-5257-y.
7.Lin Z, Wang HF, Yu LY, et al. The relationship between biological aging and psoriasis: evidence from three observational studies[J]. Immun Ageing, 2025, 22(1): 6. DOI: 10.1186/s12979-025-00500-4.
8.Li W, Zhou H, Zou Y. An interpretable machine learning model for predicting mortality risk in adult ICU patients with acute respiratory distress syndrome[J]. Front Med (Lausanne), 2025, 12: 1580345. DOI: 10.3389/fmed.2025.1580345.
9.Rogers B. Unraveling temporal patterns of diagnostic markers and comorbidities in Alzheimer's disease: Insights from large-scale data[J]. Alzheimers Dement, 2025, 21(3): e14564. DOI: 10.1002/alz.14564.
10.Wang H, Zhang M, Mai L, et al. An effective multi-step feature selection framework for clinical outcome prediction using electronic medical records[J]. BMC Med Inform Decis Mak, 2025, 25(1): 84. DOI: 10.1186/s12911-025-02922-y.
11.Dan J, Lu HM, Zhou X, et al. Association of autoimmune diseases with the occurrence of osteoarthritis: a gene expression and Mendelian randomization study[J]. Front Med (Lausanne), 2024, 11: 1435312. DOI: 10.3389/fmed.2024.1435312.
12.Agliata A, Giordano D, Bardozzo F, et al. Machine learning as a support for the diagnosis of type 2 diabetes[J]. Int J Mol Sci, 2023, 24(7): 6775. DOI: 10.3390/ijms24076775.
13.Elseddeq NG, Elghamrawy SM, Eldesouky AI, et al. Optimized robust learning framework based on big data for forecasting cardiovascular crises[J]. Sci Rep, 2024, 14(1): 28224. DOI: 10.1038/s41598-024-76569-6.
14.Hennebelle A, Ismail L, Materwala H, et al. Secure and privacy-preserving automated machine learning operations into end-to-end integrated IoT-edge-artificial intelligence-blockchain monitoring system for diabetes mellitus prediction[J]. Comput Struct Biotechnol J, 2023, 23: 212-233. DOI: 10.1016/j.csbj.2023. 11.038.