【零基础玩转MIMIC-IV】临床科研人员必看的重症医学数据挖掘全攻略

一、MIMIC 数据库概述

1. 什么是 MIMIC 数据库

MIMIC(Medical Information Mart for Intensive Care)是一个大型公开可用的重症监护数据集,包含来自美国贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)ICU患者的脱敏健康相关数据。具有以下核心特征:

•全球最大的开放重症监护临床数据库

•数据经过严格脱敏处理(HIPAA标准)

•已获IRB豁免(发表论文无需额外伦理审查)

•包含多维度临床数据:人口统计学、生命体征、实验室检测、影像学报告、药物管理等

•支持预后研究(含出院1年随访数据)

2. 数据库版本

MIMIC数据库经过多次更新,目前主要版本包括: - MIMIC-II:已不再公开,仅有单中心ICU 数据。 - MIMIC-III:数据时间范围为 2001-2012,包含约 6 万次 ICU 入住记录,数据来源于 MetaVision 和 CareVue 监护系统。 - MIMIC-IV:最新版本(当前为 v3.1),数据时间范围为2008-2019,包含约 40 万次普通病房住院记录和更详细的 ICU 数据。

MIMIC-IV数据主要来源于 MetaVision 监护系统,是目前研究中的主流选择。

3. 数据模块

MIMIC-IV数据划分为多个模块,反映数据来源: - hosp 模块:医院层级数据(实验室检测、微生物学、药物管理等)。 - icu模块:ICU 层级数据(床旁监护记录)。- ed 模块:急诊科数据(原因、分诊信息、生命体征等)。 - cxr 模块:胸片及影像学报告。 - note 模块:去身份化的自由文本临床笔记。


二、MIMIC-IV 数据内容分类整理

1. 患者身份与标识符

MIMIC-IV 提供 3 个关键标识符,用于标记病人信息及关联表格: - subject_id:唯一标记患者身份。 - hadm_id:唯一标记一次住院记录。 - stay_id:唯一标记一次 ICU 或急诊停留记录。 - 注意:患者多次进出 ICU 或急诊,会有多个 stay_id,但这些记录可以通过地点变动(transfer_id)追溯。

2. 数据模块及详细表格说明

(1)Hosp 模块

Hosp 模块提供全院级别数据,包括住院信息、实验室检测、微生物学等: - admissions 表:患者住院记录(入院时间、出院时间、死亡时间等)。 - patients 表:患者的性别、年龄等人口统计信息。 - transfers 表:院内转移记录(包括病房变更)。 - labevents 表:实验室检测结果(血液检测、基因检测等)。 - microbiologyevents 表:微生物检测数据(培养、抗生素敏感性等)。 - prescriptions 表:患者药物处方信息。 - emar 表:电子药物管理记录。 - diagnoses_icd 表:患者诊断的 ICD 编码数据。


(2)ICU 模块

ICU 模块主要包含 ICU 病房中记录的床旁监护数据: - icustays 表:每次 ICU 停留的基本信息(入住时间、离开时间、停留时长等)。 - chartevents 表:床旁监护记录(生命体征、实验室数据等)。 - inputevents 表:输入信息(液体输入、药物滴注等)。 - outputevents 表:输出信息(尿量、引流等)。 - procedureevents 表:程序性操作记录(如插管、机械通气等)。

每个患者每次入院可能有多次icu,每次icu对应一个stay_id。包含9张表:


(3)ED 模块

ED 模块包含急诊科数据: - edstays 表:急诊停留记录。 - triage 表:分诊信息,包括病情评估与初步生命体征。 - vitalsign 表:急诊患者的周期性生命体征记录。 - diagnosis 表:急诊诊断记录。

(4)CXR 模块

CXR 模块提供胸片数据及相关影像学报告: - cxr-record-list.csv.gz:图像与患者标识符的映射表。 - cxr-study-list.csv.gz:影像研究与患者标识符的映射表。


三、MIMIC 数据库的使用方法

1. 数据申请

1. MIMIC数据库简介和申请前提条件

MIMIC数据库是一种开放的、用于研究重症监护医学的医疗大数据资源,包含患者的详细病历、实验室数据等信息,用于支撑临床研究和数据分析。

申请访问MIMIC数据库需要满足以下前提条件:

• EDU邮箱:建议使用学校或科研机构的教育邮箱;若没有,可以尝试申请商业邮箱。

• 推荐人:推荐人需是已有发表相关研究论文的科研人员(最好是发表过SCI论文)。

2. 在PhysioNet网站注册账户

• 打开PhysioNet官网(https://physionet.org/),点击注册。

• 注册完成后,系统会发送激活邮件至你的邮箱,点击激活即可完成账户创建。

3. 完成CITI伦理培训

MIMIC数据库的使用需要通过伦理培训(CITI Program),以下是详细步骤:

• 访问CITI官网(https://about.citiprogram.org/),选择“Register”(注册)。

• 注册时,选择“Massachusetts Institute of Technology Affiliates”作为关联机构(注意不要选择“Independent Learner Registration”)。

• 填写个人信息和机构信息,推荐使用教育邮箱(EDU邮箱)。

• 完善注册资料,如有需要,可以注册一个ORCID ID(科研标识号)以提升学术资质。

• 选择课程:

– 在课程选择页面,回答问题时勾选问题1、2和5(意思是你需要学习与数据相关的伦理课程)。

– 主要课程包括:

Conflicts of Interest(利益冲突),共2个模块。

Data or Specimens Only Research(仅数据或标本相关研究),共9个模块。

• 完成学习:学习过程中需通过模块测试,满分为100分,得分80分以上视为及格。可以重复答题直到通过。

完成所有课程后,下载并保存培训结业证书。需在论文方法部分注明PhysioNet认证ID。

4. 在PhysioNet提交MIMIC-IV申请

完成CITI伦理培训后,可以开始申请MIMIC数据访问权限,具体步骤如下:

• 登录PhysioNet后,搜索“MIMIC-IV”并点击进入相关页面。

• 开始申请,主要包括以下内容:

– 上传伦理培训证明:将CITI培训的结业证书上传至申请页面。

– 填写推荐人信息:

推荐人必须是有论文发表的科研人员,且填写的邮箱需与其论文信息一致。

若推荐人没有SCI论文,则需提供其已发表论文的详细信息(如论文链接)。

• 提交申请后,PhysioNet会给推荐人发送一封确认邮件,提醒推荐人及时点击邮件中的确认链接。

5. 等待审批并获取数据访问权限

• 推荐人确认后,PhysioNet会对你的申请进行审核,通常需要几天到两周时间。

• 审核通过后,你即可在官网上下载MIMIC-IV数据库文件。


2. 数据下载与安装

• 进入 PhysioNet 个人账户下载数据(约 7GB 压缩包,解压后约 100GB以上)。

• 使用 PostgreSQL 软件导入数据:

1. 准备建库脚本(官网提供)。

2. 使用 7z 工具批量解压。

3. 导入数据并验证连接。

• 建议安装 PostgreSQL 软件与数据在同一磁盘,避免路径冲突。


3. 数据云端访问

MIMIC-IV 数据支持云端访问(推荐使用),无需本地安装: - BigQuery:无需设置,实时更新,适合快速查询。 - AWS 或 Google Cloud 存储:适合下载完整数据。


四、MIMIC 数据处理与分析注意事项

1. 数据整合与连接

• 使用标识符(subject_id、hadm_id、stay_id)连接不同表格。

2. 时间处理

• 所有时间字段均已脱敏,按天或分钟分辨率存储。

– *_time字段:精确到分钟(例:charttime)

– *_date字段:仅保留日期(例:chartdate)

• 时间戳字段主要包括:

– charttime:记录时间,接近实际测量时间。

– storetime:存储时间,反映数据存档时间。

– intime/outtime:患者进入/离开 ICU 或急诊的时间。

– starttime/endtime:事件起始和结束时间(如药物滴注)。

3. 数据去身份化

• 所有日期已随机偏移(2100-2200 年之间),但同一患者内时间间隔保持一致。

• 患者年龄超过 89 岁的记录统一标记为 91 岁。

4. ICD 编码使用

• MIMIC-IV 同时包含 ICD-9 和 ICD-10 编码。

• 可通过 d_icd_diagnoses 表查找编码含义,并结合 diagnoses_icd 表进行关联分析。

5. 生命体征与实验室数据

• 生命体征等监测数据存储在 chartevents 表中,采用长表格式。

• 实验室检测结果存储在 labevents 表中,需注意测量单位与参考范围。


五、实用技巧与资源

1. 常用 SQL 查询示例

(1)提取实验室检测结果

SELECT subject_id, hadm_id, itemid, valuenum, charttime

FROM labevents

WHERE itemid IN (50868, 50862)  -- 例如提取血红蛋白和白细胞计数

(2)关联 ICU 数据与实验室数据

SELECT icustays.subject_id, icustays.stay_id, labevents.itemid, labevents.valuenum

FROM icustays

JOIN labevents ON icustays.subject_id = labevents.subject_id

WHERE icustays.stay_id = 210001

2. 官方文档与资源

• MIMIC 官方网站:https://mimic.mit.edu/

• PhysioNet 下载页面:https://physionet.org/

• PostgreSQL 教程:https://www.runoob.com/postgresql/postgresql-tutorial.html

3.常见研究误区

• 1. 时间依赖性偏倚:

•   • 错误:将入ICU时间点作为随访起点

•   • 修正:采用landmark analysis方法

• 2. 混杂因素控制:

•   • 错误:残余混杂因素

•   • 修正:采用倾向性评分加权或多因素模型中纳入倾向性评分