在没有进行专门的CNV分析(例如使用InferCNV等工具)的情况下,鉴定癌细胞确实更具挑战性,但并非不可能。这需要我们综合利用其他生物学特征和分析策略来做出“有根据的推断”。
核心思路是:寻找那些与正常细胞行为显著不同的异常细胞群体。癌细胞通常表现出不受控制的增殖、代谢重编程、应激反应、去分化和异质性等特征。
1. 基于已知的细胞标记物
这是最直接、最可靠的初步方法,尤其适用于某些癌症类型。
上皮细胞标记物(用于癌):
原理: 大部分实体瘤来源于上皮细胞(癌),因此癌细胞通常会表达上皮细胞标记物,如
EPCAM、KRT19、KRT7 等。
方法:
1. 在UMAP/t-SNE图上查看 `EPCAM` 等基因的表达。
2. 如果一个细胞群高表达上皮标记物,但它所处的微环境在正常情况下不应有上皮细胞(例如,在脑组织或血液中),那么这个细胞群就极有可能是转移或原发的癌细胞。
示例: 在脑组织样本中发现一个高表达 `EPCAM` 的细胞群,这强烈暗示是脑转移癌。
肿瘤干细胞/增殖标记物:
标记物: `MKI67` (Ki-67), `PCNA`, `TOP2A`。这些是细胞增殖的标志。
方法: 癌细胞通常增殖活跃。可以计算一个“细胞周期评分”,如果一个大的细胞群体持续处于高增殖状态,这可能是恶性行为的线索。但需注意,正常的干细胞或祖细胞也可能高表达这些基因。
癌胚抗原或肿瘤相关抗原:
标记物: 对于特定癌症,有已知的高特异性标记物,如肝癌的 `AFP`, 黑色素瘤的 `MLANA`/`PMEL`, 前列腺癌的 `KLK3` (PSA) 等。
方法: 在分析时,有目的地检查这些特定基因的表达。
2. 基于转录组异常性的计算和生物学特征
当没有明确的单一标记物时,这种方法更为强大。
显著的细胞异质性:
原理: 同一个肿瘤内的癌细胞具有高度异质性。
方法: 如果一个细胞群在无监督聚类(如Louvain/Leiden)后,内部仍然表现出连续的、巨大的转录状态差异(在UMAP图上看起来是弥散的一团,而不是紧密的一簇),并且这种异质性涵盖了多种细胞状态(如部分细胞呈间充质特征,部分呈上皮特征,即EMT谱),这强烈提示是恶性细胞群。
应激和代谢异常特征:
原理: 癌细胞处于代谢和氧化应激状态。
方法: 使用 `AddModuleScore` 或类似功能计算应激反应基因集(如缺氧反应、内质网应激、热休克蛋白)的得分。如果一个未知细胞群在这些得分上显著偏高,值得高度怀疑。
“非正常”的细胞类型:
原理: 通过细胞类型注释,寻找不符合组织解剖学结构的细胞。
方法:
1. 用已知的标记基因对所有细胞进行注释(T细胞, B细胞, 髓系细胞, 成纤维细胞, 内皮细胞, 上皮细胞等)。
2. 如果一个“上皮细胞”群出现在本应没有上皮的组织(如脾脏)中,它就是首要的癌嫌疑细胞。
3. 如果一个细胞群同时表达多种不同谱系的标记物(如同时表达上皮和间充质标记),这可能是去分化的癌细胞。
综合鉴定流程总结
在实际分析中,建议采用以下综合流程:
1. 标准预处理与聚类:
进行标准的QC、归一化、降维和聚类。
2. 初步细胞注释:
使用经典标记基因对主要的免疫细胞、基质细胞和上皮细胞进行注释。
3. 识别“异常”细胞群:
定位未知细胞群: 找到那些无法被明确注释为正常细胞的集群。
检查上皮标记物: 重点审视这些未知集群是否表达 `EPCAM`, `KRT` 等基因。
检查增殖状态: 查看 `MKI67` 表达和细胞周期评分。
检查异质性: 观察该集群在低维空间是否弥散,内部是否存在亚结构。
检查代谢/应激特征: 计算相关基因集得分。
4. 差异表达与通路分析:
将这个“嫌疑”细胞群与所有已知的正常细胞进行差异表达分析。
对差异上调的基因进行通路富集分析(如KEGG, GO)。如果富集到“细胞周期”、“癌症通路”、“p53信号通路”、“粘附斑”等,则进一步支持其恶性属性。
5. 验证:
最重要的步骤: 与病理学诊断结果进行交叉验证。这是金标准。
如果可能,通过免疫组化或多色荧光在原位验证这些细胞表达你发现的标记物。
局限性说明
假阳性:
某些正常的增殖性细胞(如再生肝细胞、活化的淋巴细胞)也可能表现出类似的特征。
假阴性:
一些高分化的癌细胞或静息态癌细胞可能非常像正常细胞,难以通过此方法识别。
不确定性:
这种方法得出的结论是“推断性”的,不如CNV分析直接和客观。