论文中出现的各种问题,期待您的解答,谢谢!


1.缺失值和空值

空值就是我们这个患者本来就没有做这个检验,所以我们没有这个数据就空着了。

缺失值是我们这个患者做了这个检验,我从集成视图看他做了,但是点击报告看不到,因为太早年了数据丢失了。

我查了缺失值的处理。

缺失少于15%,分类变量用众数替代,数值变量用均数替代。

但是>15%的是都可以用回归估计吗?回归估计最多可以适用于多少比例呢?

但是空值我不知道怎么处理呢?算是缺失值吗?

我要不要处理缺失值?我的指标中就没有几个计数资料,就是检验资料里面有一些连续性变量,但是检验资料缺失好多呀,我收集了8年的病人,有的检验方法也很不同,有的就查肝功,有的是生化全套,像细胞免疫检验的项目名称也不一样,而且都不到一半病人有查,我看有的文章是写有多少例查了这个指标,有几例异常,又变成分类变量了。crp是比较全的一个值班又出现了极值(〈5,〈0.5,〉90)。spss又处理不了了。

另外,如果缺失值处理了要在毕业论文中提吗?

2.暴露因素

暴露因素有要求是入院前的指标吗?流行病学里面有一句话(病例对照研究是按照有无所研究的疾病或某种卫生事件,将研究对象分为病例组和对照组,分别追溯其既往(发病或出现某种卫生事件前)所研究因素的暴露情况,并进行比较,以推测疾病与因素之间有无关联及关联强度大小的一种观察性研究。)但是我看有的文章有用到住院期间的治疗作为危险因素拿去分析的。

3.危险因素OR的计算

一种是相关性分析或者单因素分析之后二元logistic回归分析里面有OR。

里面会衍生出一个问题,为什么有的用相关性分析,有的用单因素分析?哪种更好呢?两种都对吗?

另一种是先用卡方检验之后用交叉表选择风险计算OR。

这两种都可以吗?有什么区别和联系呢?比如什么情况下用第一种什么时候用第二种?

第二种就是流行病学里面的方法,用四个表去算OR,我可以理解。

但是第一种算OR我不懂,就是感觉什么指标都可以拿去算OR,计数资料分类变量都可以。按理说计数资料我们是不可以拿去按第二种方法算的,因为它没有赋值成分类变量的话就不能变成四个表,就没办法算OR。

5.我的分组悬殊挺大的,合并bo的病例数17,不合并bo的病例数69。

我目前了解的就是看四个表里面T值去选择卡方检验的方法,应该很多都是要用Fisher精确法,这样可行吗?

如果是二元logistic回归的话有说研究组/总人数比例〉15%,那我17/86≈20%〉15%,危险因素个数不超过总人数的5-10%(4-8个变量) 那我单因素分析之后挑4-8个变量分析,这样可行吗?

分组差距大,还有什么地方会有问题吗或者有哪些不适用的情况吗?

6.我这个属于病例对照研究分析,也不是按1:1分的组,也没有OR值也没有总体均数和标准差,怎么算样本量?