时依协变量COX生存分析的数据结构问题

时依协变量COX生存分析的非平衡面板数据怎么处理?

因为我的研究内容也包括了企业生存方面的问题,但自己学习相关知识和阅读文献后,还是对实证中生存分析(面板数据)有些疑惑。企业生存时间主要是指某一企业从在数据库中出现至退出所经历的时间,企业在 t 年存在、t + n 年从数据库中消失,则可以视为退出。我想问问,例如整个样本数据(2002-2013)为面板数据,那么对于企业退出的识别,退出当年状态取为1,其余年份为0。如果是这样的话,例如某个企业是2004年成立,2013年退出,那么2013年可视为发生事件,为退出年份,取值为1,2004-2012年为0,那么在2002-2003年这个变量该怎么处理,是作为缺失值还是也取值为0?这个一直挺疑惑的。不知道在2002-2003年怎么赋值?目前看的资料好像是截面数据,想咨询下非平衡面板数据的依时协变量的原始数据怎么处理呢?

原始面板格式如下:(其中est_year是id成立年,year为id存在的相应年份,X1为一些企业层面的随时间变化的变量)

id year est_year X1 是否退出 生存时间

1 2004 2004 .... 0 0?

1 2005 2004 .... 0 1?

1 2006 2004 .... 0 2?

1 2007 2004 .... 0 3?

1 2008 2004 .... 0 4?

1 2009 2004 .... 0 5?

1 2010 2004 .... 0 6?

1 2011 2004 .... 0 7?

1 2012 2004 .... 0 8?

1 2013 2004 .... 0 9?

2 2002 2002 .... 0 0?

2 2003 2002 .... 0 1?

2 2004 2002 .... 1 2?

.... ....

考虑到左删失问题,所选取的样本是从2002-2013年新成立的企业.我上面列示出来的是想说id1存活了大于9年,id2存活了2年。但是我现在没有明白这样的一个数据形式(相关解释变量为企业层面的面板型数据,因变量不知道该如何设定?即是否退出和生存时间),以及对于未退出和右删失都是做了0处理,这样是否合理?