上传人:地**
编号:1194605
2024-09-20
9页
96KB
1、(一)立项依据与研究内容 1.项目的立项依据多层(水平)统计模型(multilevel statistical models)是二十世纪80年代中后期发展起来的一门多元统计分析新技术,其是针对经典统计技术(方差分析或普通线性回归等)在处理具有多层结构的数据时所存在的局限、以及可能产生的对分析结果的曲解而提出的。多层统计模型通过对不同层次的变量分层计算( 误差按层次分解为: 由第一层个体间差异带来的, 和由第二层组织间差异带来的, 并假设第一层个体间的测量误差相互独立, 第二层组织带来的误差在不同组织之间相互独立)解决了具有层结构数据中个体水平和社会组织水平的变量对个体行为的不同影响。具有层结构2、的数据在组织研究、经济研究以及管理研究等领域广泛存在。如,探讨企业绩效的影响因素, 常常考虑的企业的经营规模、产权结构、公司治理机制、以及企业所属行业的产值、信息化程度、市场化程度等,这些变量分别来自两个不同的层, 即企业(个体)业第一层和产业(社会组织)第二层。多层统计模型已成为当前国际上统计学研究中一个新兴而重要的领域,已广泛应用于教育、心理、文化、经济、管理等领域1。(1)国内外研究现状及发展动态分析具有层次结构特征数据(hierarchically structured data)的统计理论的发展能渐趋成熟,应归功于多位统计学家的贡献。其中,Lindley及Smith(1972)2、S3、mith(1973)3在研究线性模式的贝氏估计(Bayesian estimation of linear models)时即对于具有复杂误差结构的巢状数据的分析有着浓厚的兴趣,但受限于当时估计的瓶颈而无法突破。其后Dempster,Laird,及Rubin(1977)所推倒的EM估计法,则对于HLM之估计技术提供了决定性的突破4。之后,Aitkin(1981)对教学风格的资料引入了层结构重新分析应该是实质性地解决层次结构数据理论的开始5。随着研究的深入,多层模型在估计方法与检验、模型的形式以及应用方面形成各自的体系。1)模型的估计方法与检验。Laird (1982)给出了多层模型中随机效应的4、判定方法6;Strenio(1983)给出了多层统计模型的Bayes 估计或叫收缩估计法(shrinkage estimator)方法7;Goldstein(1986)给出了运用迭代广义最小二乘法算法的极大似然估计(maximum likelihood, REM)多层模型的参数8;李晓松(1999)探讨了两个水平层次结构的数据拟合方差成份模型与线性回归模型的关系21;石磊(2008)研究了多水平模型下基于均值漂移模型的异常点探测问题22;Sinha(2009)用自助法进行参数估计,通过模拟研究得到小区域估计的稳定性16;Kauermann(2009)利用惩罚似然估计法(penalty quas5、i-likelihood,PQL)讨论了样条基随着样本规模改变时惩罚样条光滑的渐进特性17;Nie等(2009)比较了极大似然估计、限制极大似然估计(restricted maximum likelihood, REML)以及贝叶斯方法在多正太变量下的方差参数的估计18。2)模型的形式。Raudenbush (1991)建立了多因变量的多层模型9;Goldstein(1991)建立了离散变量的多层模型10;Consul(1992)建立了多层Poisson回归模型(Multilevel Poission Regression Model) 11;Raudenbush (1993)建立了交叉分类的6、多层模型12;Muthen1994)建立了多层结构方程模型13; Agresti(2000)建立了多层Logistic回归模型(Multilevel Logistic Regression Model)、多层多项Logit模型(Multilevel Multinomial Logit Model)14;Carpenter(2003)针对二层样本较少情况,建立了自助法的多层模型(bootstrap multilevel modeling)15;刘殿国(2009)建立适合处理二层连续型小样本数据的累加方法的多层统计模型23;Goldstein(2011)对多因变量与交叉分类数据多层模型进行详细的讨7、论1;Ibrahim等(2011)用极大惩罚似然估计方法讨论一般混合效果模型中的固定与随机效果的选择19;Di1等(2011)建立了具有狄利克雷混合分布的多层潜变量模型20。3)模型的应用。国外已将多层统计模型广泛应用社会学、教育学、人口学、心理学、经济学以及管理学等社会科学中1。国内的应用由杨菊华(2006)把多层模型应用到社会学研究24;郭志刚(2007)把多层模型应用到人口科学研究25;刘泽云(2007)把多层模型应用到教育研究中等领域26;逐渐扩展到经济管理中,如,伊志宏等(2008)运用多层统计模型研究了地方经济发展与企业资本结构选择27;刘殿国等(2009)运用累加方法的多层统计模8、型研究了香蕉组织的绩效 28;杨鑫等(2010) 基于中国上市公司,运用三层线性模型研究了战略群组对企业绩效的影响29;王天夫等(2010)利用多层线性模型研究了行业对个人收入的影响30;王克林(2011)应用多层统计模型以宏观层面的地区人均可支配收入和是否为发达地区虚拟变量作为二层变量解释家庭消费跨地区的差异31;顾乃华(2011)运用多层线性模型探讨中国以省级政府为“第一行动集团”的中间扩散性型制度变迁,对中国城市化和服务业互动发展产生的影响32;游达明等(2011)基于多层线性模型的就业影响因素研究33;石磊等(2011)应用两水平发展模型研究西部民族地区农户家庭的物质资本、人力资本以及9、就业结构调整对其家庭人均收入及其增长的影响34。需要指出,多层统计模型对一层与高层数据样本规模都有一定的要求,但对一层有一定样本规模,高层数据样本规模较小的情况,利用自助多层统计模型可以得到解决;而对所有一层数据都较少的情况,多层模型难以解决。累加方法的多层统计模型能够处理连续型的所有一层数据都是小样本的情况,但不能处理交叉分类数据。因此,多层统计模型和已建立的累加方法的多层统计模型不能处理所有一层数据都是小样本的交叉分类数据、离散型因变量数据以及具有三层结构数据。而实际上,中国香蕉产业组织的诞生只是近几年的事,而且同类型组织同期也不多,因此每种组织无论是截面数据还是时间数据都较少,即香蕉组织10、的发展是小样本数据。香蕉组织的发展中也存在着香蕉组织的规模与香蕉种植地区的交叉分类,每个组织都有是否已经贷款以及参加技术培训的次数、贷款比例等离散变量数据,香蕉组织每年的投入产出、香蕉组织自身的组织形式、香蕉组织所属的省域构成三层结构。交叉分类的组织中产量、产值的预测、一般组织中的影响技术培训的次数、贷款比例的因素、各省的经济环境如何影响香蕉组织的发展等问题都需要解决。因此,研究交叉分类数据、离散型因变量数据以及具有三层结构数据的小样本多层统计模型不仅具有理论意义,而且具有较强的实际意义。本项目中涉及到的定义,交叉分类累加方法的多层统计模型是指交叉分类累加方法所有一层数据都是小样本的多层统计模11、型。合并方法的多层统计模型分为合并连续型因变量多层统计模型和合并离散型因变量多层统计模型。合并连续型因变量多层统计模型是指合并方法连续型因变量所有一层数据都是小样本的多层统计模型。合并离散型因变量多层统计模型是指合并方法离散型因变量所有一层数据都是小样本的多层统计模型。(2)研究意义1)理论意义拟建立的交叉分类累加方法与合并方法的多层统计模型理论将解决多层统计模型和已建立的累加多层统计模型不能处理所有一层数据都是小样本的交叉分类数据、离散型变量数据、具有三层结构数据以及灰色系统模型理论只能处理单层数据的问题。因此,交叉分类累加方法与合并方法的多层统计模型理论是多层统计模型理论、累加方法的多层统12、计模型以及灰色系统模型理论的新发展。应用交叉分类累加方法与合并方法的多层统计模型理论对中国香蕉产业组织的研究,将得到香蕉产业组织的计量理论。而香蕉产业组织是农业组织的一部分,对于香蕉产业组织系统化的数量评价方法将较容易地推广到农业组织上去。从而将有利于建立一个新的学科农业组织计量学。2)实践意义应用交叉分类累加方法与合并方法的多层统计模型理论对中国香蕉产业组织的研究,将得到系统化的香蕉产业组织体系以及各要素间的数量评价。根据实证结果的中国香蕉产业组织发展的合理化建议,将成为中国香蕉产业组织发展的有利依据。另外,香蕉产业组织研究的数量化评价结果,对农业组织研究将有一定的启示作用。而农业组织化问题13、是解决三农问题必须面对的核心问题之一,因此,该项目的研究将有利于三农问题向着更精细化地解决方向发展。(3)主要参考文献目录1 Goldstein H. Multilevel Statistical Model (4rd.)M.Sydney: Edward Arnold ,2011:179-187.2 Lindley D V, Smith A F M. Bays estimation for the linear modelJ.Journal of the Royal Statistical Society(Series B),1972,34:1-41.3 Smith A F M. A gene14、ral Bayesian linear model J. Journal of the Royal Statistical Society (Series B)1973,35:61-75.4 Dempster, Laird, Rubin. Maximum likelihood from incomplete data via the EM algorithmJ.Journal of the Royal Statistical Society(Series B),1977,39:1-8.5 Aitkin M, Anderson D and Hinde J. Statistical modelli15、ng of data on teaching stylesJ. Journal of the Royal Statistical Society(Series A),1981,144,148-161.6 Laird N M & Ware H. Random-effects models for longtitudinal dataJ. Biometrics, 1982, 38:963-974.7 Strenio J L F, Weisberg H I & Bryk A S Empirical Bayes estimation of individual growth curve paramet16、er and their relation ship to covariatesJ.Biometrics, 1983,39:71-86.8 Goldstein H. Multilevel mixed linear model analysis using iterative generalised least squaresJ.Biometrika, 1986,73, 43-56.9 Raudenbush S W, Rowan B & Kang S J.A multilevel multivariate model for studying school climate with estima17、tion via the EM algorithm and application to U.S. high school dataJ. Journal of Educational Statistics,1991,16(4),295-330.10 Goldstein H. Nonlinear multilevel models with an application to discrete response dataJ.Biometrika, 1991,78, 45-51.11 Consul P C & F Famoye. Generalized Poisson regression mod18、elJ.Communications in Statistics: Theory and Methods,1992,21:89-109.12 Raudenbush S W. A crossed random effects model for unbalanced data with applications in cross sectional and longitudinal researchJ.Journal of Educational Statistics, 1993,18,321-349.13 Muthen B. multilevel covariance structure an19、alysisJ.Sociological Methods & Research,1994,22:376-389.14 Agresti A J G, Booth J P Hobert & B Caffo. Random-efffects modeling of categorical response dataJ. Sociological Methodology,2000,30:27-80.15 Carpenter J M., H Goldstein & J Rasbash A novel bootstrap procedure for assessing the relationship b20、etween class size and achievementJ. Applied Statistics,2003,52: 431-443.16 Sinha S K , Rao J N K. Robust small area estimationJ. Canadian Journal of Statistics. 2009, 37:381-399.17 Kauermann G, Krivobokova T, Fahrmeir L. Some asymptotic results on generalized penalized spline smoothingJ. Journal of 21、the Royal Statistical Society:(Series B),2009,71:487-503.18 Nie L, Chu H, Feng S. Estimating variance parameters from multivariate normal variables subject to limit of detection: MLE, REML, or Bayesian approaches? J. Statistics in Medicine,2009,28:2605-2616.19 Ibrahim J G, Zhu H, Garcia R .Fixed and22、 Random Effects Selection in Mixed Effects ModelsJ. Biometrics,2011,67:495-503.20 Chong-Zhi Di1, and Karen Bandeen-RocheMultilevel Latent Class Models with Dirichlet Mixing DistributionJ. Biometrics,2011,67:86-96.21 李晓松,倪宗瓒.两水平方差成分模型与线性回归模型关系的探讨J.中国卫生统计,1999,(2):14-1622 Shi L and C hen G .Case delet23、ion diagnostics in multilevel models J.Journal of Multivariate Analysis,2008, 99(9): 1860-1877.23 刘殿国,徐兵.多变量整体模式累加多层统计模型的建立及其在组织绩效上的应用研究J.数理统计与管理,2009,(5):869-878.24 杨菊华.多层模型在社会科学领域的应用J.中国人口科学,2006,(3):44-51.25 郭志刚.对2000 年人口普查出生性别比的分层模型分析J.人口研究,2007,(3):20-31.26 刘泽云. 农村儿童为何失学?基于多层模型的经验研究J.北京师范大学学报(社24、会科学版),2007,(2):73-80.27 伊志宏曹,曹淮扬,刘轻舟.地方经济发展与企业资本结构选择来自上市公司的经验J.经济管理,2008,(13):75-79.28 刘殿国,陈守东.幂整体模式累加多层统计模型的建立及应用J.统计与决策, 2009,(5):25-2729 杨鑫,金占明.战略群组的存在性及其对企业绩效的影响基于中国上市公司的研究J.中国软科学,2010,(7):112-124.30 王天夫,崔晓雄.行业是如何影响收入的基于多层线性模型的分析J.中国社会科学,2010,(5):165-180.31 王克林,刘建平. 多阶模型在地区消费差异研究中的应用J.统计研究,2011,25、(1):84-90.32 顾乃华.城市化与服务业发展:基于省市制度互动视角的研究J. 世界经济,2011,(1):126-142.33 游达明,杨晓辉,杨立等。基于多层线性模型的就业影响因素研究J.统计与决策,2011,(3):41-44.34 石磊,向其凤,张炯.物质资本、人力资本、就业结构与西部民族地区农户收人增长J.数理统计与管理,2011,(6):1030-1038.2.项目的研究内容、研究目标,以及拟解决的关键科学问题。(此部分为重点阐述内容)(1)项目的研究内容本项目研究交叉分类累加方法与合并方法的多层统计模型理论,并应用之到中国香蕉产业组织的发展中。首先,对具有层结构的小样本数据26、的表示形式进行转化研究;其次,针对不同的转化形式建立相应的小样本多层统计模型;最后,将交叉分类累加方法与合并方法的多层统计模型理论应用于中国香蕉产业组织发展中。具体的研究内容如下:1)数据表示形式的转化。利用数据累加与合并的方法对于具有层结构小样本数据的表示形式进行转化。运用累加方法对具有二层结构交叉分类以及具有三层结构连续型的小样本数据的表示形式进行转化;探索多层小样本数据的合并规则,选择适当的合并规则合并数据,构建数据合并后的表示形式。2)交叉分类累加方法的多层模型理论研究。对于采用累加方法转化的交叉分类二层结构的连续型数据,按累加多层统计模型的方法建立交叉分类数据的累加多层统计模型的表示27、形式和相应的假设;运用模拟研究方法比较模型的限制性最大似然法(REML)、经验贝叶斯估计法或收缩估计法、自助法多层模型估计结果的AIC、BIC、MAPE值,确定合适的估计方法;研究估计结果怎样预测、评价原始数据(累加前的数据);将累加方法的二层模型推广到累加方法的三层模型。3)合并连续型因变量多层模型理论研究。对于合并后的具有二层结构的连续型数据,建立连续型因变量二层模型的表示形式和相应的假设;运用模拟研究方法比较模型的限制性最大似然法(REML)、经验贝叶斯估计法或收缩估计法、自助法多层模型估计结果的AIC、BIC、MAPE值,确定合适的估计方法;研究估计结果怎样预测、评价原始数据(合并前的28、数据);将合并连续型因变量二层模型推广到合并连续型因变量三层模型。4)合并离散型因变量多层模型理论研究。对于合并后的具有二层结构的离散型数据,建立合并多层Logistic回归模型、合并多层累积Logistic回归模型、合并多层多项Logit模型、合并多层泊松回归模型的形式与假设;运用模拟研究方法比较模型的惩罚性准似然估计PQL)、限制性/残差虚拟似然法(REPL)、限制性最大似然法(REML)、最大似然法(ML)估计结果的AIC、BIC、MAPE值,确定合适的估计方法;研究估计结果怎样预测、评价原始数据(合并前的数据);将合并离散型因变量二层模型推广到合并离散型因变量三层模型。5)交叉分类累加29、方法的多层模型在中国香蕉产业组织发展中的应用研究。运用随机抽样调查方法确定欲调查的香蕉产业组织,收集每个确定的香蕉产业组织从其诞生起各年的相应数据。以中国香蕉产业组织绩效(用亩产值或产量等)作为一层因变量;以种植人员特征(人员数量、种植年限与文化程度等)、物质投入(生产过程中的各项物资消耗总和)、贷款、土地成本(收获面积)、风险因素等作为一层预选自变量;以规模(种植面积)、组织形式(“蕉农+蕉农”、“香蕉专业户+蕉农”、“公司+蕉农” 等多种组织模式)、有无专职管理人员、结构变量(香蕉收入占总收入比重、贷款占总投入的比重)等作为预选二层变量;以所属市县相对量(农业财政投入投资占总投入的比重、农30、业科技投入、农产品出口)等作为预选三层变量。运用累加方法的三层统计模型,综合考虑模型拟合、假设检验以及模型比较等结果,确定合适的二、三层变量,对组织绩效进行预测并对其他变量对绩效的影响进行探讨;运用交叉分类累加方法的二层模型探讨交叉分类数据的绩效的预测以及其他变量对绩效的影响;依据实证分析的结果提出有力于绩效提高、组织体系的建设等建议。6)合并方法的多层模型在香蕉产业组织发展中的应用研究。对连续型因变量用5)中变量,运用合并方法的多层模型,确定合适的二、三层变量,探讨绩效的预测、其他变量对绩效的影响、不同组织的异质性以及高层变量对异质性的解释程度。对离散因变量,一层自变量和高层变量用5)中的变31、量。对每个组织贷款(是、否)等二分类变量做因变量的影响因素分析用合并多层Logistic回归模型研究;对施肥技术(1.感观、2.经验、3.测土)等顺序变量做因变量的影响因素分析用合并数据多层累积Logistic回归模型研究;对技术选择等多分类变量做因变量的影响因素分析用合并数据多层多项Logit模型研究;对参加技术培训的次数、贷款比例等计数(比例)的变量做因变量的影响因素分析用合并数据多层泊松(poission)回归模型研究。确定合适的二、三层变量,探讨其他变量对离散因变量的影响、不同组织的异质性以及高层变量对异质性的解释程度。依据实证分析的结果提出有力于绩效提高、技术的优化选择、技术培训、组32、织体系的建设等建议。(2)研究目标1)给出适合多层小样本数据表示形式转化的方法;2)建立累加方法的三层统计模型理论以及交叉分类累加方法的二层统计模型理论;3)建立合并连续型因变量多层统计模型理论;4)建立合并离散型因变量多层统计模型理论;5)用累加方法的多层模型实证分析中国香蕉产业组织绩效;提出中国香蕉产业组织高效发展的建议。6)用合并方法的多层统计模型实证分析中国香蕉产业组织发展;提出有力于绩效提高、技术的优化选择、技术培训、组织体系的建设等建议。(3)拟解决的关键科学问题1) 数据表示形式的转化方法。通过累加方法寻找小样本数据的规律性;通过恰当的规则合并数据,就相当于适当地扩大了样本规模。33、有了规律就可以用少量的数据解决实际问题;有了规模就可以用多层统计模型解决问题。因此数据的转化非常关键。2) 合适估计方法的选择。对大样本数据使用各种估计方法,估计结果基本相同;而小样本估计的精确程度随着估计方法的不同而不同。因此估计方法的选择非常关键。3)估计结果怎样预测、评价以及分析原始数据。由于估计的结果是对经过累加与合并转化后的数据做出的,因此怎样用估计的结果解决原始数据也是一个关键问题。4)合适二、三层变量的选择方法。在香蕉产业组织的实际应用中,选择合适的二、三层变量才能够得到合乎实际的实证结果。而合适变量的选择需要综合考虑数据的可得性、模型拟合、假设检验以及模型比较等结果。因而,依据34、怎样的逻辑整理各种方法是一个关键问题。3.拟采取的研究方案及可行性分析(1)研究方法本项目综合使用如下方法:1)运用累加方法和合并方法转化数据的表示形式;2)运用累加方法的多层统计模型的建模方法建立交叉分类累加二层统计模型模型以及一般数据的累加三层计模型;3)运用多层统计模型方法建立合并离散型因变量与合并连续型因变量多层统计模型;4)运用模拟研究方法确定合适的参数估计与检验方法;5)运用随机抽样调查法收集中国香蕉产业组织发展的有关数据;6)运用实证分析方法研究中国香蕉产业组织发展。运用交叉分类累加方法的二层统计模型模型、累加方法的三层计模型、合并连续型因变量多层统计模型、合并离散型因变量多层统35、计模型研究中国香蕉产业组织的发展;7)运用规范分析法对中国香蕉产业组织发展提出合理化建议。(2)技术路线 在综述国内外相关文献基础上,提炼出建立交叉分类累加方法与合并方法的多层统计模型理论是一个值得研究的问题。首先,利用数据累加与合并方法转化多层数据的表示形式。其次,分别建立交叉分类累加方法的多层统计模型以及合并方法的多层统计模型理论:研究系列模型(多层Logistic回归模型、多层泊松回归模型等)的表示形式;在限制性最大似然法(REML)、收缩估计法、惩罚性似然估计(PQL)等方法中通过模拟研究选择合适的参数估计方;研究估计的结果怎样预测、评价原始数据。最后,应用交叉分类累加方法与合并方法的36、多层统计模型研究中国香蕉产业组织发展。图1 技术路线图(3)关键技术1) 多层统计模型的分析技术。本研究主要应用HLM、MLwin软件以及SAS的多层统计模块做参数估计、统计检验、模型比较等。如果分析技术存在问题,就难以得到合乎实际的评价。2) 模拟研究的分析技术。确定合适的估计方法,是能否得到准确参数估计与检验的关键。模拟研究通过模拟将样本的规模扩大,如此可以体现转化后数据的本质规律,进而有利于合适的估计方法。3)应用中合适二、三层变量选择过程的分析技术。合适变量的选择需要综合考虑数据的可得性、模型拟合、假设检验以及模型比较等结果。因而,依据怎样的流程处理各种结果是一个关键技术。4.本项目的37、特色与创新之处。(1)特色1)挖掘数据表示形式的转化模式:通过恰当的规则合并数据,就相当于适当地扩大了样本规模。2)理论研究与实际应用有机地结合在一起。建立交叉分类累加方法与合并方法的小样本多层统计模型理论有理论发展的要求,更重要的是要解决中国香蕉产业组织发展的实际问题。(2)创新点1)尝试建立的交叉分类累加方法的二层统计模型以及累加方法的三层统计模型是对累加方法的多层统计模型和灰色系统模型的发展。累加方法的多层统计模型不能处理小样本的交叉分类数据、非连续变量数据以及三层数据;而灰色系统模型只能处理单层的连续型小样本数据。因此,交叉分累加方法的二层统计模型以及累加方法的三层统计模型是对累加方法38、的多层统计模型和灰色系统模型的发展。2)尝试建立合并连续型因变量与合并离散型因变量多层统计模型理论是对多层统计模型的发展。多层统计模型对一层与高层数据样本规模都有一定的要求。自助多层统计模型能解决一层有一定样本规模,高层数据样本规模较小的情形;而对所有一层数据都较少的情况,多层模型难以解决。建立系列合并连续型因变量与合并离散型因变量多层统计模型能解决所有一层数据都较少的情形,因此,建立系列合并方法的小样本多层统计模型理论是对多层统计模型的发展。3)将建立香蕉产业组织的计量理论。应用交叉分类累加方法与合并方法的多层统计模型研究中国香蕉产业组织的发展,将得到系统化的香蕉产业组织体系以及各要素间的数量评价,从而将建立香蕉产业组织的计量理论。5.年度研究计划及预期研究结果。(包括拟组织的重要学术交流活动、国际合作与交流计划等)(1)研究计划年度研究计划及预期研究结果见表1(2)学术交流活动参加国内外与多层统计和农业产业组织相关研究会议,召开本项目研究的研讨会。
地产商业
上传时间:2022-04-25
101份