(二)识别策略
本文的识别策略是利用变量的两个维度的变化识别系数,即利用企业级面板数据中企业外部集聚经济变量的年度间变化,以及这种变化在同一省份不同城市间的差异估计系数。回归中控制企业固定效应θi的主要原因是企业在专利生产方面可能存在效率差异。现有文献通常将这种企业间的效率差异模型划分为长期差异和短期变化。其中,长期差异指θi是不随时间而变化的。如果专利生产效率越高的企业越倾向于进行产业集聚,则该固定效应很可能与集聚经济变量相关。由于无法观测企业间研发效率差异的短期变化,我们使用销售利润率作为专利生产短期效率的一个代理变量。这样做是基于企业经营效率与研发效率正相关的假设。省份-年度固定效应δpt主要用于控制不同省份在不同年度受到的冲击。例如,有些省份在不同年度会采用鼓励企业进行专利申请的政策,这些政策已经被证实对专利的申请数量有显著影响[7]。如果这些政策既提高了企业申请专利的意愿(从而提高了专利生产的效率)也同时鼓励了企业在城市中落户,则遗漏这些变量将导致估计偏误。τjt控制了不同行业在不同年度受到的冲击。这类冲击的例子包括国家的产业政策、行业的技术进步等。
由于企业的选址决策很可能考虑了城市的特征,例如城市的地理位置,不同城市之间的差异就可能导致集聚的企业存在创新效率的差异。这意味着城市特征与企业创新效率相关。同时,城市特征也很可能与产业集聚水平相关,例如大城市的产业多样性往往比小城市高。因此,我们控制了城市固定效应φc(主要包括城市的地理特征、气候条件等不变因素)。此外,我们还控制了其他重要的城市特征。
(三)数据与变量
本研究中使用的企业级数据主要来自中国工业企业数据库与中国专利数据库的合并数据,行业级数据来自该合并数据在行业层面的汇总,城市级数据来自对应年份的《中国城市统计年鉴》。我们首先将中国工业企业数据库中1998—2007年的样本按照Brandt et al.[37]提出的方法进行整理,以配对不同年份的相同企业。He et al.[38]将中国工业企业数据库与中国专利数据库按照前者的企业名称与后者的申请人名称进行了配对,并公开了配对数据。该配对数据建立了1998—2007年逐年的工业企业名称与成功的专利申请信息之间的对应。本文使用这一配对数据,并利用整理过的工业企业数据进行合并。
在被合并入企业年度专利申请数据的中国工业企业数据库1998—2007年的面板数据中,本文参考已有文献的处理方式,删去了固定资产小于0、销售收入小于0,以及职工人数小于8的观测值。由于中国工业企业数据库仅在2001年、2005年、2006年以及2007年的样本中拥有企业研发支出数据,本文仅保留这四年的样本进行分析。同时,由于我们关注的是企业在专利生产过程中的集聚经济,本文仅保留研发支出大于0的观测值,即只对有进行研发活动的企业进行分析①。另外,由于本文使用的是面板固定效应模型,主要利用变量在年度间的变化进行系数估计,我们去掉样本期间仅出现过一次的企业样本。本文最终用于回归分析的样本包括2001年、2005年、2006年以及2007年共计约2.7万个观测值,这些观测值来自9 559家企业,位于265个地级市,且每个企业在样本中至少有两个不同年份的观测值。
在模型(1)中,我们感兴趣的解释变量是本地化集聚变量logFirmSIC2jct,以及城市化集聚变量logFirmOTHERjct和Diversityjct。参考Henderson[15]的研究,本文使用所在地级市的本行业企业数量(取对数)作为行业内集聚水平的度量指标。logFirmOTHERjct表示行业j以外的企业总数量的对数,但是在加总行业外企业数量时,我们将不同行业的企业数量分别乘以该行业与行业j之间的技术相似度,然后再加总,即:
其中,n是城市c中的行业数量,FirmSIC2ict表示行业i的企业数量,Techij表示行业i与行业j之间的技术相似度。根据Jaffe[30]对技术相似度的定义,我们将行业i的技术Ti定义为包括n个分量的向量,每个分量为该行业获得的某类专利占总专利数量的比例,行业i与行业j之间的技术相似度被定义为两个行业技术向量的夹角余弦值,即:
本文首先对所有行业在1998年至2007年间的专利按照专利类别进行汇总,得到每个行业的技术向量,然后按照公式(3)计算行业间的技术相似度,进而依照公式(2)计算行业外规模logFirmOTHERjct。本文参考Martin et al.[17]的研究计算行业多样性指标Diversityjct,具体公式为Diversityjct=ln(1/Hjct)。其中:
式中,employeeskct表示第t年城市c中行业k的全部就业人数,employeesct表示第t年城市c的总就业人数,n表示城市c中的行业总数。即我们先计算每个行业所面临的根据员工人数计算的赫芬达尔指数Hjct,之后再对其倒数取对数。因此,Diversityjct数值越大表示行业j面临的外部行业多样性水平越高。
模型(1)中的控制变量包括企业级、行业级以及城市级变量。这些变量的符号和含义具体见表1,描述性统计结果具体见表2。为了检验假设3,我们还需要企业人力资本水平的信息。本文用企业高技能工人(即大专及以上学历的员工)的比例作为企业人力资本水平HMCP的度量指标。由于中国工业企业数据库中仅2004年的样本包含该变量信息,我们便将该年度的人力资本水平作为企业在样本期间的平均人力资本水平。
表1 变量的符号及含义
变量符号
|
含义
|
企业级变量
|
|
logPatent
|
专利数量取对数,即ln(成功获得授权的年度专利申请数量+1)
|
logR&D
|
研发支出取对数,即ln(年度研发支出),研发支出调整至2001年价格水平,单位为千元
|
logSize
|
企业规模的对数,等于员工总数取对数,即ln(企业员工总数)
|
logAge
|
企业年龄取对数,ln(企业年龄+1)
|
logCapital
|
人均净固定资产取对数,即ln(人均净固定资产),调整至2001年价格水平,滞后一期,单位为千元
|
Profit
|
销售利润率,等于主营业务利润除以主营业务销售额,滞后一期
|
HMCP
|
样本期间企业平均人力资本水平,用2004年大专及以上学历员工的比例度量
|
Private
|
0-1虚拟变量,等于1表示民营企业
|
Foreign
|
0-1虚拟变量,等于1表示外资企业
|
行业级变量
|
|
logFirmSIC2
|
本行业企业数量取对数,即ln(企业所在的二位数行业企业数量)
|
logFirmOTHER
|
其他行业企业数量取对数,但考虑了不同行业的技术相似度,计算方式见正文
|
Diversity
|
企业所在行业面临的行业多样性,计算方式见正文
|
CMPT
|
行业的竞争程度,即-ln(以销售额计算的赫芬达尔指数)
|
logWageSIC2
|
本行业平均工资取对数,即ln(企业所在的二位数行业平均工资),调整至2001年价格水平,单位为千元
|
城市级变量
|
|
logGDPP
|
ln(城市人均GDP),调整至2001年价格水平,度量经济发达程度,单位为千元
|
FDI
|
当年实际使用外资(单位为亿美元)除以GDP(单位为亿元),度量开放程度
|
IndShare
|
工业总产值除以地级市GDP,度量工业化程度
|
logPop
|
ln(地级市人口数量),度量城市大小,单位为万人
|
Unemp
|
城镇登记失业率
|
College
|
地级市大专以上教师数量占地级市人口的比例
|
在企业级变量方面,除了控制研发支出对数logR&D、企业规模对数logSize,以及企业年龄对数logAge以外,本文还控制了人均净固定资产对数logCapital。企业的人均净固定资产越高意味着企业的沉没成本越高,因而当竞争对手利用专利进行竞争时,这类企业的潜在损失可能更大[34]。因此,人均净固定资产越高的企业越有激励进行专利的申请。此外,我们还控制了企业的销售利润率Profit,希望能够捕捉研发效率的短期变动②。本文参考Wei et al.[3]的研究,按照企业注册资本的来源将企业分为国有企业(SOE)、民营企业(Private)和外资企业(Foreign),并在回归中控制了企业的所有制类型。
在行业级变量方面,我们控制了行业的竞争程度CMPT以及企业所在行业的平均工资对数logWageSIC2。本文使用如下公式计算行业竞争程度:
其中,salesijct是第t年在城市c中企业i所在的行业j的销售收入,m是行业j中的企业数量,total_salesjct是第t年城市c中行业j的加总销售收入。即我们先算出以销售收入计算的赫芬达尔指数,然后对其倒数取对数。因此,行业竞争程度数值越大表示竞争程度越强。在企业的生产中,人力资本外部性得到了广泛的研究,但我们缺少样本期间的行业人力资本数据,因此,我们控制了行业平均工资对数logWageSIC2。
在城市级控制变量方面,本文回归中控制的城市特征主要包括:地级市经济发展水平logGDPP,使用城市人均GDP对数作为度量变量;地级市的开放程度FDI,使用外国直接投资占GDP的比重进行度量;工业化程度IndShare,使用工业总产值占GDP的比重进行度量;城市规模logPop,使用地级市人口总量的对数作为度量变量;失业率Unemp,采用城镇登记失业率进行度量;城市教育水平College,使用大学教师数量占地级市人口的比重进行度量。城市级控制变量数据来自《中国城市统计年鉴》的相应年份。
表2是本文回归分析所用变量的描述性统计结果。为了便于理解,除了行业多样性Diversity和行业竞争程度CMPT以外,其他变量均采用水平值进行描述。样本中企业规模Size和专利授权数量Patent均有着较大的样本间变化:企业平均拥有1139名员工,最小的企业仅拥有8名员工,而最大的企业拥有超过18万名员工;企业平均拥有6件专利,年度专利授权数最少为0件,而最大值超过6000件。企业2004年大专以上员工所占比例的平均值约为30%,最大值达到了100%。在所有制方面,民营企业样本比例最大,约为64%,外资企业样本约为26%,余下国有企业样本约为10%。
表2 样本描述性统计
变量
|
均值
|
标准差
|
最小值
|
最大值
|
观测数
|
企业级
|
|
|
|
|
|
Patent
|
6.059
|
66.515
|
0
|
6122
|
27003
|
R&D(千元)
|
7320.797
|
31175.31
|
1
|
397024
|
27003
|
Size
|
1139.3
|
3647.155
|
8
|
188151
|
27003
|
Age
|
15.926
|
15.916
|
0
|
100
|
27003
|
Capital(千元)
|
162.661
|
2520.559
|
0.026
|
304475
|
27003
|
Profit
|
0.056
|
0.151
|
-0.986
|
0.776
|
27003
|
HMCP
|
0.306
|
0.247
|
0
|
1
|
27003
|
Private
|
0.64
|
0.48
|
0
|
1
|
27003
|
Foreign
|
0.259
|
0.438
|
0
|
1
|
27003
|
行业级
|
|
|
|
|
|
FirmSIC2
|
277.735
|
342.843
|
1
|
1896
|
27003
|
FirmOTHER
|
844.203
|
985.056
|
2.564
|
5444.849
|
27003
|
Diversity
|
2.392
|
0.372
|
0.161
|
2.899
|
27003
|
CMPT
|
2.710
|
1.209
|
0
|
6.137
|
27003
|
WageSIC2(千元)
|
21.672
|
11.437
|
1.719
|
202.991
|
27003
|
城市级
|
|
|
|
|
|
GDPP(千元)
|
33.705
|
19.497
|
2.269
|
152.099
|
26989
|
FDI
|
0.006
|
0.004
|
0
|
0.058
|
26851
|
IndShare
|
1.477
|
0.536
|
0.156
|
3.386
|
27003
|
Pop(万人)
|
710.872
|
521.474
|
16.1
|
3235.32
|
26999
|
Unemp
|
5.481
|
2.895
|
0.302
|
44.682
|
26993
|
College
|
0.002
|
0.002
|
0
|
0.007
|
26870
|
注:由于工业总产值包括工业生产的中间投入,有相当比例的地级市其工业总产值高于GDP,因此,IndShare均值大于1。
四、估计结果及讨论
(一)基准结果
对方程(1)的估计结果见表3。在第(1)列和第(2)列,我们仅控制了企业级和行业级控制变量,并分别对本地化集聚变量logFirmSIC2,以及城市化集聚变量logFirmOTHER和Diversity的系数进行分开估计。在第(3)列,我们将本地化集聚变量和城市化集聚变量放在同一个方程中进行估计。第(4)列则在第(3)列的基础上,将城市特征变量加入方程进行估计。表3的估计结果显示,在几个不同的模型设定中,本地化集聚变量logFirmSIC2的系数都在0.06左右,符号为正,且在0.1水平上显著。两个城市化集聚变量logFirmOTHER和Diversity的系数都很小,且都在统计上不显著,其中,行业多样性Diversity的系数甚至为负。这验证了假设1的成立,即在专利的生产过程中,本地化经济效应比城市化经济效应更显著。
表3 基准回归结果
|
(1)
|
(2)
|
(3)
|
(4)
|
集聚变量
|
|
|
|
|
logFirmSIC2
|
0.0610*
|
|
0.0628*
|
0.0691*
|
|
(0.0336)
|
|
(0.0356)
|
(0.0362)
|
logFirmOTHER
|
|
0.0355
|
-0.0021
|
-0.0048
|
|
|
(0.0599)
|
(0.0627)
|
(0.0704)
|
Diversity
|
|
-0.0044
|
-0.0269
|
-0.0516
|
|
|
(0.0937)
|
(0.0957)
|
(0.0983)
|
企业级控制变量
|
|
|
|
|
logR&D
|
0.0332***
|
0.0332***
|
0.0332***
|
0.0334***
|
|
(0.0049)
|
(0.0049)
|
(0.0049)
|
(0.0050)
|
logSize
|
0.1847***
|
0.1856***
|
0.1845***
|
0.1840***
|
|
(0.0233)
|
(0.0234)
|
(0.0234)
|
(0.0235)
|
logAge
|
-0.0162
|
-0.0156
|
-0.0163
|
-0.0245
|
|
(0.0224)
|
(0.0225)
|
(0.0225)
|
(0.0229)
|
Profit
|
0.1307**
|
0.1305**
|
0.1306**
|
0.1237**
|
|
(0.0529)
|
(0.0529)
|
(0.0529)
|
(0.0530)
|
logCapital
|
0.0341***
|
0.0344***
|
0.0341***
|
0.0323***
|
|
(0.0117)
|
(0.0118)
|
(0.0118)
|
(0.0118)
|
Private
|
0.0776***
|
0.0778***
|
0.0778***
|
0.0654**
|
|
(0.0301)
|
(0.0301)
|
(0.0301)
|
(0.0306)
|
Foreign
|
0.1191**
|
0.1187**
|
0.1194**
|
0.1100**
|
|
(0.0480)
|
(0.0480)
|
(0.0480)
|
(0.0489)
|
Constant
|
-1.0240**
|
-0.9635
|
-0.9554
|
0.4404
|
|
(0.4715)
|
(0.5873)
|
(0.5847)
|
(0.9366)
|
样本量
|
27003
|
27003
|
27003
|
26731
|
Within R2
|
0.079
|
0.079
|
0.079
|
0.080
|
企业数量
|
9559
|
9559
|
9559
|
9521
|
行业级控制变量
|
Y
|
Y
|
Y
|
Y
|
城市级控制变量
|
N
|
N
|
N
|
Y
|
注:*、**、***分别表示在0.1、0.05、0.01水平上显著。括号中是标准差,在企业级别聚类。所有回归均控制了企业固定效应、城市固定效应、省份-年度固定效应、行业-年度固定效应。