本文统计了1999-2023年上市企业年报314个词频文本数据,参考吴非(2021)《管理世界》的文章,通过上市企业公布的年度报告中的相应关键词词频测度,作为企业数字化转型程度的代理指标,通过Python整理全部上市企业的年度报告,并提取所有文本内容,剔除关键词前否定词语的表述,同时也剔除非本公司的关键词。最后,基于Python对上市企业年报文本提取形成的数据池,根据特征词进行搜索、匹配和词频计数,进而分类归集关键技术方向的词频并形成最终加总词频,从而构建企业数字化转型的指标体系。
此内容根据文章生成,并经过人工审核,仅用于文章内容的解释与总结
一、数据介绍
数据名称 | N1173-上市企业数字化转型数据 |
---|---|
数据内容 | 上市企业年报314个词频文本统计1999-2023年 上市企业数字化转型程度测算(原始数据+代码+结果) |
时间跨度 | 2000-2023年【数据年份】 |
数据来源 | 请下滑查看详情页-非常详细 |

二、数据处理
引用说明
吴非;胡慧芷;林慧妍;任晓怡.企业数字化转型与资本市场表现一一来自股票流动性的经验证据[J].管理世界,2021,(07):130-144+10.
数据处理
参考吴非(2021)《管理世界》的文章,通过上市企业公布的年度报告中的相应关键词词频测度,作为企业数字化转型程度的代理指标,通过Python整理全部上市企业的年度报告,并提取所有文本内容,剔除关键词前否定词语的表述,同时也剔除非本公司的关键词。最后,基于Python对上市企业年报文本提取形成的数据池,根据特征词进行搜索、匹配和词频计数,进而分类归集关键技术方向的词频并形成最终加总
词频,从而构建企业数字化转型的指标体系。
具体过程如下:
-
定义关键词:根据企业年报中常见的与数字化转型相关的关键词,分类为人工智能技术、大数据技术、云计算技术、区块链技术和数字技术应用等五大类。
-
统计词频:使用Python等工具对企业年报进行文本挖掘,统计上述关键词在年报中的出现频率。统计出的词频数值越高,代表企业在年报中对数字化转型相关内容的重视程度越高。
-
计算综合指标:
人工智能技术:统计所有与人工智能相关的关键词出现的总频率。
大数据技术:统计所有与大数据相关的关键词出现的总频率。
云计算技术:统计所有与云计算相关的关键词出现的总频率。
区块链技术:统计所有与区块链相关的关键词出现的总频率。
数字技术应用:统计所有与数字技术应用相关的关键词出现的总频率。 -
生成综合指数:将以上各项技术的总频率相加,形成一个企业数字化转型的综合词频指数(DCG),并对其进行对数转换以便进一步分析。
- 数据处理:对词频数据进行缩尾处理,以减少极值对分析结果的影响。
- 匹配企业基本信息:将词频数据与企业的基本信息进行匹配,形成一个包含企业代码、年份和数字化转型程度等变量的综合数据集。
- 进一步分析:通过统计模型(如双重差分模型)分析企业数字化转型
三、内容预览










声明:本站提供的一切资料是供学习研究之用,如用于商业用途,请购买正版。数据来自各省、市、县统计局公开信息及网友共享资源,仅作学术交流使用,请勿用于商业用途。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)