在数字经济加速发展背景下,企业数字化转型已成为解释企业创新、生产率提升、组织变革与资本市场反应的重要研究议题
团队基于最新上市公司年度报告文本信息,分别参考《管理世界》吴非(2021)、《财贸经济》赵宸宇(2021)、《经济研究》甄红线(2023)等文章的研究方法,对企业数字化转型相关关键词进行系统识别与词频统计,并进一步构建企业—年度层面的数字化转型词频面板数据
基于上市公司年报文本构建的数字化转型词频指标,能够从企业公开披露文本中识别其对数字技术、数字应用和数字化战略的关注程度,为开展企业层面的数字化转型研究提供可量化、可追踪、可复现的数据基础
该词频数据不仅能作为核心解释变量,也可进一步与财务数据、专利数据、招聘数据、政府补贴数据、供应链数据和地区数字经济指标等进行匹配,从而拓展企业数字化转型的成因、机制与经济后果研究。
一、数据介绍
数据名称:企业数字化转型|上市公司年报314个词频统计数据
数据范围:A股上市公司
数据年份:1998-2025年
样本数量:73949条,345个变量
数据来源:上市公司年度报告
数据说明:内含数字化转型314个词频、各维度水平、文本统计面板
更新时间:2026年5月
二、整理说明
➤获取1998-2025年上市公司年报
➤将原始报告文本整理为面板数据
➤统计年报全文的文本长度
➤统计全文中,中英文部分的文本长度
➤构建数字化术语词典,将词汇扩充到python的jieba库
➤去除停顿词,统计精确词汇数目
➤计算数字化转型词频和、各维度水平词频和
➤计算3种方式下的数字化转型水平
其中,参考的具体关键词如下:
数字化转型A:参考《管理世界》吴非(2021)的研究方法,从人工智能技术、大数据技术、云计算技术、区块链技术、数字技术运用五个维度76个数字化相关词频进行统计
数字化转型B:参考《财贸经济》赵宸宇(2021)的方法,从数字技术应用、互联网商业模式、智能制造、现代信息系统四个维度99个数字化相关词频进行统计
数字化转型C:参考《经济研究》甄红线(2023)的方法,从技术分类、组织赋能、数字化应用等类别下139个数字化相关词频进行统计
三、指标说明
类别、股票代码、公司简称、行业名称、行业代码、年报标题、年份、全文-文本总长度、仅中英文-文本总长度、数字化转型程度-A、数字化转型程度-B、数字化转型程度-C、人工智能技术-A、大数据技术-A、云计算技术-A、区块链技术-A、数字技术运用-A、数字技术应用-B、互联网商业模式-B、智能制造-B、现代信息系统-B、技术分类-人工智能技术-C、技术分类-区块链技术-C、技术分类-云计算技术-C、技术分类-大数据技术-C、组织赋能-人工智能技术-C、组织赋能-云计算技术-C、组织赋能-大数据技术-C、组织赋能-广义数字技术-C、数字化应用-技术创新-C、数字化应用-流程创新-C、数字化应用-业务创新-C、人工智能、商业智能、图像理解、投资决策辅助系统、智能数据分析、智能机器人、机器学习、深度学习、语义搜索、生物识别技术、人脸识别、语音识别、身份验证、自动驾驶、自然语言处理、大数据、数据挖掘、文本挖掘、数据可视化、异构数据、征信、增强现实、混合现实、虚拟现实、云计算、流计算、图计算、内存计算、多方安全计算、类脑计算、绿色计算、认知计算、融合架构、亿级并发、EB级存储、物联网、信息物理系统、区块链、数字货币、分布式计算、差分隐私技术、智能金融合约、移动互联网、工业互联网、移动互联、互联网医疗、电子商务、移动支付、第三方支付、NFC支付、智能能源、B2B、B2C、C2B、C2C、O2O、网联、智能穿戴、智慧农业、智能交通、智能医疗、智能客服、智能家居、智能投顾、智能文旅、智能环保、智能电网、智能营销、数字营销、无人零售、互联网金融、数字金融、Fintech、金融科技、量化金融、开放银行、数据管理、数据挖掘、数据网络、数据平台、数据中心、数据科学、数字控制、数字技术、数字通信、数字网络、数字智能、数字终端、数字营销、数字化、大数据、云计算、云IT、云生态、云服务、云平台、区块链、物联网、机器学习、移动互联网、工业互联网、产业互联网、互联网解决方案、互联网技术、互联网思维、互联网行动、互联网业务、互联网移动、互联网应用、互联网营销、互联网战略、互联网平台、互联网模式、互联网商业模式、互联网生态、电商、电子商务、Internet、互联网+、线上线下、线上到线下、线上和线下、O2O、B2B、C2C、B2C、C2B、人工智能、高端智能、工业智能、移动智能、智能控制、智能终端、智能移动、智能管理、智能工厂、智能物流、智能制造、智能仓储、智能技术、智能设备、智能生产、智能网联、智能系统、智能化、自动控制、自动监测、自动监控、自动检测、自动生产、数控、一体化、集成化、集成解决方案、集成控制、集成系统、工业云、未来工厂、智能故障诊断、生命周期管理、生产制造执行系统、虚拟化、虚拟制造、信息共享、信息管理、信息集成、信息软件、信息系统、信息网络、信息终端、信息中心、信息化、网络化、工业信息、工业通信、人工智能、商业智能、图像理解、投资决策辅助系统、智能数据分析、智能机器人、机器学习、深度学习、语义搜索、生物识别技术、人脸识别、语音识别、身份验证、自动驾驶、自然语言处理、监督学习、机器翻译、OCR 技术、计算机视觉、机器视觉、机器人、智能问答、专家系统、神经网络、学习算法、自动推理、无人驾驶、数字货币、智能合约、分布式计算、去中心化、比特币、联盟链、差分隐私技术、共识机制、内存计算、云计算、流计算、图计算、物联网、多方安全计算、类脑计算、绿色计算、认知计算、融合架构、亿级并发、EB级存储、信息物理系统、移动计算、云存储、边缘计算、云技术、大数据、数据挖掘、文本挖掘、数据可视化、异构数据、征信、增强现实、混合现实、虚拟现实、文本抓取、人工智能实验室、人工智能平台、人工智能设施、人工智能设备、人工智能基础设施、人工智能系统、智能终端、智能信息系统、云实验室、云平台、云系统、云设备、云设施、云终端、云社区、云技术系统、大数据实验室、大数据平台、大数据设施、大数据设备、大数据信息系统、大数据技术系统、数字实验室、数字平台、数字社区、数字专利、数字网络、数字设施、数字设备、数字基础设施、数字终端、数字信息系统、数字技术系统、3D打印设备、数字孪生、元宇宙、虚拟人、3D打印、5G技术、移动互联、移动互联网、工业互联网、数字技术、纳米计算、智能规划、智能优化、智能穿戴、智能制造、智能客服、智能营销、数字营销、无人零售、无人工厂、移动支付、第三方支付、NFC支付、人机交互、社交网络、智慧农业、智能交通、智能医疗、智能家居、智能投顾、智能文旅、智能环保、智能电网、智能能源、互联网医疗、互联网金融、数字金融、Fintech、金融科技、量化金融、开放银行、网联、互联网+
四、数据概览
1.1998-2025年企业数目
2.上市公司年报数字化转型词频数据
获取数据见:Paper数据分析
注:仅用于学术交流