第1章绪论
面向宏观经济风险的监测预警是审计工作的重点内容之一。宏观经济风险复杂性的增加,要求审计工作能够提前识别和评估各类风险,提早采取措施防范和化解风险。
大数据的发展对宏观经济风险的审计监测和分析技术都产生了影响,传统的方法难以满足审计工作在准确性、时效性、系统性等方面的要求。
首先,数据量、数据颗粒度、数据频率发生了极大改变。大数据技术能够收集包罗万象、实时更新的海量数据,数据量和数据更新频率都有提高,这为宏观经济分析提供了新的“弹药”。过去主要依靠统计学方法发挥数据的作用,然而数据量不够充足、数据更新不及时、样本数据存在偏差等问题难以解决。随着全球数字化、网络宽带化、互联网等应用于各行各业,数据来源和承载方式迅速扩大,数据量呈现爆发性增长的态势。数据存储单位从*初的MB到现在的GB、TB,甚至PB、EB级别,结构化数据和文字、图像、音视频等非结构化数据大量涌现。基于大数据的经济学实证研究大量涌现。例如,Bok等(2018)利用海量银行交易数据,对 GDP 增长做出早期估计。Baker(2015)通过约400万家庭的全面板财务信息,分析大衰退期间家庭资产负债表、收入和消费之间的相互作用,结果表明高负债群体的消费弹性显著高于其他群体。Askitas和Zimmermann(2013)利用重型载具每月的越境数据构建了新的经济周期预测指标—通行费指数(toll index)。实证证明,通行费指数是生产类指标[如GNP(gross national product,国民生产总值)]良好的先行指标。越来越多的经济学家意识到,随着数据的爆炸式增长,当前主流经济学所采用的模型驱动研究范式已难以满足经济学研究的需要,大数据环境下数据驱动的研究范式将革新未来的经济学研究。
其次,宏观经济指标的构建更加多源,经济指标建模维度更加丰富。传统的经济统计指标不再是唯一来源。在数据库技术、网络爬虫技术、索引器等大数据技术与工具的赋能下,基于互联网基础产生的搜索数据、社交媒体数据等各类数据都可以被收集,并用于经济指标的提取与预测。互联网已经从传统的信息传播媒介升华为虚拟的社会空间。越来越多有关人类经济、社会运行的数据被投射到云上。因此,在实时、交互、离散化、非结构化的海量数据中,蕴含着经济社会运行的各种先行指标信号。在国际上,Thorsrud(2016)通过分析挪威的报纸Dagens Naringsliv,预测了经济走势,更全面地捕捉了经济衰退信号。Jean等(2016)通过分析卫星夜晚灯光图像数据,发现夜晚灯光强度与经济发展之间有强相关性,能够在一定程度上预测经济收入水平。Blumenstock等(2015)利用个人手机历史数据,预测个体的社会经济地位,进而反映国家的资产分配与贫富差距状况。
*后,大数据技术和分析方法的出现赋能传统经济学研究,推动经济学研究方法创新变革。Hadoop、Nosql、Spark、Flink等大数据技术为海量数据存储和计算提供场景。机器学习、深度学习、统计学习等大数据分析方法与传统经济分析相结合,可以减少经济预测误差,提升经济预测精度。Psimopoulos(2020)使用机器学习与传统经济学方法对比,预测了经济衰退。通过比较预测性能发现,支持向量机(support vector machine,SVM)模型的预测效果要优于其他方法。陈梦根和任桃萍(2020)研究了消费价格指数(consumer price index,CPI)的预测模型,并采用传统的方法和机器学习方法进行预测和对比分析。结果表明,神经网络模型的预测效果明显优于传统的回归方法和时间序列预测方法。倪宙和芮凯(2019)通过机器学习集成模型对人民币汇率进行预测,发现机器学习集成模型较传统的时间序列模型和非线性模型具有更高的预测精度。大数据分析方法的应用提升了传统经济学研究的效能,为经济研究开拓了新的视野与思路。
新时代下,全球风云际会,经济全球化遭遇逆流,经济发展的不确定性明显增加。大数据以其丰富的信息价值,成为快速、准确监测预警宏观经济风险的重要保障。本书利用大数据技术优势,科学合理地构建了基于大数据技术的宏观经济指标体系,并针对指标体系开展探索性分析,旨在为宏观经济风险监测预警提供助力。本书在第2章介绍大数据环境下宏观经济指标体系的构建。第3章和第4章深入探讨研究两种宏观经济指标建模的一般性方法。第5章至第10章分别介绍增长类风险指标、稳定类风险指标与民生类风险指标的建模预测。
第2章宏观经济指标库的构建及应用
宏观经济指标库的建立对监测宏观经济运行状况,预判宏观经济运行中的各种风险有着重要的作用。本章首先介绍构建宏观经济指标库的数据来源;其次,对基于自然语言处理等技术对宏观指标提取的方法流程进行详细说明;再次,对宏观经济指标库中的宏观经济指标进行验证和结构分析;*后,通过应用实例,介绍宏观经济指标库的社会应用价值。
2.1 宏观经济指标库的数据来源
在宏观经济指标库构建前,需要评估选取合适的数据来源,确保宏观经济指标库内所包含的宏观经济指标的科学性与全面性。因此,在选取用于提取宏观经济指标的文本时,本书从政府维度、市场维度、民众生活维度以及规范化文本维度出发,搜集多维度的文本数据,旨在*大化宏观经济指标库的覆盖面。下面对构建宏观经济指标库所使用到的数据进行详细说明。
2.1.1 政府维度
本书收集了地方政府工作报告和中央工作会议数据。第一部分是地方政府工作报告,包含中国31个省区市2000~2020年的政府工作报告数据,数据中部分省份,如河南、贵州、福建、甘肃等早期的政府工作报告数据存在缺失,数据总量为603篇。第二部分是中央工作会议数据,包含:2019年1月至2019年5月的国务院常务会议内容;1994~2019年中央经济工作会议内容;1954~2019年全国人民代表大会会议内容;2013~2019年中共中央政治局会议内容。
2.1.2 市场维度
本书收集了2014年至2018年期间各金融机构研报,总计数量为846篇。
2.1.3 民众生活维度
本书收集了2015年12月24日至2019年7月13日期间,每日播报的《新闻联播》节目的文字稿内容,总计1269篇。
2.1.4 规范化文本维度
本书收集了具有规范化宏观经济指标格式的文本数据。其中,第一部分为国家统计局统计数据库中,月度数据库、季度数据库和年度数据库所包含的宏观经济指标数据;第二部分为根据某些经济指标,从中国知网中检索并下载的文献数据;第三部分为教科书数据,包含12本经济学教科书,具体书名如表2-1所示。
2.2 宏观经济指标库的构建流程
本节将对宏观经济指标库构建中的流程步骤进行详细说明。其中,第一部分对基于国家统计局的宏观经济指标提取流程进行说明;第二部分介绍基于金融机构研报、《新闻联播》文字稿和中央工作会议内容的宏观经济指标提取流程;第三部分对教科书及中文文献库提取宏观经济指标的方法进行介绍;第四部分对多数据来源提取的宏观经济指标的合并和分类标注过程进行说明介绍。宏观经济指标库的构建流程如图2-1所示。
2.2.1 基于国家统计局的宏观经济指标
本节通过jieba分词工具包对国家统计局数据库中的每个标准宏观经济指标进行分词处理,提取分词后的宏观经济指标的*后一个词袋,形成尾词数据集。而后,对尾词数据集中相同的尾词进行去重。同时,去掉数据集中不可量化的尾词,如“工程”“机构”等。
根据生成的尾词数据集,对国家统计局宏观经济指标做筛选,选出经过分词处理后,尾词部分在尾词数据集中的宏观经济指标。*终,形成基于国家统计局的宏观经济指标,其中包含7718个宏观经济指标。
2.2.2 基于文本数据加工的宏观经济指标
本节通过jieba分词工具包,分别对金融机构研报、《新闻联播》文字稿、中央政府工作会议内容进行分词处理,去除文本数据中多余的停用词,如“因此”“以及”“导致”等。将分词后的单词按照不同的取值进行滑动组合,将单词组合成不同的词组,形成词组集合。具体方法如图2-2所示。
本节通过对生成的词组数据集进行分析,发现词组数据集中存在两个问题。第一,词组数据集中存在较多和宏观经济指标无关的词组,如“相对缓慢”“压力导致”“已经逐步”等。第二,词组数据集中词组的频率呈现右偏分布,出现频率较低的词组大多不符合宏观经济指标的判定。
为解决以上问题,保证宏观经济指标提取的准确性,本节根据自然语言处理技术中的BoW模型(bag-of-words model,词袋模型)原理,通过Doc2Bow方法,对生成的词组创建索引,并计算每个词组在文本数据中的词频。选取5%作为高频词阈值,对所有词组的词频统计结果进行汇总,形成词频统计列表,保留词频排名前5%的词组。
展开