《新时代背景下大数据与会计专业人才培养及教学改革》:
(二)数据的归类整理
权威的数据公司从数据分类的角度将数据分为以下4种。
1.按照是否可以再生的标准来看,可以分为不可再生数据和可再生数据
不可再生数据通常就是最原始的数据,比如用户在访问网站时,浏览记录会追踪用户的行为,如果当时没有被记录下来,就没有其他数据来还原用户的行为了。这个有点像拿着相机拍闪电,抓拍很重要,一旦错过,闪电就不可能再重复刚才那一瞬间的光影了。因此,对于用户日志类等不可再生数据而言,必须有很完善的保护措施和严格的权限设置。现在,很多系统都有备份多份数据的功能,理想情况应该是,因为磁盘损坏而造成数据丢失的案例越来越少。但是,因为系统升级失败和误操作等造成的数据丢失在各家公司都屡见不鲜、见怪不怪了。
可再生数据就是通过其他数据可以生成的数据,原则上,指标类数据的衍生数据都是可再生的——只要原始的不可再生数据还在,就可以通过重新运算来获得。不过千万不能因为“可再生”这个词语的存在,就对可再生数据不重视。有些可再生数据是通过很长时间的积累不断加工而成的,是长时间从海量数据中计算出来的,比如对某个用户在数个月内的连续购买行为产生的规律,如果未做保护,虽然仍然可再生,但是再生的时间会给企业带来问题。因为即便对于有顶尖计算能力的公司来讲,都可能是数日,甚至是数周、数月,而这个时间过程可能会对公司的某一项核心业务造成毁灭性的打击。
对于不可再生数据而言,已有的数据要严格保护,想要但是还没有的数据就要及早收集。举个例子,很多电子商务网站是不关注客户在商品详情页面有没有做滚屏操作的。如果这一类型的数据没有被记录下来,企业就无从知道详情页的有效性。当商品页面进行改版,需要对此类数据进行参考时,就没有办法来获得相应的数据支持,最后能做的就只能是等待在页面上进行布点开发,等待数据收集到之后再进行决策,这就造成了决策的延误。
对于可再生数据而言,要及早做好业务的预判和数据处理的规划,这样一来,数据在需要的时候就能够快速地获得应用,人们把这一数据称为数据中间层。
2.按照数据所处的存储层次来看,可以分为基础层、中间层和应用层;从数据的存储角度来说,数据有很多层次
基础层通常与原始数据基本一致,也就是仅仅存储最基本的数据,不做汇总,以尽量避免失真,从而用作其他数据研究的基础;中间层是基于基础层加工而成的数据,通常也被认为是数据仓库层,这些数据会根据不同的业务需求,按照不同的主体来进行存放;应用层则是针对具体数据问题的应用,比如作为解决具体问题的数据分析和数据挖掘的应用层的数据。
在存储层这个层面上,最大的问题就是数据的冗余和管理的混乱。尤其是对于一些拥有海量数据的大公司而言,数据的冗余问题尤为严重,由此造成了大量的浪费。
在大公司中,进行数据分析、开发、挖掘的人可能有数十甚至数百人,这些人可能归属于不同的业务团队,为了满足不同的业务各自分析数据应用。这样一来,不同的人可能都从头开始建立起了一套包含基础层、中间层和应用层的数据,而彼此之间又没有合适的交流方式,也就造成了工作的浪费。那是不是应该把所有的数据进行更好的归纳或者管理呢?任何管理方法,无论是集中式管理,还是分散式管理,都各有利弊,而且人和业务多了之后,企业也很难进行集中式管理。专家给出的建议是,基础层必须统一,因为这是最基本的数据,而且基本数据是原始数据。除了备份的需求外,没有必要在各个场合保留多份数据。只要保证这个数据有良好的原数据管理方式,就能极大地降低成本。而对于中间层和应用层而言,则要视具体情况而定:如果公司的业务相对单一但成本压力比较大,则建议集中式管理;如果公司的业务量非常大,则可以由多个数据团队来进行分散式管理和应用,以保证基础层单位有最高的灵活性。
3.按照数据业务归属来看,可以分为各个数据主体
按照业务归属分类的意思就是,将数据按照不同的业务主体分门别类地进行归纳。就好像仓库一样,将不同的物料进行分类存放,以提高其使用和管理的效率。按照业务归属分类的数据在不同公司可能体现出不同的内容,在平台型电商可以分为交易类数据、会员类数据、日志类数据等。交易类数据是指平台型电商的订单流水,其中包含了买家、卖家在什么时间成交了什么商品;会员类数据记录了买家、卖家的身份信息,比如注册时间、身份证号码、信用等级等信息;日志类数据则更多的是指用户的行为,即哪个用户在什么时间段访问了平台的什么页面、点击了什么按钮等。对于数据的分类则主要根据业务特点进行归类,并没有一个特别的硬性规定。总体的原则就是让数据的存储空间更少,分析及挖掘的过程更简单、快捷。
……
展开