成为大数据企业——代序
刚刚拿到译稿的时候,我傻眼了。作者整本书都围绕着“Code Halo”这个概念——这是什么东东?硬着头皮往下读,套用译者序里面不太客气的一个评价,“换汤不换药”,原来就是指各种各样数据的集合,即数据场。当然,这个概念还不完全等同于大数据,它应该算作大数据在商业领域的一个垂直分支。读者捧起这本书,相比于泛泛言大数据的著作,应该能够看到更多、更细致的商业应用方面的案例和分析。
在本书中,作者想要表达的核心观点是“是否具备大数据的能力是一个企业生死攸关的事情”,作者想要回答的关键问题是“企业如何才能具备大数据能力”。考虑到本书丰富的案例和盛盛的金牌翻译,我觉得价值绝对超过了定价。但是,作者的思路和谋篇就像未经处理过的大数据一样,价值很大却结构混乱,所以,我在这里不妨帮助作者回答一下他希望回答的问题。
作者应该是很有情怀的,所以才会使用Halo 这个词——这个词让人想起了天使头上的光环。上帝创造这个世界用了六天时间,成为一家大数据的公司,也是一样的费力。
第一天:全面数据化。“数据化”浪潮是整个大数据时代的起点,它强调数据就是资产,记录一切可以记录的数据,一定会产生巨大的价值。显然,数据化是一个企业能够通过深入数据分析,实现自身优化的基础。我去长虹调研的时候,他们告诉我,长虹在自己的生产线上,通过大量传感器,记录生产环境的温度、湿度、粉尘度、振动强度、噪声强度等,通过这些量化指标与产品质量的关联分析,得到影响产品优品率和良品率的关键因素,再进一步通过控制环境因素,明显提高了产品的优品率。企业在日常的经营管理过程中,通过办公自动化系统(OA 系统),很多内部即时通信、邮件往来、工作分配、业务文件上传下载等日志数据都被记录下来了。这些数据就是宝贵的财富!我们给多家企业提供过相关的服务1,2,通过对这些数据的分析,能够更精确地预测员工的离职和升职,更精确地预测员工和部门的绩效水平,帮助企业员工通过基于关联用户和文本智能匹配快速找到对自己现有业务和客户有参考价值的案例和文件,等等。总的来说,全面数据化要求企业采集存储在企业生产经营中的一切数据,形成企业数据资产的概念。
第二天:建设数据管理平台。有的读者一听到数据管理平台,就认为是要花一大笔钱建设数据中心,把数据存起来。数据管理平台肯定要有数据中心的存储灾备功能,但是它的作用远不止于此。首先,数据管理平台要为企业量身定做一套数据组织和管理的解决方案,特别是企业各部门之间数据的共融共通,以及企业数据怎样进行索引和关联。在很多大企业中,各部门之间数据的格式、形态、ID 系统都不一致,部门之间无法交换数据,甚至大部分的数据表连主键和外键3都没有,数据之间不可能形成有效的组织。这些都是数据管理平台要做的事情。其次,数据管理平台是由业务所引导的,先进的流数据智能处理系统,要为业务提供直接的支撑。很多时候,数据管理平台怎么搭建,需要深度了解企业最重要的核心业务,以及使用各示范性的重要应用为牵引搭建数据管理平台。例如针对零售类的企业,就应该形成以消费者为中心的索引和画像系统,主要支持精准广告、智能客服等核心业务,其次才是以商品为中心的索引系统,主要支持物流和仓储优化等业务。最后,数据管理平台的建设要量体裁衣,强调鲁棒性和可扩展性,没有必要一开始就投入大量经费,因为硬件成本的下降也很快,不用想太多半年甚至一年以后的事情。
第三天:建立海量数据的深入分析能力。要想建立针对多元异构、跨域关联的海量数据,通过深度分析挖掘获取价值的能力,主要要培养两个方面的能力。第一是非结构化数据的分析处理能力,包括文本、音频、图像、视频、网络、轨迹等数据。受过传统商务智能和统计学训练的人,对于处理结构化数据非常在行,但是处理非结构化数据往往比较头痛——譬如分布函数抽样,网络怎么进行抽样4?所以,对于常见的,特别是和企业自身业务有密切关系的非结构化数据,一定要有一支队伍能够挖掘其价值,甚至将其转化为结构化数据。第二是大数据下的机器学习的能力。绝大部分我们可以想象到的应用问题,其本质都是分类或者预测问题,包括:个性化推荐、精准营销、员工绩效管理、银行信用卡征信、小微企业贷款、生产线控制、精准广告、网点选择……解决这些问题最有力的武器就是机器学习!特别是在大数据环境下,很多高阶的核函数慢得不行,大量的学习都必须采用线性学习器5;而且数据非常多,很多时候都是在强噪声环境下寻找弱信号,单一分类器往往效果一般,必须要做集成学习。举个例子,在Netflix 举办的百万美元电影个性化推荐大赛中,我们做过很优美的单模型6,但是比起最后获胜的集成学习模型7,至少从精度上来说是弱爆了!有的读者要问了,高性能存储计算难道不重要吗,不得有一些懂Hadoop、懂Spark 的技术高手吗,要不要在CPU 阵列里面加几块GPU 甚至可编程逻辑阵列呢?这个也重要,但是企业如果实力足够,可以采用成熟的解决方案,国际顶尖的大数据服务商,例如IBM、HP、Intel 都有不错的方案。但是我说的一二两点,是给企业培养人才和能力,而且至今也没有特别好的成熟的解决方案,所以更重要。最后,企业怎么建立这样的能力呢? 首要的办法是能够招聘到一流的大数据人才——多花点钱和股票。第二选择就是以显示度项目为牵引,通过与外部合作,培养自己的数据分析团队,既解决问题,又学习能力。企业做这样的合作,不要老想着一次性把所有东西都外包出去,要探索新方式,看看能不能成立联合小组共同进行研发,多投入一些人去学习。有一些供应商,特别是在某些方面有专长,但是还不属于国际一流的供应商,在发展过程中是能够接受企业这种要求的。
第四天:建设外部数据的战略储备。企业走到这一步,就有点现代大数据企业的理念了,因为它不再仅仅局限于自己业务的数据了,开始看外面的世界了——很多大数据的重大创新,都来源于把数据放在产生数据的业务体系之外去应用8,9。举个例子,一个服装企业要解决设计生产的规划问题,仅仅看自己的销售记录还不够,要不要看看淘宝、天猫、京东上服装的整体销售,了解什么款式、什么颜色、什么价位的服装在哪个地区最受欢迎呢?这就需要外部数据了!事实上,外部数据对于市场拓展、趋势分析、竞品分析、人才招聘、用户画像、产品推荐等意义重大,而网站、论坛、社交媒体、电商平台上聚集了很多有重要价值的公开数据,这些数据中的大部分可以通过分布式深网爬虫技术直接高效采集。所以,企业要有意识地开始建立自己的外部数据战略储备,不要“数到用时方恨少”。一方面,企业可以自建具备采集、清洗、存储、索引等功能的自动化系统,自动积累外部数据;另一方面,企业可以通过和数据供应商合作,得到一些亟需的数据。要做好前者,还需要验证码的高效识别能力,就是第三天我们要建立的能力一。而如果第一天、第四天的内外部数据都有了,在第二天的平台下进行管理,用第三天的能力去挖掘分析,那这家企业就不得了了——用本书的语言说,就可以拥抱数据场了。
第五天:建立数据的外部创新能力。企业很容易局限在自己的业务中不能自拔。所以,让企业理解外面的数据能够帮助解决自己业务遇到的问题比较容易,因为企业主和员工每天都在想怎么解决这些问题,反过来,让他们去思考自己业务的数据能不能在其他地方产生重大价值,帮到其他企业,他们就没有那么敏感了。其实,这些创新性的想法往往能够带来新的巨大价值。譬如,Google 利用自身搜索业务产生的数据,进行电价和传染病流行情况的预测10,取得了巨大成功。事实上,企业通过智能终端、传感网络、物流记录、网点记录、电子商务平台等获得的第一手数据,很多都可以用于支持在跨领域交叉销售、环境保护、健康管理、智慧城市、精准广告、房地产预测等方面的创新型应用。把握住这些机会,就能够放大企业当前业务的价值,带来持久可观的收益。
第六天:推动自身数据的开放与共享。伟大的企业懂得如何把最聪明的人集合起来,为自己服务。企业有了大量数据和一定的分析能力后,不能固步自封,而要充分借助社会的力量,尽最大可能发挥数据潜藏的价值。Netflix 曾经公开了包含50 多万用户和17770 部电影的在线评分数据,并悬赏100 万美元奖励能够将Netflix 现有评分预测准确度提高10%的团队11。现在的Netflix 已经不再是一家电影在线租赁公司,而是国际一流的大数据企业了。除了法律上因为安全和隐私不能开放共享的数据,相当一部分都能够以各种方式开放出来——这种开放会带来更大价值!国际化的如Kaggle(英文,www.kaggle.com),国内的如DataCastle(中文,www.pkbigdata.com),都是很有影响力的大数据创新竞赛平台。举个例子,电子科技大学大数据研究中心曾经在DataCastle 上举办过学生成绩预测的比赛,总奖金才50000 元,却吸引了735 支队伍近2000 名参赛者参加比赛,其中近200 只队伍来自于985/211 知名高校。这里面最佳解决方案的思路和方法已经被应用于教育大数据定量化管理的产品模块中。还有一种最近新出的比赛方式,就是企业给出数据集的描述和样本数据,参赛选手设计创新型商业应用。企业通过这些数据开放计划,可以学习最先进的算法和最具创新性的数据应用思路,实现自身数据的价值最大化。
书长序短,目的都是一个,希望读者能够从中领悟到企业的大数据之路!如果说有那么几家企业,受到这本书的启发,在商业模式、产品、业务方面产生了可观的价值,那么作者、译者甚至我这个作序的人,都会感到无比欣慰!以为序!
周涛
电子科技大学教授,互联网科学中心主任
译者序
一路跌跌撞撞,本书的翻译工作总算落下帷幕。作为译者,我们想竭尽所能呈现一部最好的作品,保留原作的精华和神韵,不过在翻译的过程中,因为书中提出的概念新颖而独到,所以遇到一些麻烦,庆幸的是,我们得到了很多行业内专业人士的指导和帮助,在此我们要对他们深表谢意。
还记得第一次拿到本书看到Code Halo 这个概念的时候,作为每天都在关注数据相关的书籍以及创业公司的译者,心里想什么是Code Halo,不过就是一个数据的集合,换汤不换药换个名字而已,追根究底,不还就是现在被大家炒得火热的大数据,最多就是物联网或者我们今天所说的德国工业4.0 的另一种说法。不过随着阅读的深入,我们发现虽然说Code Halo 是大数据或者德国工业4.0 的另一种说法不见得是错的,但是基于Code Halo(数据场)实现的技术变革对商业领域的影响和启示作用却更深刻、更久远。因此这本书值得每一个想在商业领域大展拳脚或者占据制胜高地的人仔细阅读。
这是一个日新月异的互联网时代,数据的爆发式增长为个人、企业、行业乃至整个人类社会的发展都带来了巨大的机遇。数据场就是围绕在人们、设备、企业和行业周围的数据,通过破译这些数据所提供的信息和洞见,我们能够创造出新的商业模型,能够抓住基于数据场实现的技术变革所带来的巨大机遇。如此一来,当企业走到必须做出抉择的十字路口时,就能够做出正确的选择,走上一条繁荣之路,否则企业可能会在一条错误的道路上走到穷途末路。书中举了很多例子,为我们说明了许多曾经名不见经传的小企业是如何通过运用数据场走上成功的道路直至成为今日的全球巨头的。同时,书中还列举了很多反面的例子,诸如诺基亚这样的巨头企业是如何因为忽视了数据场的力量,而在与数据场带来的机遇失之交臂的过程中走向没落的。因此,将本书定义为一本数据时代商业领袖不可错过的成功指南一点都不为过。
虽然由于时间的关系,在本书的翻译工作中,我们并没有做到自己所想象的100%,但是我们还是把本书呈现在了大家的面前,是因为本书能够帮助我们意识到数据场带来的巨大机遇,并帮助我们抓住这次机遇——而这正是本书翻译工作的初衷。译文中错误和疏漏之处在所难免,真诚欢迎广大读者批评指正,帮助我们成长和提高。
展开
这是一本关于未来商业的书。
作者提出了Code Halo(数据场)的概念,并以数据场的视角重新解构了几家我们熟知的企业的兴衰,解码了这些企业在数据场上的布局对他们商业成败的重大影响,进而提出未来成功的商业组织形式将围绕数据场展开,并探索了数据场的方案和实施路径。
近年来,随着互联网和大数据的发展,中国乃至全球的商业生态发生了重大的变化,曾经辉煌的创一代陷入了集体迷茫和焦虑中,隐隐感知到变化,却又不知道未来之路在哪里。他们以往赖以成功的商业模式逐渐失效,看着一天一天下滑的业绩,心急如焚,但又回天无力。
商业生态的改变,必然带来商业格局的改变,犹如白垩纪恐龙的灭绝和新物种的兴起,商业也遵循适者生存的天条。中国老一代和新一代企业家们都面临着商业形态泛互联网化和数据驱动业务的深层转变,如何在这个数据大潮中生存、发展、强大,是他们共同关注的命题。
这本书难能可贵之处在于横跨技术与商业,将技术和商业自然地融合,以数据场的视角讲述一个个鲜活的商业故事,将读者带入商业情景,共同思考数据的作用、数据分析的价值和数据如何驱动业务,给读者带来了一个宽广的视野和多维度的思考,也给我们的企业家们提供了思索未来之路的重要启发,值得所有关注未来的人品读。
邹东生
中国商业联合会数据分析专业委员会,会长