数据科学致力于从海量数据中提取有价值且非显而易见的模式。本书对数据科学这一新兴领域进行了系统梳理,以简洁的笔触勾勒出其发展脉络、与机器学习的关联、当前应用场景、数据基础设施现状及面临的伦理挑战。
全书从数据科学的演进历程说起,解析了基础数据概念,并详细阐述数据科学生命周期的各个阶段,继而深入探讨数据基础设施的关键问题,以及多源数据整合过程中面临的技术挑战。同时,本书还对数据伦理与法律规范、数据监管机制演进趋势及隐私保护计算技术进行了专业解读。最后,通过前瞻性探讨数据科学的未来发展方向,总结了保障数据科学项目成功实施的关键原则。
如果人类专家自己就可以轻松地在脑海中构建出一个规则,那么便不值得花费时间和精力使用数据科学来“发掘”它。
每个成功的数据科学项目,都始于对项目所要解决问题的明确定义。
除非谨慎使用,否则数据科学可能会延续并加剧偏见。
展开