作者携手数据领域的强大智囊团为读者贡献的一本处理噪音数据的指南。
本书囊括众多真实世界的应用案例以及高水平的方法和策略。
本书汇集国外数据社区的技术骨干和活跃分子的集体智慧,多位数据领域的专家共同揭示了如何处理棘手的数据问题的奥秘。
噪音数据就是那些"给你惹麻烦的数据",从蹩脚的存储到糟糕的说明,再到令人误解的策略,有多重情况可能导致噪音数据。
那么什么才是决定性因素呢?有人认为是技术方面的问题,比如缺失值或格式不对的记录,但是噪音数据包含更多的问题。
本书介绍了多种有效的方式来应对噪音数据。在本书中,多位数据领域的专家共同揭示了如何处理棘手的数据问题的奥秘。
通过阅读本书,你将学会:
测试你的数据,判断它是否适合分析;
将电子表格数据转变成可用的格式;
处理潜藏在文本数据里的编码问题;
进行一种成功的网络搜集尝试;
利用自然语言处理(NLP, Natural Language Processing)工具揭露线上评论的真实情感;
处理可以影响分析工作的云计算问题;
避免那些制造数据分析障碍的策略;
采用一种系统的数据质量分析方法。
随着数据科学的热门,数据的优化、整理以及如何处理不良数据成为人们关注的重点。本书通过处理不良数据,进行数据清理的案例,向读者展示了处理数据的方法。
本书共有19章,从6部分向读者展示了使用和清理不良数据背后的理论和实践。第1部分是Grubby的动手实践指南,它向读者介绍了驾驭、提取数据的方法,如何处理文本数据中的数据以及Web开发中碰到的数据问题。第2部分是让人充满意外的数据,它向读者介绍了数据也会“撒谎”。第3部分是方法,它向读者介绍了处理不良数据的一些方法。第4部分是数据存储和基础设施,它向读者介绍了如何存储数据。第5部分是数据的商业化,它向读者介绍了如何避免数据处理的一些误差。第6部分是数据策略,它向读者介绍了如何追踪数据、评估数据质量以及构建数据质量相关平台等。
本书适合数据科学家、数据处理和整理相关开发人员阅读。也适合想要进入数据处理领域的读者阅读。