数据科学家实践指南,依据高科技公司中数据科学家的职位描述和要求,创作本书。
提供三大实战案例:
1.使用真实的电影评分数据创建一个电影推荐系统;
2.创建一个能实际运行的维基百科数据搜索引擎;
3.创建一个垃圾邮件分类器,可以对邮件账户中的垃圾邮件和正常邮件进行正确的分类。
本书涵盖准备分析数据、训练机器学习模型和可视化分析结果等主题,有助你提高使用Python高效地进行数据分析和机器学习的能力,并建立信心以更好地分析自己的机器学习模型。
●清理和准备数据,使其可用于分析
●应用Python中流行的聚类和回归方法
●使用决策树和随机森林训练高效的机器学习模型
●使用Python Matplotlib库对分析结果进行可视化
●使用Apache Spark的MLlib包在大型数据库上进行机器学习
展开