搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
样本数据处理/数据科学与大数据系列
0.00     定价 ¥ 69.80
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购25本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787121435737
  • 作      者:
    编者:许桂秋//朱婷婷//李春平|责编:孟宇
  • 出 版 社 :
    电子工业出版社
  • 出版日期:
    2022-06-01
收藏
畅销推荐
内容介绍
本书从实用的角度出发,采用理论与实践相结合的方式,介绍样本数据处理的基础知识,力求培养读者使用Python语言及Kettle软件进行数据处理的能力。全书内容分别为数据预处理概述、Kettle工具的初步使用、数据的导入与导出、数据清洗、数据标注、Kettle作业设计、基于Kettle构建数据仓库、基于Python的数据导入与导出、基于Python的数据整理。 本书作为人工智能学科相关的样本数据处理技术的入门教材,目的不是覆盖样本数据处理技术的所有知识点,而是介绍样本数据处理的主要应用,使读者了解样本数据处理的基本构成,以及如何应对不同数据类型的数据预处理工作。为了增强实践效果,书中引入了多个基础技术案例及综合实践案例,以帮助读者了解样本数据处理涉及的基本技术的知识和技能。 本书可作为高等院校数据科学与大数据技术、计算机、信息管理等相关专业课程的教材,也可供对样本数据处理技术感兴趣的读者阅读。
展开
目录
第1章 数据预处理概述
1.1 数据预处理的背景与目的
1.1.1 数据预处理的背景:数据质量
1.1.2 数据预处理的目的
1.2 数据预处理的流程
1.2.1 数据清洗
1.2.2 数据集成
1.2.3 数据变换
1.2.4 数据归约
1.2.5 数据预处理的注意事项
1.3 数据预处理的工具
本章习题
第2章 Kettle工具的初步使用
2.1 Kettle的安装
2.1.1 Java的安装
2.1.2 Kettle的下载安装与Spoon的启动
2.2 Kettle的使用
2.2.1 转换的基本概念
2.2.2 第一个转换案例
本章习题
第3章 数据的导入与导出
3.1 基于文件的数据导入与导出
3.1.1 文本文件的导入与导出
3.1.2 文本文件的导入与导出案例
3.1.3 Excel文件的导入与导出
3.1.4 Excel文件的导入与导出案例
3.1.5 XML文件的导入与导出
3.1.6 XML文件的导入与导出案例
3.1.7 JSON文件的导入与导出
3.1.8 JSON文件的导入与导出案例
3.2 基于数据库的数据导入与导出
3.2.1 关系数据库的数据导入与导出
3.2.2 MySQL数据库的数据导入与导出案例
3.3 基于Web的数据导入与导出
3.3.1 HTML数据的导入与导出
3.3.2 HTML数据的导入与导出案例
3.3.3 基于HTTPGET请求的导入与导出
3.3.4 基于HTTPGET请求的导入与导出案例
3.4 基于CDC变更数据的导入与导出
3.4.1 基于源数据的CDC
3.4.2 基于源数据的CDC案例
3.4.3 基于触发器的CDC
3.4.4 基于触发器的CDC案例
3.4.5 基于快照的CDC
3.4.6 基于快照的CDC案例
3.4.7 基于日志的CDC
3.4.8 基于日志的CDC案例
本章习题
第4章 数据清洗
4.1 数据清洗概述
4.1.1 Kettle常用的数据清洗步骤
4.1.2 字符串清理
4.1.3 字段清理
4.1.4 使用参照表清理数据
4.1.5 数据校验
4.2 数据排重
4.2.1 如何识别重复数据
4.2.2 去除完全重复数据
4.2.3 去除不完全重复数据
4.3 使用脚本组件进行数据清洗
4.3.1 使用JavaScript代码组件清理数据
4.3.2 使用正则表达式组件清理数据
4.3.3 使用其他脚本组件清理数据
本章习题
第5章 数据标注
5.1 数据标注简介
5.1.1 数据标注是什么
5.1.2 数据标注分类简介
5.1.3 数据标注流程简介
5.2 数据标注分类
5.2.1 图像标注
5.2.2 文本标注
5.2.3 语音标注
5.3 数据标注质量检验
5.3.1 数据标注质量的影响
5.3.2 数据标注的质量标准
5.3.3 数据标注质量检验方法
5.4 图像数据标注实战
5.4.1 车辆车牌标注
5.4.2 遥感影像标注
5.4.3 医疗影像标注
5.4.4 行人数据标注
5.4.5 基于行人标注数据集的行人检测
5.5 文本标注实战
本章习题
第6章 Kettle作业设计
6.1 作业的概念及组成
6.1.1 作业项
6.1.2 跳
6.1.3 注释
6.2 作业的执行方式
6.2.1 回溯
6.2.2 多路径和回溯
6.2.3 并行执行
6.3 作业的创建及常用作业项
6.3.1 创建作业
6.3.2 “START”作业项
6.3.3 “作业”作业项
6.3.4 “转换”作业项
6.4 变量
6.4.1 定义变量
6.4.2 使用变量
6.5 监控
6.5.1 日志
6.5.2 邮件通知
6.6 命令行启动
6.7 作业实验
本章习题
第7章 基于Kettle构建数据仓库
7.1 数据仓库的介绍
7.1.1 数据仓库的起因
7.1.2 数据仓库的发展
7.1.3 数据仓库的定义
7.1.4 数据仓库的特点
7.1.5 数据仓库的结构
7.1.6 数据仓库建模
7.1.7 数据仓库与ETL的关系
7.2 构建维度表
7.2.1 管理各种键
7.2.2 维度表的加载
7.2.3 缓慢变化维度
7.3 构建事实表
7.3.1 批量加载
7.3.2 查找维度
7.3.3 事实表的处理
本章习题
第8章 基于Python的数据导入与导出
8.1 Pandas
8.1.1 Series
8.1.2 DataFrame
8.2 文本文件的导入与导出
8.2.1 导入CSV文件
8.2.2 导出CSV文件
8.2.3 JSON格式数据的导入与导出
8.3 Excel文件的导入与导出
8.4 数据库的导入与导出
8.4.1 关系数据库的导入与导出
8.4.2 非关系数据库的导入与导出
本章习题
第9章 基于Python的数据整理
9.1 合并多个数据集
9.1.1 使用键进行DataFrame合并
9.1.2 使用index进行DataFrame合并
9.1.3 沿着横轴或纵轴串接
9.2 数据重塑
9.2.1 多级索引数据的重塑
9.2.2 应用pivot方法重塑数据
9.3 数据转换
9.3.1 移除重复数据
9.3.2 利用函数或映射进行数据转换
9.3.3 值转换
9
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证