信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

本书是数据工程师的实战宝典！从实体消解基础概念切入，系统拆解数据标准化、文本模糊匹配（Levenshtein距离、Metaphone算法）、概率模型（Fellegi-Sunter模型、贝叶斯因子）、聚类分块等核心技术，更独家涵盖Splink框架、谷歌云Dataproc集群部署、企业知识图谱API等前沿工具。作者以真实金融反欺诈案例贯穿全书，手把手教学Python代码实现，并前瞻隐私集合求交（PSI）等合规技术。经Splink工具作者Robin Linacre力荐，既是新手入门教材，也是资深从业者的技术进阶手册。

展开

精彩书评

展开

精彩书摘

展开

前言
第1章实体消解入门
1.1 什么是实体消解
1.2 实体消解的作用
1.3 实体消解的主要挑战
1.3.1 姓名缺少唯一性
1.3.2 命名约定不一致
1.3.3 数据获取不一致
1.3.4 示例
1.3.5 故意模糊处理
1.3.6 匹配组合
1.3.7 盲目匹配
1.4 实体消解过程
1.4.1 数据标准化
1.4.2 记录分块
1.4.3 属性比较
1.4.4 匹配分类
1.4.5 聚类
1.4.6 规范化
1.4.7 示例
1.5 评估结果
1.6 正式开始
第2章数据标准化
2.1 案例
2.2 设置环境
2.3 获取数据
2.3.1 维基百科数据
2.3.2 TheyWorkForYou数据
2.4 清洗数据
2.4.1 清洗维基百科数据
2.4.2 清洗TheyWorkForYou数据
2.5 比较属性
2.6 选区
2.7 评估结果
2.8 计算样本
2.9 总结
第3章文本匹配
3.1 编辑距离匹配
3.1.1 Levenshtein距离
3.1.2 Jaro相似度
3.1.3 Jaro-Winkler相似度
3.2 语音匹配
3.2.1 Metaphone算法
3.2.2 MRA算法
3.3 技术比较
3.4 案例
3.5 全面相似度比较
3.6 评估结果
3.7 总结
第4章概率匹配
4.1 案例
4.2 单一属性匹配概率
4.2.1 名字匹配概率
4.2.2 姓氏匹配概率
4.3 多属性匹配概率
4.4 概率模型
4.4.1 贝叶斯定理
4.4.2 m值
4.4.3 u值
4.4.4 λ值
4.4.5 贝叶斯因子
4.4.6 Fellegi-Sunter模型
4.4.7 匹配权重
4.5 期望最大化算法
4.5.1 第一次迭代
4.5.2 第二次迭代
4.5.3 第三次迭代
4.6 Splink入门
4.6.1 配置Splink
4.6.2 Splink匹配结果
4.7 总结
第5章记录分块
5.1 案例
5.2 获取数据
5.2.1 维基百科数据
5.2.2 英国公司注册署数据
5.3 数据标准化
5.3.1 维基百科数据
5.3.2 英国公司注册署数据
5.4 记录分块与属性比较
5.4.1 使用Splink进行记录分块
5.4.2 比较属性
5.5 匹配分类
5.6 评估结果
5.7 总结
第6章匹配公司
6.1 案例
6.2 获取数据
6.3 数据标准化
6.3.1 英国公司注册署数据
6.3.2 英国海事及海岸警卫署数据
6.4 记录分块与属性比较
6.5 匹配分类
6.6 评估结果
6.7 匹配新实体
6.8 总结
第7章聚类
7.1 简单精确匹配聚类
7.2 近似匹配聚类
7.3 案例
7.3.1 获取数据
7.3.2 数据标准化
7.4 记录分块与属性比较
7.4.1 数据分析
7.4.2 期望最大化分块规则
7.5 匹配分类与聚类
7.6 簇可视化
7.7 聚类分析
7.8 总结
第8章使用谷歌云平台进行扩展
8.1 谷歌云设置
8.2 创建Dataproc集群
8.3 配置Dataproc集群
8.4 使用Spark进行实体消解
8.5 评估结果
8.6 整理工作
8.7 总结
第9章实体消解云服务
9.1 BigQuery简介
9.2 企业知识图谱 API
9.2.1 模式映射
9.2.2 消解作业
9.2.3 处理结果
9.2.4 实体消解Python客户端
9.3 评估结果
9.4 总结
第10章利用记录关联技术保护隐私
10.1 隐私集合求交简介
10.2 PSI原理
10.3 基于ECDH的PSI协议
10.3.1 布隆过滤器
10.3.2 格伦布编码集
10.4 案例：使用PSI
10.4.1 设置环境
10.4.2 服务器代码
10.4.3 客户端代码
10.4.4 完整的MCA和公司注册署样本示例
10.5 总结
第11章进一步探讨
11.1 数据问题探讨
11.1.1 非结构化数据问题
11.1.2 数据质量问题
11.1.3 时效性问题
11.2 属性比较
11.2.1 集合匹配
11.2.2 地理编码位置匹配
11.2.3 汇总比较
11.3 后处理
11.4 图形表示
11.5 实时性问题
11.6 评估结果
11.6.1 成对方法
11.6.2 基于簇的方法
11.7 实体消解的未来

展开