搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
实体消解指南(使用Python进行数据匹配)
0.00     定价 ¥ 69.00
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购15本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787111783299
  • 作      者:
    作者:(英)迈克尔·希勒|责编:王春华//支彬茹|译者:林润
  • 出 版 社 :
    机械工业出版社
  • 出版日期:
    2025-06-01
收藏
畅销推荐
内容介绍
本书是数据工程师的实战宝典!从实体消解基础概念切入,系统拆解数据标准化、文本模糊匹配(Levenshtein距离、Metaphone算法)、概率模型(Fellegi-Sunter模型、贝叶斯因子)、聚类分块等核心技术,更独家涵盖Splink框架、谷歌云Dataproc集群部署、企业知识图谱API等前沿工具。作者以真实金融反欺诈案例贯穿全书,手把手教学Python代码实现,并前瞻隐私集合求交(PSI)等合规技术。经Splink工具作者Robin Linacre力荐,既是新手入门教材,也是资深从业者的技术进阶手册。
展开
目录
前言
第1章 实体消解入门
1.1 什么是实体消解
1.2 实体消解的作用
1.3 实体消解的主要挑战
1.3.1 姓名缺少唯一性
1.3.2 命名约定不一致
1.3.3 数据获取不一致
1.3.4 示例
1.3.5 故意模糊处理
1.3.6 匹配组合
1.3.7 盲目匹配
1.4 实体消解过程
1.4.1 数据标准化
1.4.2 记录分块
1.4.3 属性比较
1.4.4 匹配分类
1.4.5 聚类
1.4.6 规范化
1.4.7 示例
1.5 评估结果
1.6 正式开始
第2章 数据标准化
2.1 案例
2.2 设置环境
2.3 获取数据
2.3.1 维基百科数据
2.3.2 TheyWorkForYou数据
2.4 清洗数据
2.4.1 清洗维基百科数据
2.4.2 清洗TheyWorkForYou数据
2.5 比较属性
2.6 选区
2.7 评估结果
2.8 计算样本
2.9 总结
第3章 文本匹配
3.1 编辑距离匹配
3.1.1 Levenshtein距离
3.1.2 Jaro相似度
3.1.3 Jaro-Winkler相似度
3.2 语音匹配
3.2.1 Metaphone算法
3.2.2 MRA算法
3.3 技术比较
3.4 案例
3.5 全面相似度比较
3.6 评估结果
3.7 总结
第4章 概率匹配
4.1 案例
4.2 单一属性匹配概率
4.2.1 名字匹配概率
4.2.2 姓氏匹配概率
4.3 多属性匹配概率
4.4 概率模型
4.4.1 贝叶斯定理
4.4.2 m值
4.4.3 u值
4.4.4 λ值
4.4.5 贝叶斯因子
4.4.6 Fellegi-Sunter模型
4.4.7 匹配权重
4.5 期望最大化算法
4.5.1 第一次迭代
4.5.2 第二次迭代
4.5.3 第三次迭代
4.6 Splink入门
4.6.1 配置Splink
4.6.2 Splink匹配结果
4.7 总结
第5章 记录分块
5.1 案例
5.2 获取数据
5.2.1 维基百科数据
5.2.2 英国公司注册署数据
5.3 数据标准化
5.3.1 维基百科数据
5.3.2 英国公司注册署数据
5.4 记录分块与属性比较
5.4.1 使用Splink进行记录分块
5.4.2 比较属性
5.5 匹配分类
5.6 评估结果
5.7 总结
第6章 匹配公司
6.1 案例
6.2 获取数据
6.3 数据标准化
6.3.1 英国公司注册署数据
6.3.2 英国海事及海岸警卫署数据
6.4 记录分块与属性比较
6.5 匹配分类
6.6 评估结果
6.7 匹配新实体
6.8 总结
第7章 聚类
7.1 简单精确匹配聚类
7.2 近似匹配聚类
7.3 案例
7.3.1 获取数据
7.3.2 数据标准化
7.4 记录分块与属性比较
7.4.1 数据分析
7.4.2 期望最大化分块规则
7.5 匹配分类与聚类
7.6 簇可视化
7.7 聚类分析
7.8 总结
第8章 使用谷歌云平台进行扩展
8.1 谷歌云设置
8.2 创建Dataproc集群
8.3 配置Dataproc集群
8.4 使用Spark进行实体消解
8.5 评估结果
8.6 整理工作
8.7 总结
第9章 实体消解云服务
9.1 BigQuery简介
9.2 企业知识图谱 API
9.2.1 模式映射
9.2.2 消解作业
9.2.3 处理结果
9.2.4 实体消解Python客户端
9.3 评估结果
9.4 总结
第10章 利用记录关联技术保护隐私
10.1 隐私集合求交简介
10.2 PSI原理
10.3 基于ECDH的PSI协议
10.3.1 布隆过滤器
10.3.2 格伦布编码集
10.4 案例:使用PSI
10.4.1 设置环境
10.4.2 服务器代码
10.4.3 客户端代码
10.4.4 完整的MCA和公司注册署样本示例
10.5 总结
第11章 进一步探讨
11.1 数据问题探讨
11.1.1 非结构化数据问题
11.1.2 数据质量问题
11.1.3 时效性问题
11.2 属性比较
11.2.1 集合匹配
11.2.2 地理编码位置匹配
11.2.3 汇总比较
11.3 后处理
11.4 图形表示
11.5 实时性问题
11.6 评估结果
11.6.1 成对方法
11.6.2 基于簇的方法
11.7 实体消解的未来
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证