信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

如今，绝大多数数据科学家和数据工程师基于高质量的标签数据集训练学习模型。但是，人工构建训练集既耗时又十分昂贵，以至于很多公司的机器学习项目无法完成。在本书中，有一种更为实用的方法，由WeeHyong Tok、Amit Batlree和Senja Filipi展示如何使用弱监督学习模型创建产品。你将学习如何通过使用Snorkel（斯坦福大学人工智能实验室的一个衍生产品），在弱标签数据集上建立自然语言处理和计算机视觉项目。因为很多公司研究的机器学习项目从未走出他们的实验室，所以本书还提供了如何在真实案例中使用构建的深度学习模型的指南。 ·了解弱监督领域的最新进展，包括将其用在数据科学过程中的方法 ·使用SnorkelAl进行弱监督和数据编程 ·获取使用Snorkel标记文本和图像数据集的代码示例 ·使用弱标签数据集进行文本和图像分类 ·了解使用Snorkel处理大型数据集和使用Spark集群扩展标签的注意事项

展开

精彩书评

展开

精彩书摘

展开

黄学东序
Alex Ratner序
前言-
第1章弱监督介绍
什么是弱监督？
Snorkel弱监督实例
弱监督的基本方法
不完全监督
不确切监督
不精确监督
数据编程
获取训练数据
数据编程如何加速软件2.0的到来
总结
第2章使用Snorkel框架深入数据编程
Snorkel数据编程框架
从标签函数开始
在数据集上应用这些标签
标签的性能分析
验证集的使用
使用LabelModel达成标签一致性
LabelModel背后的直觉
LabelModel参数估计
改进标签功能的策略
使用Snorkel Transformers进行数据增强
通过删除词语进行数据增强
Snor。kel预处理程序
通过GPT-2的预测进行数据增强
通过翻译进行数据增强
将转换函数应用于数据集
总结
第3章标记行为
标记文本数据集：识别假新闻
假新闻检测数据集
引入Snorkel并设置代表性常数
事实验证网站
Speaker是“骗子”吗？
Twitter个人资料和Botometer得分
弱分类器的生成协议
标记图像数据集：识别室内与室外图像
创建图像数据集
TensorFlow中弱分类器的定义与训练
训练分类器
图像标签中的弱分类器
部署计算机视觉服务
调用计算机视觉服务
创建数据帧
学习LabelModel
总结
第4章使用Snorkel标记的数据集进行文本分类
自然语言处理(NLP)入门
TransfOrmers
硬性标签与概率性标签
使用ktrain进行文本分类
数据准备
处理不平衡的数据集
训练模型
使用文本分类模型进行预测
找到一个好的学习率
使用Hugging Face和Transformers
加载相关的Python程序包
数据集的准备
检查GPU硬件是否可用
执行分词
模型训练
测试微调后的模型
总结
第5章使用Snorkel标注的数据集进行图像分类
视觉目标识别概述
表示图像特征
计算机视觉的迁移学习
使用PyTorch进行图像分类
加载室内／室外数据集
工具函数
可视化训练数据
微调预训练模型
总结
第6章扩展性和分布式训练
可扩展性的需求
分布式训练
Apache Spar-k引言
Spark应用设计
用Azure Databricks实现扩展
弱监督的集群设置
Databricks上的假新闻检测数据集
Snorkel标签功能
设置依赖关系
加载数据
事实验证网站
使用LIAR数据集的迁移学习
弱分类器：生成协议
Spark运行所需的类型转换
总结

展开