本教材的基本内容是将人工智能领域中的机器学习、数据挖掘等智能技术应用于人文和社科领域。本教材共分为9章。
第一章讨论了大数据技术的一些基本概念,同时还对计算机语言Python进行了简要介绍,它们是学习智能技术的基础。第二章讨论了基于Python的计算机爬虫与网页交互的基本原理和爬虫技术的应用。第三章介绍了爬虫框架,为了节约开发成本和避免重复工作,利用爬虫框架可以设计满足应用要求的数据爬虫。第四章介绍了数据存储的相关概念和各种具体的存储方法,主要包括文件格式的数据存储,如纯文本格式、CSV格式、Excel格式和基于数据库的存储,包括MySQL数据库、Mongo数据库和Redis数据库。第五章讨论了数据挖掘的基本概念。近些年来随着大数据技术的快速发展,数据模型方法也在不断发展,内容非常丰富。传统的数据统计和分析方法正在向数据挖掘模型领域过渡。大数据模型的分析结果为决策者提供了更加丰富的决策依据。这章介绍了贝叶斯决策模型的基本原理,并将这个模型应用到一个信用卡申请数据集上。第六、七章分别介绍了Python的数据处理工具——Numpy库和Pandas库。虽然它们都是Python的第三方库,但它们在数据分析和数据挖掘领域中具有非常重要的地位。数据挖掘算法中大部分的数据处理是调用Numpy库来完成基础数据计算的。这是由于Numpy比Python语言中的列表更具有优势,其中一个优势就是运算速度。一般来说对大型数组进行运算时,Numpy库的运算速度比Python列表的运算速度快了好几百倍。另一方面,Pandas又是基于Numpy开发出来的第三方库,其特点为数据面板和数据分析二者的集成。它提供灵活的数据结构,并提供一些标准的数据模型,能够高效地操作大型数据集。Pandas提供了大量能使我们快速高效地处理数据的函数和方法。第八章讨论了如何对数据进行清洗以方便数据挖掘模型的使用。数据需要清洗的原因是在原始数据集中存在数据重复现象、数据缺失情况,或数据存在不一致性。所以数据清洗的目的就是为了删除重复数据,补齐缺失的数据,消除数据的不一致性。这样才能保证数据质量来支撑数据挖掘模型。第九章介绍了数据可视化的概念和实现的技术。通常在进行大数据分析时,往往需要在运行模型之前进行探索性的数据分析,这样方便我们对数据特性的了解。这时最直观的方法是采用数据可视化技术达到解读数据的目的。同样在数据挖掘模型输出结果之后,我们也可以利用可视化技术把最终的结果以各种表格或各种图形呈现出来。
展开