本研究主要包括6个方面:一是详细对图书馆的典型服务流程进行了梳理,对每个环节可能产生的用户数据进行了归纳汇总,并在此基础上,设计了数字图书馆用户元数据框架,帮助图书馆更好地掌握、收集、管理用户数据;二是针对用户多源数据的特点,从用户学术合作、用户文献偏好、用户学术影响力等维度提出了数字图书馆用户多源特征融合模型;三是设计了数字图书馆用户标签体系,并对标签的属性、生成规则、编码方式等进行了论述;四是设计了基于Hadoop的日志数据预处理流程,对海量用户日志数据进行预处理,并分别设计了会话识别、路径补充算法;五是设计了用户画像系统功能模块,重点对数据预处理、注册用户分析、日志数据挖掘等模块的输入、输出、功能进行了详细描述,支撑用户画像系统的开发;六是基于国家科技图书文献中心的真实用户数据进行了用户行为画像分析,从用户各基本特征、文献资源利用、用户行为关联性和访问序列、用户流失状况、RFM及用户价值等方面开展了实证分析,为图书馆用户画像系统建设提供了参考和借鉴。
展开