信阅平台

编辑推荐

本期《信息系统学报》为总第26辑，共收录7篇研究论文和2篇领域综述。7篇研究论文呈现了高度多样化的研究视角和方法。

展开

内容介绍

《信息系统学报》是我国信息系统科学研究领域内唯一的专门学术出版物，被信息系统协会中国分会指定为会刊。《信息系统学报》倡导学术研究的科学精神和规范方法，鼓励对信息系统与信息管理领域中的理论和应用问题进行原创性探讨和研究，旨在发表信息系统研究领域中应用科学严谨的方法论、具有思想性与创新性的研究成果。《信息系统学报.第26辑》内容包括相关的理论、方法、应用经验等方面，涵盖信息系统各个研究领域，注重结合我国国情进行探讨，从而对我国和世界信息系统的研究与应用做出贡献。

展开

精彩书评

本期《信息系统学报》为总第26辑，共收录7篇研究论文和2篇领域综述。7篇研究论文呈现了高度多样化的研究视角和方法。

展开

精彩书摘

一种基于深度强化学习的直播推荐方法*
　　王潇，刘红岩，车尚锟
　　（清华大学经济管理学院，北京 100084）
　　摘要　近年来，在线直播行业快速兴起，而给用户推荐其感兴趣的直播是提升用户体验的关键。直播推荐有着更强的动态性，直播内容和用户偏好时刻在变化中。现有推荐算法没有针对此特点进行建模。本文基于强化学习理论，提出了一种新型的直播推荐模型。该模型从三个角度构建用户的状态表示。同时，将基于排序的有监督学习策略引入强化学习模型，使得模型在探索学习的同时保证推荐质量。在真实的数据集上的实验评估结果验证了所提模型的有效性。
　　关键词　推荐系统，深度强化学习，在线直播，有监督学习
　　中图分类号　TP391.3
　　1　引言
　　近年来，在线直播行业快速兴起，观看在线直播成为大众娱乐的重要方式之一。根据艾媒咨询的研究报告[1]，2019年中国在线直播市场用户规模达到5.04亿人，增长率为10.5%；2020年中国在线直播市场用户规模达到5.87亿人，增长率为16.5%；2021年用户预计达6.35亿人，增长率为8.2%。一方面，用户规模的快速提升促进了主播数量的增加、直播内容的丰富，同时也给用户选择感兴趣的直播带来可能；另一方面，用户规模虽逐年提升，但增速已经逐步放缓，当直播平台的用户量趋于稳定后，提升用户体验、增强用户黏性成为平台运营的关键环节。推荐系统的引入可以有效减少用户的搜索时间，帮助用户发现感兴趣的内容，从而提升用户体验。
　　但是在线直播的推荐面临着诸多挑战：①在线直播具有实时性，主播直播的内容在动态变化，用户也会在主播间随时切换以观看其*喜欢的内容。直播推荐系统必须有能力捕捉用户和主播动态变化的状态。②直播推荐面对的是主播、直播内容和用户的三元组，其中两两之间都具有关联关系，同一个主播不同时段的直播具有共性和特性，同时用户的兴趣既有针对特定主播的也有针对某类内容的，因此合理表示这三者及其之间的关系是直播推荐的重要步骤。已有推荐系统的相关研究没有针对直播的这些特点进行建模，性能上存在着改进的空间。
　　为解决上述问题，本文将直播领域中的推荐建模转化为一个强化学习问题，提出了一种用于直播推荐的深度强化学习（deep reinforcement learning，DRL）模型。该模型将推荐系统作为智能体，通过系统与用户不断交互的过程探索用户的真实偏好，*大化用户的长期收益。模型采用深度确定性策略梯度算法解决推荐系统问题中动作空间维度高、计算量过大的难题，同时解决了一般的强化学习策略只能推荐一个物品的问题[2]。另外，强化学习通过探索过程*大化用户长期收益，短期通过探索策略会推荐一些与当前偏好不完全吻合的目标，因此会牺牲部分短期收益，可能造成短期用户体验差的问题。为此，本文提出了将基于排序的有监督学习策略引入强化学习模型，使得推荐列表能在原有基础上使用监督策略进行改进，缓解这一问题。同时，提出了对用户状态的建模方法，通过静态、动态和实时特征三个角度进行建模，全面反映用户的偏好特征。
　　本文内容安排如下：第2部分总结分析相关研究；第3部分定义研究问题；第4部分描述所提出的模型；第5部分通过实验评估所提模型的性能；*后第6部分总结全文。
　　2　相关研究
　　推荐模型可以分为协同过滤（collaborative　filtering，CF）[3]、基于内容的推荐（content-based recommendation）[4]及混合方法。下面对经典的通用推荐模型以及与本文工作相关的视频推荐、直播推荐和基于强化学习的推荐模型进行总结分析。
　　2.1　通用推荐方法
　　在通用推荐模型中，比较经典的方法是协同过滤和基于内容的推荐。
　　协同过滤的基本思想是向用户推荐与其有着相似喜好的用户所喜欢的物品[3]。该方法基于用户的历史行为信息，如用户购买哪些商品或者用户对已有商品的打分信息计算用户之间的相似度。然后将相似用户购买过的商品推荐给目标用户。
　　基于内容的推荐是向用户推荐其喜好物品的相似物品[4]。如果用户喜欢某个物品，则与该物品类似的物品也会被推荐给用户。该方法的难点在于需要找到准确的特征以描述物品，同时该方法可能推荐的都是与已消费物品类似的物品。
　　经典的协同过滤方法和基于内容的推荐方法没有考虑用户行为的时序特点，因此，考虑用户行为的序列模式的推荐方法即序列推荐（sequential recommendation）吸引了很多研究者进行研究。早期的序列推荐方法利用马尔科夫链建模用户的序列行为[5]，建立在较强的马尔科夫性质的假设前提下。随着深度学习的发展，研究者提出了许多基于神经网络模型的推荐方法，例如，Hidasi等研究者[6]采用循环神经网络（recurrent neural networks，RNN）模型来建模会话中的用户点击序列。Wu等研究者[7]采用图神经网络建模，将全局偏好和当前会话偏好结合，对下一物品进行预测。Ying等研究者[8]采用基于层级的注意力网络，结合了用户长短期的偏好进行预测，将用户长期的偏好的变化加入考虑。
　　近年来，强化学习在游戏领域和自动控制领域取得了良好的效果[9~11]。因此深度强化如何应用于推荐系统也成为研究热点。Zhao等学者提出基于深度强化学习的用于电商平台的商品推荐算法，让推荐系统智能地学习*优推荐策略[12~14]。区别于其他应用中智能体每一步与环境的交互都可以得到反馈[15]，在推荐系统中，获得任意一步动作的反馈的代价是较高的。因此已有深度强化推荐工作中采用了环境模拟器来根据协同过滤的思想来预测反馈值。但该方法的不足之处在于，若环境模拟器的预测值与真实反馈值有偏差，则会影响到强化学习的学习效果。在同样的框架下，Zhao等学者研究在电商平台下如何为用户推荐多个商品并排版成网页的问题，但该研究主要侧重于使用Encoder-Decoder模型进行商品页面的生成[13]。Zheng等构建了基于深度强化学习的框架进行新闻的推荐，侧重解决推荐物品过于相似和重复的问题[16]。
　　Wang等学者的研究结合了监督学习和强化学习，采用Actor-Critic模型来克服仅采用强化学习模型时在探索时期推荐不准确的缺陷[17]。但该方法的不足之处在于，其定义的动作空间维度与物品维度相同，在应用于直播领域时，由于待推荐的物品数量很多，会造成计算复杂度很高，同时网络的参数也会随动作维度的增大而增大，使得模型求解复杂。Liu等同样采用了深度确定性策略梯度算法，提出了三种状态表示模型来建模物品之间的联系以及用户和物品之间的联系[18]。Chen等学者提出两种算法来缓解由用户、物品分布变化引起的反馈不准确的问题，提出分层抽样回放和近似悔恨反馈法来有效地估计反馈值[19]。
　　2.2　视频推荐
　　在视频推荐领域，基于协同过滤的思想根据用户的行为进行分析，从相似用户的角度对用户进行推荐。基于内容的推荐则利用了视频的一些元信息，如标题和风格；或者视频中的信息，如色彩和明暗。
　　Davidson等分析了YouTube的视频推荐系统，该系统采用的输入包括了内容相关信息和用户相关信息，后者包括了直接和间接的回馈。直接回馈包括喜爱和厌恶等行为，间接回馈包括浏览和观看等行为[20]。随着深度学习的发展，Covington等应用了深度学习进行视频推荐，深度神经网络的优点在于可以方便地处理离散和连续变量，可将用户观看历史、搜索记录、场景信息及用户画像共同作为输入，并输出用户的向量表示[21]。基于内容的推荐还可以利用视频信息，如Mei等在研究中利用了视频的文本信息如描述和标签等[22]。Deldjoo等同样采用基于内容的推荐，提出了一种能分析视频风格特征的推荐方法[23]。
　　2.3　直播推荐
　　由于直播行业近些年才流行起来，目前直播推荐相关的研究还很少。根据Yang等的研究[24]，直播平台Twitch采取了*多观看（most viewed）的推荐手段，该方法的缺陷是没有考虑到用户的个人偏好，即每个用户的不同点。由此该文章提出了HyPAR（hybrid preference-aware recommendation）算法，加入了对用户历史观看记录信息的利用，包括观看频道、观看时长，以此来分析用户的喜好。Liu等的研究[25]着重考虑了直播平台中的关注列表信息，该方法首先对用户观看记录进行分析并用k-means方法聚类，而后基于用户群进行推荐。
　　由此可见，目前已有的针对直播的推荐方法没有充分利用直播推荐的特点。如果采用已有的视频推荐算法做直播推荐，则忽略了直播内容实时变化的特点，直播视频的动态变化影响着用户的选择，但是在视频推荐中没有考虑这点。此外，直播视频都是实时的，这使得直播推荐算法无法利用完整的视频信息。另外，深度强化推荐模型这类新方法仍然主要应用于商品推荐，没有针对直播场景进行优化，同时，已有模型采用的离散动作空间的定义方式使得在推荐的场景下计算复杂度很高[19]。此外，部分已有强化推荐系统采用深度Q学习在每一步只能推荐一个物品，以及采用基于分类的监督学习算法[17]不能很好地解决本质上是多个物品排序的推荐问题。因此，本文针对直播推荐的应用场景，研究上述问题的解决方法。
　　3　问题定义
　　3.1　直播场景下的推荐问题
　　假设在推荐系统中有M个用户，用集合U表示；有N个主播用集合V表示。令 Ut、Vt分别表示t时刻在线的用户和主播集合。对于任何一个用户u∈U ，给定其历史观看行为记录，推荐问题是预测其下一时刻可能感兴趣的直播，为其生成一个长度为K的主播推荐列表。
　　3.2　直播推荐的强化学习建模
　　强化学习的目的是教会智能体（agent）如何去决策（action），每一个决策会影响智能体未来的状态（state），智能体采取的每一步决策会产生反馈（reward），反馈值越高即表示收益越高。在直播推荐领域中，推荐系统可以看作类似的一个智能体，可以由图1来表示，推荐系统收到用户当前的状态表示，并根据策略做出决策，推荐用户喜好的直播列表（在图中对应动作），用户将对推荐系统的每个决策做出反馈，此时，用户达到下一个状态。
　　图1　强化学习与推荐系统交互模型
　　给定某用户t时刻的状态后，假设其未来的状态与过去的状态是独立的，当前时刻的推荐行为只与当前状态有关，而与之前的状态无关，则此过程符合马尔科夫决策过程（Markov decision process）的定义，因此我们可以将直播推荐问题建模为一个马尔科夫决策过程，由状态、动作和反馈的序列组成，可以由五元组（S，A，P，R，）表示，定义如下。
　　状态空间S：用户当前状态的向量表示，用户在时刻t的状态为。
　　动作空间A：推荐系统在时刻t的动作记为。在本文中，为了提升计算效率，将动作空间建模为连续空间。为了得到推荐列表，将建模为由稠密向量表达的用户当前偏好。基于该向量与各个主播偏好向量的匹配可以得到推荐列表。本文采用的连续动作空间有着计算效率的优势，如果将动作空间定义为离散空间，计算复杂度很高[22]。
　　反馈R：S×A→R表示反馈函数r（s，a），表示在状态s下采用动作a得到的反馈。推荐系统根据动作a推荐一个主播列表后，若用户观看了列表中的主播，则反馈取值为正。
　　状态转移概率P：定义了由状态采取动作，达到状态的概率。
　　折现因子（discount factor）γ：γ是[0，1]区间的实数，表示未来收益的折现率。特别地，若γ=１，意味着未来得到的收益与当前价值等同。若γ=0，则意味着未来得到的回报在现在毫无价值，智能体可被看作“短视”的。
　　为了衡量推荐系统在一段较长时间内的推荐效果，定义模型的总期望收益为Q函数（state action value function）：表示在时刻t状态s下执行动作

展开

目录
主编的话 XI
研究论文
一种基于深度强化学习的直播推荐方法/王潇，刘红岩，车尚锟 1
数据驱动的心血管疾病门诊量多步组合预测研究/顾福来，白朝阳，郭林霞，刘晓冰，孙永亮 19
移动学习情境下口碑生成的影响因素研究—基于八个论坛的真实评论数据/罗霄，蒋玉石，王烨娣，苗苗 32
在线用户创新社区创意采纳机理研究—基于整合理论视角/秦敏，许安琪 47
个性化社交媒体广告对消费者广告回避的影响机制研究/罗江，范婷睿，苗苗 62
智慧健康产品试用中好奇与信念两者不同作用机制的分析与比较/孙凯，左美云，孔栋，吴一兵 81
空间距离信息对游客出行决策行为的影响研究/郝辽钢，霍佳乐，刘健西 97
电子废弃物情境下的用户信息安全保护动机研究/陈昊，吕途，张嵩 109
数字经济产业集聚对创新驱动因素的影响研究—基于省级面板数据的实证分析/金鑫，李晓雯，张敏，王鲁滨，孙广华 121
审稿专家 133
China Journal of Information Systems
Issue 26
CONTENTS
EDITORS’NOTES XI
ARTICLES
A Supervised Deep Reinforcement Learning Based Live Streaming Recommendation Method/WANG Xiao，LIU Hongyan，CHE Shangkun 1
Research on Data-driven Multi-step Combined Forecast of Cardiovascular Disease Outpatient Volume/GU Fulai，BAI Zhaoyang，GUO Linxia，LIU Xiaobing，SUN Yongliang 19
Research on the Influencing Factors of Word-of-Mouth Generation in Mobile Learning Context —Based on Real Comments Data from Eight Forums / LUO Xiao，JIANG Yushi，WANG Yedi，MIAO Miao 32
Research on the Ideas Adoption Mechanism of Online User Innovation Community：Based on Integration Theory/QIN Min，XU Anqi 47
Research on the Influence Mechanism of Personalized Advertising in Social Media on Consumers’ Advertising Avoidance/LUO Jiang，FAN Tingrui，MIAO Miao 62
Analysis and Comparison of Mechanism Between Curiosity and Beliefs in Smart Health Test Product Trial/SUN Kai，ZUO Meiyun，KONG Dong，WU Yibing 81
Study of the Effects of Spacial Distance Information on Tourists’Decision-Making / HAO Liaogang，HUO Jiale，LIU Jianxi 97
Research on User Information Protection Motivation in the Context of E-waste / CHEN Hao，LYU Tu，ZHANG Song 109
Research on the Influence of Digital Economy Industry Agglomeration on the Driving Factors of Innovation/JIN Xin，LI Xiaowen，ZHANG Min，WANG Lubin，SUN Guanghua 121
PEER REVIEWERS 133

展开