随着人工智能时代的到来,特别是AlphaGo、ChatGPT等突破性技术的问世,深度强化学习算法已展现出其独特的优势,并在处理复杂决策问题方面发挥出巨大潜力。深度强化学习算法将深度学习的感知能力与强化学习的决策能力相结合,实现了端到端的学习,是一种更加接近于人类思维方式的人工智能算法。然而,目前对深度强化学习算法的研究仍处于初步发展阶段,面临诸多挑战,包括样本利用效率低、“探索和利用”难以平衡及奖励函数设计困难等问题。本书系统阐述了深度强化学习算法的理论和原理,针对其在量化金融、工业运维等应用领域所面临的研究难点,展开相关研究,并创新性地提出相应的改进算法,以推动深度强化学习算法在智能决策领域的进一步发展。
展开