雷锋网AI科技评论按:强化学习已经席卷了整个AI世界。从AlphaGo到AlphaStar,由强化学习提供动力的AI智能体已经战胜了越来越多由人类主导的传统活动。通过在某一环境中对智能体行为进行优化以实现最大奖励是强化学习的关键,但是绝大多数强化学习方法需要对环境有完整的了解,而现实中这是难以实现的,基于样本的学习方法(例如蒙特卡洛)则可以解决这一痛点。本文以21点游戏为例,对蒙特卡洛方法进行了在强化学习中的应用进行了介绍,雷锋网AI科技评论编译如下。
一、引言
强化学习已经席卷了整个AI世界。从AlphaGo到AlphaStar,由强化学习提供动力的AI智能体已经战胜了越来越多传统上由人类主导的活动。简而言之,这些成就通过在某一环境中对智能体行为进行优化以实现最大奖励而取得。
此前关于GradientCrescent的一些文章中,我们对强化学习的各基本方面进行了研究,从基础的强盗系统和基于策略的方法,到在马尔可夫环境中优化基于奖励的行为。所有这些方法都要求我们对环境有全面了解,例如,动态规划要求我们掌握所有可能发生状态转换的完整概率分布。但是,实际上,我们发现大多数系统不可能完全了解完整概率分布,并且由于复杂性、固有的不确定性或计算的局限性,不能显式地表示出概率分布。以气象学家的工作进行类比:预测天气背后涉及的因素非常之多,以至于要知道其中的确切概率几乎是不可能的。
GradientCrescent相关文章阅读可参考: