博舍

通用人工智能之路:什么是强化学习如何结合深度学习 人工智能学科诞生于什么时间开始

通用人工智能之路:什么是强化学习如何结合深度学习

目录1ChatGPT中的强化学习2环境与智能体的交互3强化学习特征四元组4深度强化学习的引入5教程大纲加入我们1ChatGPT中的强化学习

2015年,OpenAI由马斯克、美国创业孵化器YCombinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得·蒂尔等硅谷科技大亨创立,公司核心宗旨在于实现安全的通用人工智能(AGI),使其有益于人类。ChatGPT是OpenAI推出的一个基于对话的原型AI聊天机器人,2022年12月1日,OpenAI的联合创始人山姆·奥特曼在推特上公布ChatGPT并邀请人们免费试用

ChatGPT可以与人类进行谈话般的交互,可以回答追问,连续性的问题,承认其回答中的错误,指出人类提问时的不正确前提,拒绝回答不适当的问题,其性能大大超乎人们对弱人工智能的想象。ChatGPT魔力的关键因素之一可以追溯到2017年的概念人类反馈强化学习(RLHF)

RLHF的关键在于在难以明确规定任务的强化学习环境中操作,在这些情景下,人类反馈可能产生巨大的影响。RLHF利用人类评估者的少量反馈来引导智能体对目标及其相应奖励函数的理解。

RLHF的训练过程大致阐述为

智能体从环境中随机采取行动,智能体每隔一段时间向人类评估者展示学习效果。根据效果,评估者会施加引导信息,智能体然后利用这个反馈逐渐建立起一个最能解释人类判断的目标和奖励函数的模型。一旦智能体对目标及其相应奖励函数有了清晰的理解,它就使用传统强化学习方法来学习如何实现该目标。随着行为的改善,智能体会继续请求关于它最不确定哪个更好的轨迹对的人类反馈,进一步完善对目标的理解

ChatGPT是大型语言模型的缩影,而这个领域已成为应用现代强化学习技术最有趣的领域之一。接下来,我们将介绍深度强化学习的基本概念,以及有效的学习路线

2环境与智能体的交互

环境(Environment)是机器学习任务所依赖的物理规则与载体,例如

在下棋对弈任务中,环境是棋盘、对手与游戏规则在机器人控制任务中,环境是机器人硬件、任务场景与物理定律…

智能体(Agent)是存在于环境中的实例,智能体必须依赖环境,并与环境产生交互。智能体不能改变环境的物理规则,但可以通过传感器(Sensor)观察来感知环境(感知的结果称为状态),通过决策器(decisionmaker)来根据状态决定将要采取的行动,最后通过执行器(Actuator)动作来影响环境。

举例而言

人类Agent有眼睛、耳朵和其他器官等传感器,也有手、腿、声道等作为执行器硬件Agent可能用摄像头、红外测距仪作为传感器,各种马达作为执行器软件Agent接受键盘敲击、文件内容和网络数据包作为传感器输入,并以屏幕显示、写文件和发送网络数据包为执行器…

Agent的核心是决策器,其内部存在一个从感知到行为的映射,称为Agent函数(或称之为策略)。Agent函数的具体实现过程称为Agent程序,机器学习等人工智能学科就是一系列Agent程序设计的方法论。Agent根据外部环境感知做出相应行为,很自然地需要判断Agent函数的好坏。若这个行为符合期望,则认为智能体是理性的(Rational)。

3强化学习特征四元组

接下来,我们正式给出经典强化学习的定义

强化学习(ReinforcementLearning,RL)是在潜在的不确定复杂环境中,训练一个最优决策πpiπ指导一系列行动实现目标最优化的机器学习方法。

强化学习与监督学习的不同之处在于不需要进行样本标注,核心是通过奖励期望行动和惩罚非期望行动的方式在探索(未知领域)和利用(现有知识)之间找到平衡。

在初始情况下,没有训练数据告诉强化学习智能体并不知道在环境中应该针对何种状态采取什么行动,而是通过不断试错得到最终结果,再反馈修正之前采取的策略,因此强化学习某种意义上可以视为具有“延迟标记信息”的监督学习问题。

强化学习的基本过程是:智能体对环境采取某种行动aaa,观察到环境状态发生转移s0→ss_0 ightarrowss0​→s,反馈给智能体转移后的状态sss和对这种转移的奖赏rrr。综上所述,一个强化学习任务可以用四元组E=E=leftE=⟨S,A,P,R⟩表征

状态空间SSS:每个状态s∈SsinSs∈S是智能体对感知环境的描述;动作空间AAA:每个动作a∈AainAa∈A是智能体能够采取的行动;状态转移概率PPP:某个动作a∈AainAa∈A作用于处在某个状态s∈SsinSs∈S的环境中,使环境按某种概率分布PPP转换到另一个状态;奖赏函数RRR:表示智能体对状态s∈SsinSs∈S下采取动作a∈AainAa∈A导致状态转移的期望度,通常r>0r>0r>0为期望行动,r

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇