博舍

强化学习从基础到进阶 面试人工智能知识点汇总

强化学习从基础到进阶

【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等、趣味项目实现、学术应用项目实现

专栏详细介绍:【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等、趣味项目实现、学术应用项目实现

对于深度强化学习这块规划为:

基础单智能算法教学(gym环境为主)主流多智能算法教学(gym环境为主)主流算法:DDPG、DQN、TD3、SAC、PPO、RainbowDQN、QLearning、A2C等算法项目实战一些趣味项目(超级玛丽、下五子棋、斗地主、各种游戏上应用)单智能多智能题实战(论文复现偏业务如:无人机优化调度、电力资源调度等项目应用)

本专栏主要方便入门同学快速掌握强化学习单智能体|多智能体算法原理+项目实战。后续会持续把深度学习涉及知识原理分析给大家,让大家在项目实操的同时也能知识储备,知其然、知其所以然、知何由以知其所以然。

声明:部分项目为网络经典项目方便大家快速学习,后续会不断增添实战环节(比赛、论文、现实应用等)

专栏订阅(个性化选择):

强化学习原理+项目专栏大合集-《推荐订阅☆☆☆☆☆》

强化学习单智能体算法原理+项目实战《推荐订阅☆☆☆☆》

强化学习多智能体原理+项目实战《推荐订阅☆☆☆☆☆》

强化学习相关技巧(调参、画图等《推荐订阅☆☆☆》)

tensorflow_gym-强化学习:免费《推荐订阅☆☆☆☆》

强化学习从基础到进阶-案例与实践:免费《推荐订阅☆☆☆☆☆》

强化学习从基础到进阶-常见问题和面试必知必答[7]:深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解强化学习全系列超详细算法码源见文章顶部1.核心词汇

深度确定性策略梯度(deepdeterministicpolicygradient,DDPG):在连续控制领域经典的强化学习算法,是深度Q网络在处定性”表示其输出的是一个确定的动作,可以用于连续动作环境;“策略梯度”代表的是它用到的是策略网络,并且每步都会更新一次,其是一个单步更新的策略网络。其与深度Q网络都有目标网络和经验回放的技巧,在经验回放部分是一致的,在目标网络的更新上有些许不同。

2.常见问题汇总2.1请解释随机性策略和确定性策略,两者有什么区别?

(1)对于随机性策略πθ(at∣st)pi_ heta(a_t|s_t)πθ​(at​∣st​),我们输入某一个状态sss,采取某一个动作aaa的可能性并不是百分之百的,而是有一个概率的,就好像抽奖一样,根据概率随机抽取一个动作。

(2)对于确定性策略μθ(st)mu_{ heta}(s_t)μθ​(st​),其没有概率的影响。当神经网络的参数固定之后,输入同样的状态,必然输出同样的动作,这就是确定性策略。

2.2对于连续动作的控制空间和离散动作的控制空间,如果我们都采取策略网络,应该分别如何操作?

首先需要说明的是,对于连续动作的控制空间,Q学习、深度Q网络等算法是没有办法处理的,所以我们需要使用神经网络进行处理,因为其可以既输出概率值,也可以输出确定的策略μθ(st)mu_{ heta}(s_t)μθ​(st​)。

(1)要输出离散动作,最后输出的激活函数使用Softmax即可。其可以保证输出的是动作概率,而且所有的动作概率加和为1。

(2)要输出连续的动作,可以在输出层中加一层tanh激活函数,其可以把输出限制到[−1,1][-1,1][−1,1]。我们得到这个输出后,就可以根据实际动作的一个范围再做缩放,然后将其输出给环境。比如神经网络输出一个浮点数2.8,经过tanh激活函数之后,它就可以被限制在[−1,1][-1,1][−1,1],输出0.99。假设小车的速度的动作范围是[−2,2][-2,2][−2,2],那我们就按比例将之从[−1,1][-1,1][−1,1]扩大到[−2,2][-2,2][−2,2],0.99乘2,最终输出的就是1.98,将其作为小车的速度或者推小车的力输出给环境。

3.面试必知必答3.1友善的面试官:请简述一下深度确定性策略梯度算法。

深度确定性策略梯度算法使用演员-评论员结构,但是输出的不是动作的概率,而是具体动作,其可以用于连续动作的预测。优化的目的是将深度Q网络扩展到连续的动作空间。另外,其含义如其名:

(1)深度是因为用了深度神经网络;

(2)确定性表示其输出的是一个确定的动作,可以用于连续动作的环境;

(3)策略梯度代表的是它用到的是策略网络。强化算法每个回合就会更新一次网络,但是深度确定性策略梯度算法每个步骤都会更新一次策略网络,它是一个单步更新的策略网络。

3.2友善的面试官:请问深度确定性策略梯度算法是同策略算法还是异策略算法?请说明具体原因并分析。

异策略算法。(1)深度确定性策略梯度算法是优化的深度Q网络,其使用了经验回放,所以为异策略算法。(2)因为深度确定性策略梯度算法为了保证一定的探索,对输出动作加了一定的噪声,行为策略不再是优化的策略。

3.3友善的面试官:你是否了解过分布的分布式深度确定性策略梯度算法(distributeddistributionaldeepdeterministicpolicygradient,D4PG)呢?请描述一下吧。

分布的分布式深度确定性策略梯度算法(distributeddistributionaldeepdeterministicpolicygradient,D4PG),相对于深度确定性策略梯度算法,其优化部分如下。

(1)分布式评论员:不再只估计Q值的期望值,而是估计期望Q值的分布,即将期望Q值作为一个随机变量来估计。

(2)NNN步累计回报:计算时序差分误差时,D4PG计算的是NNN步的时序差分目标值而不仅仅只有一步,这样就可以考虑未来更多步骤的回报。

(3)多个分布式并行演员:D4PG使用KKK个独立的演员并行收集训练数据并存储到同一个回放缓冲区中。

(4)优先经验回放(prioritizedexperiencereplay,PER):使用一个非均匀概率从回放缓冲区中进行数据采样。

人工智能再一次成就了Python!

今年已经过半,特意在这个时间点去看了TIOBE编程语言排行榜,Python在2023连续六个月蝉联榜首,遥遥领先于老对手Java和C。

Python能保持第一并不意外,目前人类科技进步的“技能点”几乎全点在了人工智能上,而Python则与这些领域有着不可分割的紧密关联,这使得互联网对Python技术服务的需求量越来越大。

(数据来自TIOBE官网)

由于互联网新概念层出叠现且发展迅速,这都需要Python的支持,所以全球对Python服务的需求是远远大于供给的。所以包括我在内的很多Python圈内人,都会在业余时做Python副业赚外快。

Python兼职接单记录

每年7月是ython技术兼职的高潮期,需求大价格高,虽说机会多但也不是每人都能做,接Python私活需要有一定的技术储备。毕竟,各类甲方即使在需求最迫切的时候,也不会降低对技术的要求,往往有着较高的技术门槛。

就拿需求最大的Python爬虫来说,高价值的爬虫项目都需要攻破各类反爬虫措施才能完成,破不了反爬虫,就赚不到钱。

所以,反爬虫措施就是Python兼职赚钱的拦路虎,每天都有很多人来咨询包括特征指纹反爬,内嵌网页反爬,CSS偏移反爬,无限Debugger,JSHook逆向,内存爆破,AST混淆,各类验证码反爬在内的,爬虫与反爬虫攻防有关的问题。

对大部分人来说,按部就班自学Python与爬虫的时间成本太高,很多人学了很久都没掌握高阶技术,所以大家都在期待一套快速进阶与变现的方案。

关于Python技术储备

学好Python不论是就业还是做副业赚钱都不错,但要学会Python还是要有一个学习规划。最后大家分享一份全套的Python学习资料,给那些想学习Python的小伙伴们一点帮助!

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、Python必备开发工具

 三、精品Python学习书籍

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

四、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

五、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

六、Python练习题

检查学习结果。

七、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

 最后祝大家天天进步!!

上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

人工智能练习题 + 知识点汇总(期末复习版)

决定人工神经网络性能的三大要素是神经元的特性,神经元之间的连接形式,即拓扑结构,学习规则

BP算法的局限:(1)计算量大,运算过程复杂(2)通过Delta学习算法修正连接权值,会收敛到局部极小点(3)最优隐层数与隐层神经元数不易确定(4)隐层多时,误差信号过小会影响权值的调整

BP网络的优点:(1)很好的逼近特性(2)具有较强的泛化能力(3)具有较好的容错性填空题

多层前馈网络是指那种除拥有输入、输出层外,还至少含有一个、或更多个隐含层

1943年,麦克洛奇和皮兹提出MP模型

神经元的工作状态有兴奋状态和抑制状态

神经网络的工作方式有同步方式与异步方式

按拓扑结构分,人工神经网络可以分为前馈网络和反馈网络

卷积神经网络的反向传播涉及到两个基本问题,一个是误差的反向传播,一个是参数的反向传播判断题

(T)由于的神经元的可塑性,突触的传递作用可以增强或者减弱,而机器学习的过程,也是神经元之间连接强度的变化过程

(T)人工神经网络是对人脑或生物神经网络若干基本特性的抽象和模拟

(F)卷积神经网络是Hopfield神经网络的延伸与拓展

(T)神经网络是一种隐式的知识表示方法

(T)单层前馈网络中,如果有i个输入,j个输出,则连接权值W可以表示成一个i*j的矩阵

(T)BP网络是多层前馈网络,Hopfield网络是全互联反馈网络

(F)BP神经网络层与层的连接是双的,信息的传播是单向的

(T)一定存在一个BP神经网络能够逼近给定的样本或者函数简答题

1.简述神经元模型工作过程是怎样的?(1)从各输入端接收输入信号,包括外界刺激与接收其它神经元的输出(2)根据连接权值求出所有输入的加权和(3)用非线性激励函数进行转换,得到输出

2.请简要说明池化层的基本作用,以及池化操作的基本过程与常用方法?池化的基本作用:主要作用是利用子采样(或降采样)对输入图像的像素进行合并,得到池化层的特征图谱。池化操作的基本过程是:从特征图的左上角开始,按照池化窗口,先从左到右,然后再从上向下,不重叠地依次扫过整个图像,并同时利用子采样方法进行池化计算。常用方法:常用的池化方法有最大池化法、平均池化法和概率矩阵池化

3.BP学习算法的基本思想是什么?BP学习算法的基本思想是调整权值,使得神经网络的实际输出能够逼近样本与函数的实际输出。

4.请简要解释BP学习算法的正向传播与反向传播的含义?(1)正向传播:输入信息由输入层传至隐层,最终在输出层输出。(2)反向传播:修改各层神经元的权值,使误差信号最小。

5.在BP学习算法实现时,应注意哪些问题?(1)隐层数及隐层中神经元数的确定,无确定的指导方法,需要通过经验调整;(2)初始权值的设置,一般设为一个均值为0的随机分所布初始权值;(3)训练数据的预处理,常使用线性特征比例变换把所有特征变换到[0,1].或者[-1.1]区间之间,使得在每个训练集上,每个特征的均值为0,并且具有相同的方差。(4)后处理过程,当应用神经网络进行分类操作时,通常把输出值编码成所谓的名义变量,具体的值对应类别符号

6.简述BP算法的实现过程(1)初始化:对所有连接权和阈值赋以随机任意小值;(2)从N组输入输出样本中取一组样本输入到到BP网络中;(3)正向传播:计算各层节点的输出;(4)计算网络的实际输出与期望输出的误差;(5)反向传播:从输出层方向计算到第一一个隐层,按连接权值修正公式向减小误差方向调整网络的各个连接权值;(6)让t+1→t,取出另一-组样本重复(2)一(5),直到N组输入输出样本的误差达到要求时为止

7.请简要说明卷积操作的基本过程,以及什么是卷积核?卷积操作的基本过程是:针对图像的某一类特征,先构造其特征过滤器(FF),然后利用该滤器对图像进行特征提取,得到相应特征的特征图。特征过滤器也称为卷积核,它实际上是由相关神经元连接权值所形成的一个权值矩阵,该矩阵的大小由卷集核的大小确定。卷集核与特征图之间具有—一对应关系,一个卷集核唯一地确定了一个特征图,而一个特征图也唯一地对应着一个卷积核。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇