深度学习与人工智能书籍推荐(从小白到大神)
概述本书单分为“通识篇”、“机器学习篇”、“深度学习篇”、“深度学习框架篇”、“神经网络篇”、“自然语言处理篇”、“特征工程篇”以及“计算机视觉篇”,“通识篇”可以满足题主的要求!
通识篇1.《人工智能简史》
「全方位解读人工智能」
获选第13届“文津图书奖”
获评“南方都市报2017年度十大好书”
尼克著
本书全面讲述人工智能的发展史,涵盖人工智能的起源、自动定理证明、专家系统、神经网络、自然语言处理、遗传算法、深度学习、强化学习、超级智能、哲学问题和未来趋势等。
2.《信息简史》「百万级销量科普畅销书作家詹姆斯•格雷克著作」
获选第9届“文津图书奖”
2011年度《纽约时报》畅销书
[美]詹姆斯·
人工智能原理及其应用 第4版 PDF 下载
IDEA永久激活方法永久破解永久激IDEA永久激活方法永久破解永久激活码...
SVN入门手册PDF下载SVN入门手册PDF下载...
计算机体系结构第二版PDF下载计算机体系结构第二版PDF下载...
智能终端跨平台开发PDF下载智能终端跨平台开发PDF下载...
CentOS7Hadoop2.7.X安装部署PDF下载CentOS7Hadoop2.7.X安装部署PDF下载...
数据结构Python语言描述PDF下载数据结构Python语言描述PDF下载...
深入浅出强化学习:编程实战 PDF下载
第0篇先导篇11一个极其简单的强化学习实例21.1多臂赌博机21.1.1??greedy策略31.1.2玻尔兹曼策略.61.1.3UCB策略71.2多臂赌博机代码实现72马尔可夫决策过程132.1从多臂赌博机到马尔可夫决策过程132.2马尔可夫决策过程代码实现23第1篇基于值函数的方法313基于动态规划的方法323.1策略迭代与值迭代.323.1.1策略迭代算法原理333.1.2值迭代算法原理353.2策略迭代和值迭代的代码实现363.2.1鸳鸯环境的修改363.2.2策略迭代算法代码实现373.2.3值迭代算法代码实现.414基于蒙特卡洛的方法454.1蒙特卡洛算法原理464.2蒙特卡洛算法的代码实现494.2.1环境类的修改和蒙特卡洛算法类的声明494.2.2探索初始化蒙特卡洛算法实现524.2.3同策略蒙特卡洛算法实现.565基于时间差分的方法625.1从动态规划到时间差分强化学习625.2时间差分算法代码实现665.2.1时间差分算法类的声明665.2.2SARSA算法.675.2.3Q-Learning算法706基于函数逼近的方法746.1从表格型强化学习到线性函数逼近强化学习746.1.1表格特征表示746.1.2固定稀疏表示756.1.3参数的训练766.2基于线性函数逼近的Q-Learning算法实现766.3非线性函数逼近DQN算法代码实现85第2篇直接策略搜索的方法957策略梯度方法967.1算法基本原理及代码架构967.1.1策略的表示问题977.1.2随机策略梯度的推导987.1.3折扣累积回报997.1.4代码架构1017.2离散动作:CartPole实例解析及编程实战1037.2.1CartPole简介1037.2.2问题分析及MDP模型.1047.2.3采样类的Python源码实现1057.2.4策略网络模型分析1067.2.5策略网络类的Python源码实现1087.2.6策略网络的训练与测试1107.2.7用策略梯度法求解Cartpole的主函数1127.2.8CartPole仿真环境开发1137.3连续动作Pendulum实例解析及编程实战1177.3.1Pendulum简介1187.3.2采样类的Python源代码实现1187.3.3策略网络模型分析.1207.3.4策略网络类的Python源码实现1217.3.5策略网络的训练与测试1257.3.6用策略梯度法求解Pendulum的主函数1267.3.7Pendulum仿真环境开发1278Actor-Critic方法1318.1Actor-Critic原理及代码架构1318.1.1Actor-Critic基本原理1318.1.2Actor-Critic算法架构.1338.2TD-AC算法1338.2.1采样类的Python源码1348.2.2策略网络的Python源码1358.2.3策略训练和测试1388.2.4主函数及训练效果1408.3Minibatch-MC-AC算法1418.3.1Minibatch-MC-AC算法框架1418.3.2采样类的Python源码1428.3.3策略网络的Python源码1448.3.4策略的训练和测试1478.3.5主函数及训练效果1499PPO方法1519.1PPO算法基本原理及代码结构1519.2Python源码解析1549.2.1采样类1549.2.2策略网络1569.2.3策略的训练和测试1599.2.4主函数及训练效果16010DDPG方法16310.1DDPG基本16310.2Python源码解析16710.2.1经验缓存器类16710.2.2策略网络16910.2.3训练和测试17310.2.4主函数及训练效果175第3篇基于模型的强化学习方法17711基于模型预测控制的强化学习算法17811.1基于模型的强化学习算法的基本原理17811.1.1神经网络拟合动力学模型17911.1.2模型预测控制17911.1.3基于模型的强化学习算法伪代码18011.2Python源码实现及解析18111.2.1数据收集类18111.2.2数据采样类18111.2.3动力学网络类18211.2.4模型预测控制器类18511.2.5模型训练和预测函数18611.2.6主函数18812AlphaZero原理浅析19012.1从AlphaGo到AlphaZero19112.2蒙特卡洛树搜索算法19612.2.1博弈树和极小极大搜索19612.2.2再论多臂老虎机问题19812.2.3UCT算法20012.3基于自我对弈的强化学习20612.3.1基于MCTS的自我对弈20612.3.2策略价值网络的训练21013AlphaZero实战:从零学下五子棋21413.1构建简易的五子棋环境21513.2建立整体算法流程22313.3实现蒙特卡洛树搜索22913.4实现策略价值网络23513.5训练实验与效果评估240附录APyTorch入门246A.1PyTorch基础知识246A.1.1Tensor246A.1.2基础操作247A.1.3Tensor和NumPyarray间的转化249A.1.4Autograd:自动梯度249A.2PyTorch中的神经网络250A.2.1如何定义神经网络251A.2.2如何训练神经网络254A.2.3在CIFAR-10数据集上进行训练和测试256A.2.4模型的保存和加载259参考文献261后记263