PER-DQN
Prioritized Experience Replay 论文地址 1. BACKGROUND TD errors 提供了测量这些优先级(抽取样本的优先级)的一种方法(Van Seijen&Sutton, 2013)(TD-errors 也被用作确定在何处选择,进行资源的优先级化机制)。 作者的方法使用了一种的类似的优先级方法,但是对于 model-free RL而不是 model-based。 此外,作者使用随机优先级,在学习来自样本的函数近似器时更加强大。 (Narasimhan et al., 2015) re-sampling 区别出两个 buckets, 一个是积极的,一个是消极的,并为每一个选择一个固定的比例去应用。 2. PRIORITIZED REPLAY Using a replay memory leads to design choices at two levels: which experiences to store, and which experiences to replay (and how to do so). 2.1 A MOTIVATIN ...
Mac安装python工具包-OpenGL
官网地址:https://www.opengl.org 安装 安装cmake brew install cmake 安装glew brew install glew 安装GLTools git clone https://github.com/HazimGazov/GLToolscd GLToolscmake . && sudo make install 安装glfw brew install glfw
Mac安装python工具包-nasm,libx264,ffmpeg
1. 工具官网 ffmpeg下载:http://www.ffmpeg.org/download.html x264下载:http://download.videolan.org/x264/snapshots/ nasm下载:http://www.nasm.us/ 2. 安装nasm 下载可通过wget wget ... 解压 tar -zxvf nasm-2.13.03.tar.gz 进入nasm包 cd nasm-2.13.03/configure 编译并安装 makesudo make install 3. 安装libx264 下载libx264 git clone https://code.videolan.org/videolan/x264.git 进入x264 cd x264 生成Makefile,–enable-shared:生成动态库,–enable-static:生成静态库 ./configure --prefix=/usr/local/bin/x264 --enable-shared --enable-static 编译 make 再执行make install,执行 ...
Kaggle-Optiver-相关信息
背景信息 在金融市场,波动反应了价格的波动量。高波动性与市场波动和价格大幅度波动有关,而低波动性则描述了市场的平静。准确预测波动性对于期权交易至关重要,因为期权的价格与标的产品的波动率直接相关。 评估 提交使用根平均平方百分比错误进行评估,定义为: RMSPE=1n∑i=1n((yi−y^i)/yi)2\text{RMSPE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} ((y_i - \hat{y}_i)/y_i)^2} RMSPE=n1i=1∑n((yi−y^i)/yi)2 常见问题 @: 相同的stock_id代表相同的股票 @: time_id表示一个20分钟的交易窗口,该窗口中在所有股票中的是一致的,前十分钟窗口中的数据用作训练,后十分钟订单记录数据用于预测
日记-6-28
一下动车,就感觉到了北京热浪。 终于结束了一个阶段,开始了一个新的工作阶段。对于上一个阶段,不再做更多的回顾与总结。新的阶段和节点,往往蕴藏着新的快乐与挑战,应当更新自己的活力库,注入更新鲜的更高昂的激情与斗志。 这个阶段的生活内容会有很多,得有很好的计划与准备,不着急,尽快适应。对于计划本身,我希望自己能够保持很好的作息与饮食规律,更加单调的工作与生活内容,不杂乱,有条不紊。对于计划内容,希望它能足够健壮,能保证内容足够少足够持续,不碎片,还能有效应对动态的因素。 在这个新的阶段,希望自己能够改掉自己一些坏习惯,养成更多的好习惯。继续加油,继续努力。 请深记:谁终将声震人间,必长久深自缄默;谁终将点燃闪电,必长久如云漂泊。
本科毕业论文致谢部分
尼采有句话说:你要搞清楚自己人生的剧本——不是你父母的续集,不是你子女的前传,更不是你朋友的外篇。对待生命你不妨大胆冒险一点,因为好歹你要失去它。如果这世界上真有奇迹,那只是努力的另一个名字。生命中最难的阶段不是没有人懂你,而是你不懂你自己。 我们生活在混沌之中,世界的外在联系可以被我们的感觉编码成直观的印象,而那些微妙的潜在的内在联系也应该被深入感知,有些人称之为缘分,也有一些人称之为轮回。Anyway,感恩所有关联到我的联系,感谢父母,感谢亲人,感谢每一位老师,感谢我的朋友,感谢我的同学,感恩你们在某一个节点对我的支持与包容,感恩你们与我共情,与我体验,与我信任,与我坚强。有时候,我向后回顾,再向前瞻望,我从未在刹那间看到这么多美好的东西,我始终认为一个人可以很天真简单的活下去,必是身边无数人用更大的代价守护而来的。 在完成大学学业最后一个任务后,我的人生剧本终究要翻过大学章,进入新的篇章。一棵树要长得更高,接受更多的光明,那么它的根就必须更深入黑暗。大学四年,每一刻,我大胆得前进,长驱直入每一个副本,我深入空间的黑暗,深入时间的黑暗,深入人性的黑暗,深入黑暗的黑暗,我从容不迫得舒 ...
Double DQN
Deep Reinforcement Learning with Double Q-learning 论文地址 Background 为了解决序列决策问题,我们可以学习对每一个行为的最优值的估计,它定义为当采取该行为并遵循最优策略时未来可以获得的报酬的期望和。在给定一个具体的 policy π\piπ 下,在 state sss 下选择 action aaa 的 true value 为: Qπ(s,a)=E[R1+γR2+...∣S0=s,A0=a,π]Q_{\pi}(s, a) = \mathbb{E}[R_{1}+\gamma R_{2}+...|S_{0} = s, A_{0} = a, \pi] Qπ(s,a)=E[R1+γR2+...∣S0=s,A0=a,π] γ∈[0,1]\gamma \in [0, 1]γ∈[0,1] 是一个衰减因子,可以 trades off 实时奖励和以后奖励的 importance, the optimal value 可以定义为Q∗(s,a)=maxπQπ(s,a)Q_{*}(s, a) = max_{\pi}Q_{\pi}(s, a ...
DQN
Playing Atari with Deep Reinforcement Learning 论文地址 背景 深度学习和强化学习的差别: DL通常基于大量的人工标注训练数据进行训练,而RL则是基于可能存在的延时奖励进行学习,很难用标准的网络结构将输入直接和奖励关联起来。 大部分DL算法都假定数据样本之间相互独立,而RL则一般应用与高度相关的状态序列 在RL学习到新的行为后,数据分布可能会发生变化,而DL通常假设数据的分布是不变化的。 论文提出了一种卷积神经网络来解决上述问题,在复杂的RL环境中直接通过对视频数据生成控制策略。该网络基于Q-learning算法的变种进行训练,通过随机梯度下降来更新权重。为了缓解数据相关性以及分布的不稳定性,作者使用一种经验回放机制来随机采样之前的状态转移,平滑训练数据的分布。 理论基础 作者使用Agent基于一系列的action, reward, observation和Env(环境)来交互。在每一个step中,Agent从action集合 A=1,...,KA = {1, ..., K}A=1,...,K 中选择一个动作 ata_tat ,Env ...
随笔-5-28
今天的实验极其有趣。我们在模仿人类解决问题的学习过程在建立模型。 实验过程中有一个参数,极大得激起了作为调参侠的兴趣。它是模型学习经验的记忆库,可以围绕这个调整模型可以学习的样本数据,学习的频率与大小以及更新不同模型参数的频率。 将这个参数变小,会导致记忆库中的样本数量变小,更为集中最优化。类比于人类,相当于我们的记忆只有过去三天,我们可以根据三天,三天,又三天的记忆来建立我们的思维。将这个参数变大,会导致记忆库中的样本数量更加充分,更为泛化。同样类比人类,相当于我们可以记住过去三年,三十年的每一件事,以此来指导之后的工作生活。 我们可能更倾向于后者,我们总觉得更加泛化的数据和经验,会让模型对数据的学习能力更强,让人类对未知的事物更具有成系统的分析与理解,并作出反应。但其实前者聚集性最优化的选择或让模型的学习过程更加迅速,收敛速度极其快,对样本的理解不亚于后者。惊讶于这种结果。 还记得《乌合之众》之中,有句话如下:群体中的个人所表现出来的特点:无意识人格的强势,有意识人格的消亡,通过暗示于相互传染的作用,人的感情和思想会向着一个共同的方向发展,并且会立刻将这种暗示的观念转化为行动。这个 ...