swing组合

深度强化学习中的好奇心

    本文是AI研究所编写的一个技术博客。最初的标题是《深层强化中的好奇心》。

    本文是AI研究所编写的一个技术博客。最初的标题是:

    深度强化学习的好奇心

    作者|迈克尔·克莱尔

    翻译|缩写2018

    校对|酱梨涂饰|菠萝女孩

    链接到原始文本:

    Http://towardsdata..com/holio.-in-.-.ment-.-.-.-network-.llation-747b322e2403

    深度强化学习中的好奇心

    早期密集学习的困难任务之一,Montezuma的复仇,在探索随机网络蒸馏方面取得了重大突破(来源:Parker兄弟博客)。

    Atari游戏是深层强化学习(RL)算法的一个流行的基准任务。Atari很好地平衡了简单性和复杂性:一些游戏(如Pong)是如此简单,以至于它们可以通过基本算法(如一般策略梯度)来解决,而其他游戏则足够复杂以至于可以击败甚至最先进的算法。

    在最简单和最复杂的游戏之间的一系列有用的任务已经成为许多深入加强学习研究论文的核心。

    来自OpenAI博客。

    前者“未解决”的阿塔里游戏,蒙提祖马的复仇,最近已经解决了一个算法(在某种程度上),可以在得分上超过人类表现。研究人员可以鼓励代理人在1级探索不同的房间,这是赢得游戏积分的好方法。

    通过好奇心探索

    人类在玩冒险游戏时有一种内在的探索欲望,比如蒙提祖玛的复仇。游戏设计者构建这样的游戏来鼓励这种行为,通常需要玩家在继续游戏之前进行探索。这就是为什么冒险游戏很有趣。(问任何喜欢玩天空游戏的人。)

    像Montezuma的《复仇》或《天空》这样的冒险游戏充分利用了玩家探索的自然欲望,使得探索成为游戏任务的关键部分。

    深度强化学习算法执行“探索”的典型方法是通过随机策略:从神经网络提供的动作似然分布中随机采样动作。因此,特别是在早期阶段(当策略没有时间收敛时),它是随机行动的明显选择。

    这种方法在某些情况下是有效的。例如,Pong的解决方案是随机旋转桨并观察结果。幸运的是,球偏转可以启动优化。

    在像蒙特祖马的复仇游戏中,这种方法是不可行的。想象一下,从游戏的开始,化身随机地左右移动,随机地跳跃。结果,化身掉进熔岩中或直接进入敌人而没有获得点数。没有积分或奖励,算法无法得到优化的信号。

    那你会随便甩一甩吗?祝你好运。

    好奇

    重点放在寻找更好的探索方法上。基于好奇心的探索可以看作是激发人类玩家好奇心的一种尝试。

    但是,我们如何创建一个好奇的代理呢?

    有很多方法可以实现这个想法。其中之一,甚至使用下一个状态预测,由于其简单性和可伸缩性而很有趣。

    其基本思想是同时培养独立的预测模型和策略模型。预测模型输入所观测到的当前状态和所选择的动作,并对下一次观测进行预测。

    为了探索足够的轨迹,我们假设损失很小(因为我们通过监督学习不断开发预测模型);对于探索不足的轨迹,我们假设损失很大。

    那么,我们能做的就是创建一个新的奖励函数(称为“内在奖励”),它提供与预测模型的损失成比例的奖励。因此,当探索新的轨迹时,代理接收到强烈的奖励信号。

    (a)一级学习探索(b)二级快速探索

    使用马里奥模拟器任务(来源)中的下一个预测,学习探索从第一级的好奇心转移到第二级的快速探索。

    这项技术在超级马里奥模拟器中产生了一些令人鼓舞的结果。

    拖延症代理人:电视问题

    这项技术并不完美。一个已知的问题是代理被环境中的随机或噪声元素所吸引。这种时钟情况有时被称为“白噪声”问题或“电视问题”;也称为“拖延”。

    为了证明这种效果,设想一个代理人通过观察他所看到的像素来学习在迷宫中导航。

    下一状态预测引起代理人学习成功导航迷宫的好奇心。

    代理人很好地完成了任务;他开始寻找迷宫中未被探索的部分,因为他有能力在探险丰富的地区做出好的预测(或者换句话说,他不能在未开发地区做出好的预测)。

    现在在迷宫的墙上放一个“电视”,快速连续地显示随机选择的图像。由于图像的随机来源,代理不能准确预测接下来会出现什么图像。该预测模型将产生高损耗,从而为代理商提供高“内在”回报。最终的结果是,特工们倾向于停止看电视,而不是继续探索迷宫。

    在环境(源)中,当代理人面对电视或随机噪声源时,下一个状态预测引起代理人的好奇心,最终导致“拖延”。

    为了避免延误,采用随机网络蒸馏。

    OpenAI的一些优秀人员最近发表了一篇论文,提出了噪声电视问题的解决方案,探讨了随机网络蒸馏(RND)。

    这里的新思想是将类似的技术应用到下一个状态预测方法,但是消除对先前状态的依赖。

    下一状态预测相对于RND(源)的概述。

    RND并不预测下一个状态,而是观察下一个状态并试图预测下一个状态。这是一个非常微不足道的预测,不是吗?

    RND随机网络的目的是采用这种小的预测任务,并将其转化为硬预测任务。

    使用随机网络

    这是一个聪明但违反直觉的解决方案。

    其思想是我们使用随机初始化神经网络将观测值映射到潜在的观测向量。函数本身的输出并不重要;重要的是,我们有一些未知的确定性函数(随机初始化的神经网络),以某种方式转换观测值。

    因此,我们的预测模型的任务不是预测下一个状态,而是预测给定观测状态的未知随机模型的输出。我们训练该模型使用随机网络输出标签。

    当代理处于熟悉的状态时,预测模型应该能够很好地预测随机网络的期望输出。当智能体对状态不熟悉时,预测模型会对随机网络的输出做出较差的预测。

    通过这种方式,我们可以定义一个内在的奖励函数,它再次与预测模型的损失成比例。

    内部报酬计算的概念概述。只使用下一个观察状态。

    这可以解释为“新奇性检测”方案,其中当进行新的观测或不熟悉的观测时,预测模型具有较高的计算损失。

    作者使用MNIST作为这个概念的证明。在本实验中,他们通过随机初始化神经网络提供MNIST样字符。然后,在给定的输入条件下,它们训练并行网络来预测随机网络的输入。如预期,当目标类的训练样本数量增加时,它们将看到目标类被并行网络丢失。

    数据2:MNIST上的新奇性检测:预测器网络模拟随机初始化的目标网络。训练数据包括不同比例的图像和目标类别与“0”类别。每个曲线都表示MSE测试显示的目标类的训练用例的数量(对数)。

    论文对MNIST概念进行了验证。

    这样,当代理看到随机噪声源时,它不会被卡住。它不需要试图预测屏幕上下一个不可预测的帧,只需要知道这些帧是如何通过随机网络转换的。

    探寻蒙太祖玛的复仇

    由于解决方法不佳,以往的状态预测的好奇机制并不能解决蒙台梭玛的复仇问题,但RND似乎已经克服了这些问题。

    好奇心驱使的代理人探索房间,学习收集钥匙,这样他们就可以打开新房间。

    尽管取得了这样的成功,但是代理仅“偶尔”通过了一级。这是因为通过最后一道门来完成检查点,需要严格管理密钥的使用。需要内部状态模型(如LSTM)来克服这一障碍。

    因此,虽然RND已经允许代理人在得分上超过一般人的表现,但是在掌握游戏之前还有很长的路要走。

    这是关于深度强化学习算法的实验的一系列文章的一部分。查看本系列以前的一些帖子:

    理解演进的战略梯度。

    感谢卢多维奇·本尼斯坦特。

    要继续查看本文的链接和参考资料吗?

    长时间点击链接打开或点击底部[好奇心在深度强化学习]:

    Http://ai.yanxishe.com/page/Text./1363

    AI协会每天更新精彩内容,观看更多精彩内容:雷锋网、雷锋网和雷锋网。

    五大CNN架构

    深度强化学习中的好奇心

    使用Pytorch进行深度学习(第一部分)手柄:使用PyTorch实现图像分类器(第二部分)

    等待您翻译:

    如何为初学者聚类混沌数据以使用Keras进行迁移学习增强学习:对于情绪行为系统,如果你想学习数据科学,这七个资源不能错过

当前文章:http://www.lessines.net/s1mx/994111-1147907-43867.html

发布时间:09:04:12

广州设计公司  喜中网  特码神偷大特围  二四天天正版好彩免费资246  二四天天正版好彩免费资246  喜中网  二四天天正版好彩免费资246  二四天天正版好彩免费资246  246好彩天天免费资枓大全  二四天天正版好彩免费资246  二四天天正版好彩免费资246  

{相关文章}

如何成为美国总统的乙方

    在社交媒体上,我们看到太多的关于甲方的土曹,甲方的挑剔、多变、烦恼和苛刻,让乙方去吧。然而,有一家公司可以为几位美国总统服务几百年。这应该是世界上最困难的党。他们是怎么做到的?

    从95%不需要品味的人开始

    1903年,在离开爱迪生照明和凯迪拉克的前任后,亨利福特创建了自己的福特。在他的自传中,老福特承认他认为世界上95%的人根本说不出他们想要什么。他们想要一辆能跑得更快的车。

    所以老福特选择了生产T型车并销售它们。T型车的特点是简单易用。工人们站在齐腰高咸宁市教育局_优优资讯网的工作台旁,不用脑子装零件。他们到处卖。未来几年,该公司的资金将增长30%,而未来几年,将需要采取措施探索悬崖类型。

  &上海分类信息_阜阳职业技术学校网nbsp; 然而,无论价格高低,市场都认可这个账户,并以这种方式出售。那辆车卖了1500万辆。那是1922。

    (图解,福特汽车厂,T型)

    对于那些有自己抱负的人来说,福特的老定义是一个高规格的小众市场:这些人可以准确地说出他们想要什么,他们想要什么样的车,这很难满足。是的,腾讯说说_授权委托人网所以老福特选择不满意,就袖手旁观,给忙碌的T型车加油(福特当时裁掉了A、B、K、R等车型,专心生产T型车)。

  &林少宫_陈翰章头颅网nbsp; 亨利福特:如果我问顾客他们想要什么,他们会告诉我,“一匹更快的马”。

    福特家族的品味觉醒

    老福特很简单:不上市,不借贷,不玩概念,全心全意创造好产品。为了工作,他可以在白天冲进工厂,晚上思考技术。用他的话说,下班后不想工作的人注定要失败。当然,这与今天另一个技术狂热者尤其相似,中国企业家也有一场斗争。

    但是,他的一家公司这样做是可以的,但是向老福特学习,对整个社会来说都是麻烦的。社会产品增加了,但它们都是一样的。在供给和消费两端都有工业化的趋势。在短暂的甜蜜之后,人们发现社会变得越来越僵化。怎么了?于是学者和媒体纷纷回来反思。显然,当时人们找不到“供方改革”这样的良方,但他们也学会了开枪,开始攻击“福特主义”。

    事实上,外部世界没有必要去思考痛苦。第一个注意到这一点的人是艾德塞尔福特,老福特的儿子。对于汽车来说,小福特是一个非常有品位的人。我父亲制造了最受欢迎的汽车。我想创作一部永垂不朽的经典作品。那一年,福特汽车公司收购了林肯汽车。汽车巨人的味道觉醒了。

    (埃德塞尔布莱恩特福特)

    不得不说,岳父与他在农场出生的父亲大不相同。在埃德塞尔福特的领导下,林肯先后引进了K模型、泽菲尔模型、欧陆模型等。他们不仅正确地为关键的社会精英服务,而且他们甚至可以说发挥了非凡的作用,引领了一段时间的趋势。

    能够忍受“品味”这个词,小业主也有很多事情要做。林肯汽车经常与明星共享同一车架,与珠宝品牌合作。拥有林肯专属汽车座位的名人包括玛丽莲梦露、伊丽莎白泰勒、猫王普雷斯利、休伯德吉万西等等。如果放在今天,应该说是一个新的、排名靠前的、共同签署的全面实力鲜肉学校。

    (林肯为玛丽莲梦露设计的粉红色卡普里敞篷车)

    埃德塞尔法尔肯终于证明了他的品味。经过一系列的“上市”和拥挤到车库的名人,品牌最终进入了贵宾位置在白宫地下车库。1939年,它为富兰克林罗斯福(Franklin Roosevelt)建造了一辆总统阳光专用车,后来成为杜鲁门总统的专用车。直到1950年它才正式退休。这是美国总统任期最长的驾车者之一。

    (“让忙碌的总裁享受片刻的阳光”是设计师的初衷)

    英国王室也爱林肯。1939年4月,林肯K敞篷车成为皇室成员访问加拿大的皇家轿车。它带领皇家护航队巡航加拿大一个月。后来,这辆车被选中参加三次皇家巡航。

    (Royal Lincoln)

    从那时起,林肯一直在驾驶美国总统,包括美国第35任总统约翰肯尼迪在林肯大陆。也许有些人不太理解“总统驾车”的特殊含义,尤其是肯尼迪驾车。肯尼迪家族是美国一个由来已久的政治家族。在肯尼迪总统任期内,白宫进行了历史性的翻修。第一夫人杰奎琳肯尼迪邀请国家美术馆馆长大卫芬利和法国著名设计师达芙妮布丹主持白宫的翻新。

 &学跳舞教程_幸福在哪里作文网nbsp;  (白宫宴会厅被翻新,压抑的深绿色被抛弃。)你能看出这里有三种不同的白色吗?

    世界各地博物馆的名画、厚重的木制家具和壁画中的经典故事,都使修复后的白宫恢复了历史之美。介绍白宫风味的电视节目在当时赢得了数百万观众,《白宫官方指南》在短时间内卖出了数百万美元。无数的政要及普通民众涌入白宫,观看总统官邸的味道。白宫就是我们现在看到的。在肯尼迪时代,白宫是政治中心,是美国人品味的基准。当然,这一时期的总统驾车也具有特殊的美学意义。

    林肯与白宫的关系最早出现于二十世纪二十年代。1921年,哈定总统成为第一位坐汽车参加重要活动的美国总统。在那之前,哈定总统经常和亨利福特和爱迪生一起开车去露营,他们的车是专门为郊游设计的林肯车。

    几十年来,总统驾车的品味随着时代而改变。例如,当乔治W布什年老时,他的总统车是黑色的林肯,内饰豪华,外表大方。他希望能够保护自己免受核弹袭击。随着时间的流逝和技术的升级,总统的豪华车型已经延伸到新的林肯飞行员。3.5升V6双涡轮增压发动机,10速自动变速器,5米3长,2米3宽,近2米高,最大空间性能在同一水平,既优雅又强大。

    (林肯新飞行员)

    巧合的是,罗斯福家族、肯尼迪家族和布什家族都选择了林肯。林肯不仅跃居豪华车品牌之首,而且销量也达到了一百多万辆。

    你可能会问,哪小部分的“追求者”能推动这么大的销售?事实上,历史的车轮在不断前进,经济发展催生了大量新的休闲课程。他们是企业主、律师、医生、知识分子……也就是说,一个主要通过出售智慧来获得社会地位、有时间思考和安排自己生活的群体。

    直到现在,他们仍然是林肯的主要客户。我参观了林肯当地的销售中心。林肯的客户除了律师、媒体人、电台主持人大学生的责任_爱德万网、金融从业人员和商业主管之外,还扩展到其他追求品味的知识分子。到目前为止,这些人的社会比例已经远远超过了老福特。

    为什么这群人要仔细选择,仔细考虑,甚至似乎有一个独特的方式来购买林肯?

    忠于你内心的呼唤

    这是一个有趣的现象,人们普遍认为有味道的人认为味道实际上与物质无关。

    《时尚》杂志的传奇总编辑埃德娜W蔡斯说:“时尚可以买到,但品味必须自足。”有些人还问同陈一品副总裁唐自佳,“什么是品味”。他说他认为品味是“韧性和毅力”。例如,在飞往拉斯维加斯车展的航班上,《老虎气味》的90后编辑像其他同龄人“大人物”一样,制作了莱卡M10,同时不同年龄和背景的人们聊起了摄影的趣味。

    物质确实是身份的障碍。一辆好车、一块手表和一双鞋能很快显示你的身份。然而,问题的核心不在于对方承认你富有,而在于你和他属于同一类,具有相似的智力水平、价值体系和经验。

    这就是品味的真正魅力:你的品味可以把你从这个世界的复杂性和无聊中拉出来。品味不仅能帮助你区分别人,而且能很快被同类所认可。

    在大多数情况下,我们购买(或更换)汽车有两个主要动机:

    第一是外部因素迫使他们购买,例如生孩子(第二个孩子)、结婚、带老人一起生活、需要在道路条件差的地方工作、或者搬家、换到远处的工作单位等。

    在这种情况下,大多数购买的汽车都是功能第一,甚至希望在相同的预算下购买尽可能多的功能模型。(例如,过去当他们开始坐轿子时,他们的孩子想用同样的预算买一辆MPV。)因此,这种外部因素导致购买或更换车辆,经常是更换工具,这也是一种非常常见的购车因素,占了中国市场的大部分需求。

    二是内部原因,最普遍的是社会阶层的拥有者得到了提升,需要买车来匹配自己的新身份。

    此时,买车将不再贪婪于什么配置或成本效益,吸引力的核心是“当驾驶这辆车时,别人会怎么看我?”现在,买车不再痴迷于工具,而是专注于自己买一张四轮名片。

    这一刻你沉浸在你的品味中,你的品味将成为你的目的地。

    那么,你想要一张“总统”卡吗?如果你是一个幸运的人,最终的经验可以在美国豪华全尺寸SUV,如新的林肯导航仪。

    当Lincoln Star Welcome的毯子点亮,环境光从外到内引导时,您将自己困在Weir Depsoft的30路可调式桥式皮座中,可以与一等舱相媲美,感受正确的通风和按摩通道。无论外面的世界多么嘈杂,NVC降噪都会把他们挡在外面。引擎的轰鸣声从深井里隐约传来。你所要做的就是尽情享受狂欢.<终极.@里维的顶级音响系统的“高音调,低音,中音甜美”的20个扬声器。声音可以来自你自己的无线充电手机,或者多达10个智能设备,由一个4千兆位Wifi连接在汽车上。

    在同一级别的全尺寸SUV中,最佳的空间性能意味着宽挡风玻璃和夸张的视野。DLP数字光学处理技术已经在电影院得到应用,在HUD平视显示器中得到应用,这样你就可以在不低头的情况下获得更多的信息。所有这些意味着当你进入一个全新的林肯飞行员,它成为整个街道的焦点。因为好奇和敬畏,人们会同时在你的一体机尾灯后面犹豫不决。

    嗯,这就是我想告诉你的关于“最受欢迎”到“最受欢迎”的故事。

    那么,现在你告诉我,什么是味道?

    这句话似乎就是答案:罗曼罗兰说过,世界上只有一种真正的英雄主义,那就是,在知道真相之后热爱世界。味道是一样的。这是你在环游世界之后选择向她展示的东西。

用手机访问
下载APP
appicon 下载
扫一扫,手机浏览
code
休闲娱乐
综合热点资讯
单机游戏下载
http://4xx9.com/articlelist-395.htmlhttp://4xx9.com/articlelist-384.htmlhttp://4xx9.com/articlelist-392.htmlhttp://4xx9.com/articlelist-350.htmlhttp://4xx9.com/articlelist-421.htmlhttp://4xx9.com/articlelist-370.htmlhttp://4xx9.com/articlelist-373.htmlhttp://4xx9.com/articlelist-372.htmlhttp://4xx9.com/articlelist-356.htmlhttp://4xx9.com/articlelist-352.htmlhttp://4xx9.com/articlelist-413.htmlhttp://4xx9.com/articlelist-365.htmlhttp://www.4xx9.com/articlelist-424.htmlhttp://www.4xx9.com/articlelist-383.htmlhttp://www.4xx9.com/articlelist-342.htmlhttp://www.4xx9.com/articlelist-371.htmlhttp://www.4xx9.com/articlelist-367.htmlhttp://www.4xx9.com/articlelist-353.htmlhttp://www.4xx9.com/articlelist-436.htmlhttp://www.4xx9.com/articlelist-428.htmlhttp://www.4xx9.com/articlelist-425.htmlhttps://www.4xx9.com/articlelist-422.htmlhttps://www.4xx9.com/articlelist-395.htmlhttps://www.4xx9.com/articlelist-384.htmlhttps://www.4xx9.com/articlelist-377.htmlhttps://www.4xx9.com/articlelist-392.htmlhttps://www.4xx9.com/articlelist-342.htmlhttps://www.4xx9.com/articlelist-371.htmlhttps://www.4xx9.com/articlelist-394.htmlhttps://www.4xx9.com/articlelist-421.htmlhttps://www.4xx9.com/articlelist-351.htmlhttps://www.4xx9.com/articlelist-345.htmlhttps://www.4xx9.com/articlelist-333.htmlhttps://www.4xx9.com/articlelist-442.htmlhttps://www.4xx9.com/articlelist-438.htmlhttps://www.4xx9.com/articlelist-435.htmlhttps://www.4xx9.com/articlelist-433.htmlhttps://4xx9.com/articlelist-422.htmlhttps://4xx9.com/articlelist-408.htmlhttps://4xx9.com/articlelist-382.htmlhttps://4xx9.com/articlelist-341.htmlhttps://4xx9.com/articlelist-333.htmlhttps://4xx9.com/articlelist-439.htmlhttps://4xx9.com/articlelist-438.htmlhttps://4xx9.com/articlelist-428.htmlhttps://4xx9.com/articlelist-399.htmlhttp://4xx9.com/articlelist-392.htmlhttps://www.4xx9.com/articlelist-392.htmlhttps://www.4xx9.com/articlelist-435.htmlhttps://4xx9.com/articlelist-422.html
精彩专栏
游民星空联运游戏
http://4xx9.com/articlelist-395.htmlhttp://4xx9.com/articlelist-384.htmlhttp://4xx9.com/articlelist-392.htmlhttp://4xx9.com/articlelist-350.htmlhttp://4xx9.com/articlelist-421.htmlhttp://4xx9.com/articlelist-370.htmlhttp://4xx9.com/articlelist-373.htmlhttp://4xx9.com/articlelist-372.htmlhttp://4xx9.com/articlelist-356.htmlhttp://4xx9.com/articlelist-352.htmlhttp://4xx9.com/articlelist-413.htmlhttp://4xx9.com/articlelist-365.htmlhttp://www.4xx9.com/articlelist-424.htmlhttp://www.4xx9.com/articlelist-383.htmlhttp://www.4xx9.com/articlelist-342.htmlhttp://www.4xx9.com/articlelist-371.htmlhttp://www.4xx9.com/articlelist-367.htmlhttp://www.4xx9.com/articlelist-353.htmlhttp://www.4xx9.com/articlelist-436.htmlhttp://www.4xx9.com/articlelist-428.htmlhttp://www.4xx9.com/articlelist-425.htmlhttps://www.4xx9.com/articlelist-422.htmlhttps://www.4xx9.com/articlelist-395.htmlhttps://www.4xx9.com/articlelist-384.htmlhttps://www.4xx9.com/articlelist-377.htmlhttps://www.4xx9.com/articlelist-392.htmlhttps://www.4xx9.com/articlelist-342.htmlhttps://www.4xx9.com/articlelist-371.htmlhttps://www.4xx9.com/articlelist-394.htmlhttps://www.4xx9.com/articlelist-421.htmlhttps://www.4xx9.com/articlelist-351.htmlhttps://www.4xx9.com/articlelist-345.htmlhttps://www.4xx9.com/articlelist-333.htmlhttps://www.4xx9.com/articlelist-442.htmlhttps://www.4xx9.com/articlelist-438.htmlhttps://www.4xx9.com/articlelist-435.htmlhttps://www.4xx9.com/articlelist-433.htmlhttps://4xx9.com/articlelist-422.htmlhttps://4xx9.com/articlelist-408.htmlhttps://4xx9.com/articlelist-382.htmlhttps://4xx9.com/articlelist-341.htmlhttps://4xx9.com/articlelist-333.htmlhttps://4xx9.com/articlelist-439.htmlhttps://4xx9.com/articlelist-438.htmlhttps://4xx9.com/articlelist-428.htmlhttps://4xx9.com/articlelist-399.htmlhttp://4xx9.com/articlelist-392.htmlhttps://www.4xx9.com/articlelist-392.htmlhttps://www.4xx9.com/articlelist-435.htmlhttps://4xx9.com/articlelist-422.html