当前位置: 首页 > news >正文

上海做网站开发的公司最近的新闻摘抄

上海做网站开发的公司,最近的新闻摘抄,免费做网站支持绑定,python基础教程电子书下载前言 SARAS,假设环境状态和动作状态都是离散的。利用动作价值矩阵来进行行为的预测。其主要就是利用时序差分的思想,对动作价值矩阵进行更新。 代码实现 import gymnasium as gym import numpy as npclass sarsa():def __init__(self, states_n, acti…

前言

SARAS,假设环境状态和动作状态都是离散的。利用动作价值矩阵来进行行为的预测。其主要就是利用时序差分的思想,对动作价值矩阵进行更新。

代码实现

import gymnasium as gym
import numpy as npclass sarsa():def __init__(self, states_n, action_n, greedy_e=0.1):self.Q = np.zeros((states_n, action_n)) #动作价值矩阵self.greedy_e = greedy_e #随机探索的概率self.states_n = states_n #环境状态个数self.action_n = action_n #行动状态个数self.gamma=0.9 #价值衰减值self.lr=0.1 #学习率def predict(self, states):action_list=self.Q[states]#先拿出对应的行#再取出对应价值最大的行为,如果有重复则在重复项中随机选取,返回索引action=np.random.choice(np.flatnonzero(action_list==action_list.max()))return actiondef act(self, states):'''由对应环境产生对应的行动@param states: 当前环境@return: 行动动作'''if np.random.uniform() < self.greedy_e:#是否采取随即探索action = np.random.choice(np.arange(self.action_n))#随机探索else:action = self.predict(states) # 根据行动价值矩阵进行预测return actiondef learning(self,state,action,reward,next_state,next_action,does):'''学习更新参数@param state: 环境状态@param action: 采取的行动@param reward: 回报@param next_state: 采取行动后的下一个环境状态@param next_action: 下一个环境状态对应的行为@param does: 游戏是否结束@return:'''current_q=self.Q[state,action] #取出对应的行动价值if does: #查看是否已经完成游戏,完成则直接将当前回报作为下一个行动价值next_q=rewardelse:# 计算当前回报和下一个环境状态和下一个行动对应的价值,加和next_q=reward+self.gamma*self.Q[next_state,next_action]self.Q[state,action]+=self.lr*(next_q-current_q) #时序差分,更新行动价值矩阵def train():env = gym.make("FrozenLake-v1", render_mode="human")#初始化游戏环境obs,info=env.reset()#重置位置agent=sarsa(env.observation_space.n,env.action_space.n)#初始化模型action = agent.act(obs)#预测行为num=0while True:num+=1# 由行为产生回报和下一个环境状态next_obs, reward, done, truncated, info = env.step(action)#预测下一个动作next_action=agent.act(obs)# 更新参数agent.learning(obs,action,reward,next_obs,next_action,done)obs=next_obsaction=next_action# 判断游戏是否结束或者中断,是则重置游戏if done or truncated:obs, info = env.reset()if num % 100 == 0 :env.close()if __name__ == '__main__':train()
http://www.ds6.com.cn/news/113527.html

相关文章:

  • 企业州建设银行网站百度指数人群画像
  • ppt之家模板免费下载seo个人博客
  • 济宁网站建设常用解决方案58同城黄页推广
  • 网站集约化建设工作打算seo关键词优化指南
  • 网站icp备案号是如何编制的如何做网站营销
  • 淘客商品网站怎么做的网络营销论坛
  • 做企业网站设计价格是多少钱广告推广营销网站
  • 临淄网站推广网页设计师
  • 龙口网站建设推广的几种方式
  • wordpress菜单栏不显示不出来关键词搜索排名优化
  • 云主机iss怎么做网站长春网站优化
  • 辽宁短视频搜索seo哪家实惠揭阳百度seo公司
  • 沈阳专业网站制作公司品牌营销理论有哪些
  • 怎么看一个网站是什么程序做的seo的优化方向
  • 站群管理电商代运营
  • 做网站设计需要什么技术免费私人网站建设
  • 现在asp做网站自媒体服务平台
  • 招聘网站入职分析表怎么做营销策略有哪几种
  • 网页设计与制作课程标准电子版在线网站seo诊断
  • 河北省建设执业资格注册中心网站淘宝网店的seo主要是什么
  • 自己做投票的网站无锡优化网站排名
  • 农家乐怎么做网站排名优化公司
  • wamp网站开发宣传广告怎么做吸引人
  • wordpress修改版权信息东莞网站制作十年乐云seo
  • 做视频网站要什么百度投放
  • 网站链接后面style.css v成都互联网公司排名
  • 基于asp.net网站开发视频教程推荐几个靠谱的网站
  • 做推广送网站免费建站有哪些免费推广软件
  • 求一个好用的网站长沙专业seo优化公司
  • 建设一个公司网站需要什么条件靠谱的代运营公司有哪些