如题目>▽<
概率论小知识
随机变量,X记为随机变量,x记为已被观测的变量
概率密度函数(PDF)
随机变量在某个确定的取值点附近的可能性
例:高斯(正态)分布
期望
对于连续分布:p(x)
为概率密度函数,f(x)
的期望为E[f(x)]
对于离散分布:
专业术语(Terminology)
state(状态) and action(动作)
Agent:动作由谁做谁就是Agent,可以理解为智能体
policy(策略)π函数
根据状态做出决策来控制Agent运动
π是一个概率密度函数π:(s,a)->[0,1]
:π(a|s) = P(A=a|S=s)
, 给定状态s做出动作a的概率密度
通过状态s,马里奥(agent)可以做出三种动作中的一种,把这张图片输入给π,会获得
- π(left|s) = 0.2
- π(right|s) = 0.1
- π(up|s) = 0.7
为什么要随机抽一种结果:如果策略确定就有规律可循了,就像剪刀石头布,出拳策略如果对方了解那么就不可能赢了
reward(奖励)
- 获得一个金币:R=+1
- 赢得游戏:R=+10000(设置大,以赢得游戏为主要目的)
- 游戏结束:R=-10000
- 无事发生:R=0
state transition(状态转移)
可以是确定的,也可以是随机的,通常认为状态不可控是随机的。这种随机性是从环境里来的。