Hirox's Blog
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
SDE and ODE

SDE and ODE

SDE 在连续的时间域中, 扩散模型的 前向过程 可以通过 随机微分方程(stochastic differential equation) 来描述: dx(t)=f(t)x(t)dt+g(t)dw\begin{equation} dx(t) = f(t)x(t)dt + g(t)dw \end{equation} dx(t)=f(t)x(t)dt+g(t)dw​​ f(t)f(t)f(t)
2025-05-19
Inverse Problems

Inverse Problems

ReCall Gaussians and Score Function 已知 p(z)=N(0,I)p(z) = N(0, I)p(z)=N(0,I) , x=u+Σ12zx = u + \Sigma ^{\frac{1}{2}}zx=u+Σ21​z 则 p(x)=N(u,Σ)p(x) = N(u, \Sigma)p(x)=N(u,Σ) , p(x)=1(2π)d/2∣Σ∣1/2e−12(x−u)
2025-05-16
RL9 Actor-critic算法

RL9 Actor-critic算法

回顾 Actor-critic算法本质上就是policy gradient算法的一种 θt+1=θt+αtqπ(st,at)π(at∣st,θt)∇θ(π(at∣st,θt))\theta_{t+1} = \theta_{t} + \alpha_t \frac{\color{blue}q_{\pi}(s_t, a_t)}{\pi(a_t|s_t, \theta_t)}\nabla_{\theta
2025-04-27
RL8 策略梯度

RL8 策略梯度

回顾 在这之前的方法,都是based on value,通过优化q(s,a)q(s,a)q(s,a), 来进一步得到最优策略。我们能不能用神经网络直接对策略进行拟合并优化呢? Metircs 回顾最优策略的定义 vπ∗(s)≥vπ(s) ∀πv_{\pi^{*}}(s) \ge v_{\pi}(s) \space {\forall \pi} vπ∗​(s)≥vπ​(s) ∀π 一个自然而然想要最大
2025-04-27
RL7 值函数近似

RL7 值函数近似

值函数近似概念 当状态SSS空间大或者是连续而非离散时,直接存储一个离散全量的值函数表 v(s)v(s)v(s) 或 q(s,a)q(s,a)q(s,a) 是不可行的,需要学习 一个可近似值函数的变量模型,进而用函数估计这些值。 一般将值函数近似表示为: v^(s,θ)∼vπ(s)\hat{v}(s,\theta) \sim v_{\pi}(s) v^(s,θ)∼vπ​(s) 其中: θ\the
2025-04-27
RL6 时序差分方法

RL6 时序差分方法

朴素TD 相较于蒙特卡洛采样一整个episode后才对策略进行更新,时序差分每执行一步即可更新值函数 朴素的时序差分方法:依靠数据而非模型,遵循给定policy的计算特定状态的状态价值 vt+1(st)=vt(st)−αt(st)[vt(st)−(rt+1+γvt(st+1))],vt+1(s)=vt(s),for all s≠st,\begin{align} v_{t+1}(s_t) &am
2025-03-04
RL5 随机近似与随机梯度下降

RL5 随机近似与随机梯度下降

回顾 在MC 算法中最重要的就是利用Mean Estimation 对 q(s,a)q(s,a)q(s,a) 进行估计。 其本质上是一个利用独立且同分布(i.i.d.){xi}i=1n\{x_i\}_{i=1}^{n}{xi​}i=1n​的sample来对随机变量X\mathcal{X}X 的期望估计 E(X)≈xˉ=1n∑i=1nxiE(\mathcal{X}) \approx \bar{x}
2025-02-13
#Reinforcement learning
RL4 策略迭代算法和MC算法

RL4 策略迭代算法和MC算法

回顾 上一讲中BOE解法实际上被称为值迭代算法(Value iteration algorithm) 值迭代算法(Value iteration algorithm) 该算法实际上就是两步: 第一步 Policy update: πk+1(a∣s)={1当 a=ak∗(s)0当 a≠ak∗(s)\pi_{k+1}(a|s) = \begin{cases} 1 & \text{当 }
2025-02-12
#Reinforcement learning
RL3 贝尔曼最优公式

RL3 贝尔曼最优公式

回顾 已知策略,我们可以通过上一节提到的贝尔曼公式计算出状态价值和行动价值。 然而实际上我们想要的是最优的策略,下面就仔细讲讲如何得到最优策略 最优策略 最优策略定义:使得每个状态的状态价值最高的策略 π∗=arg⁡max⁡πVπ(s),∀s∈S\pi^* = \arg\max_{\pi} V_\pi(s), \quad \forall s \in \mathcal{S} π∗=argπmax​V
2025-02-12
#Reinforcement learning
RL2 贝尔曼公式

RL2 贝尔曼公式

回顾 折扣回报公式: Gt=Rt+1+γRt+2+γ2Rt+3+⋯=∑k=0∞γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} Gt​=Rt+1​+γRt+2​+γ2Rt+3​+⋯=k=0∑∞​γkRt+k+1​ 可以帮助我们们衡量一
2025-02-12
#Reinforcement learning
123

搜索

Hexo Fluid