SDE and ODE SDE 在连续的时间域中, 扩散模型的 前向过程 可以通过 随机微分方程(stochastic differential equation) 来描述: dx(t)=f(t)x(t)dt+g(t)dw\begin{equation} dx(t) = f(t)x(t)dt + g(t)dw \end{equation} dx(t)=f(t)x(t)dt+g(t)dw f(t)f(t)f(t) 2025-05-19
Inverse Problems ReCall Gaussians and Score Function 已知 p(z)=N(0,I)p(z) = N(0, I)p(z)=N(0,I) , x=u+Σ12zx = u + \Sigma ^{\frac{1}{2}}zx=u+Σ21z 则 p(x)=N(u,Σ)p(x) = N(u, \Sigma)p(x)=N(u,Σ) , p(x)=1(2π)d/2∣Σ∣1/2e−12(x−u) 2025-05-16
RL9 Actor-critic算法 回顾 Actor-critic算法本质上就是policy gradient算法的一种 θt+1=θt+αtqπ(st,at)π(at∣st,θt)∇θ(π(at∣st,θt))\theta_{t+1} = \theta_{t} + \alpha_t \frac{\color{blue}q_{\pi}(s_t, a_t)}{\pi(a_t|s_t, \theta_t)}\nabla_{\theta 2025-04-27
RL8 策略梯度 回顾 在这之前的方法,都是based on value,通过优化q(s,a)q(s,a)q(s,a), 来进一步得到最优策略。我们能不能用神经网络直接对策略进行拟合并优化呢? Metircs 回顾最优策略的定义 vπ∗(s)≥vπ(s) ∀πv_{\pi^{*}}(s) \ge v_{\pi}(s) \space {\forall \pi} vπ∗(s)≥vπ(s) ∀π 一个自然而然想要最大 2025-04-27
RL7 值函数近似 值函数近似概念 当状态SSS空间大或者是连续而非离散时,直接存储一个离散全量的值函数表 v(s)v(s)v(s) 或 q(s,a)q(s,a)q(s,a) 是不可行的,需要学习 一个可近似值函数的变量模型,进而用函数估计这些值。 一般将值函数近似表示为: v^(s,θ)∼vπ(s)\hat{v}(s,\theta) \sim v_{\pi}(s) v^(s,θ)∼vπ(s) 其中: θ\the 2025-04-27
RL6 时序差分方法 朴素TD 相较于蒙特卡洛采样一整个episode后才对策略进行更新,时序差分每执行一步即可更新值函数 朴素的时序差分方法:依靠数据而非模型,遵循给定policy的计算特定状态的状态价值 vt+1(st)=vt(st)−αt(st)[vt(st)−(rt+1+γvt(st+1))],vt+1(s)=vt(s),for all s≠st,\begin{align} v_{t+1}(s_t) &am 2025-03-04
RL5 随机近似与随机梯度下降 回顾 在MC 算法中最重要的就是利用Mean Estimation 对 q(s,a)q(s,a)q(s,a) 进行估计。 其本质上是一个利用独立且同分布(i.i.d.){xi}i=1n\{x_i\}_{i=1}^{n}{xi}i=1n的sample来对随机变量X\mathcal{X}X 的期望估计 E(X)≈xˉ=1n∑i=1nxiE(\mathcal{X}) \approx \bar{x} 2025-02-13 #Reinforcement learning
RL4 策略迭代算法和MC算法 回顾 上一讲中BOE解法实际上被称为值迭代算法(Value iteration algorithm) 值迭代算法(Value iteration algorithm) 该算法实际上就是两步: 第一步 Policy update: πk+1(a∣s)={1当 a=ak∗(s)0当 a≠ak∗(s)\pi_{k+1}(a|s) = \begin{cases} 1 & \text{当 } 2025-02-12 #Reinforcement learning
RL3 贝尔曼最优公式 回顾 已知策略,我们可以通过上一节提到的贝尔曼公式计算出状态价值和行动价值。 然而实际上我们想要的是最优的策略,下面就仔细讲讲如何得到最优策略 最优策略 最优策略定义:使得每个状态的状态价值最高的策略 π∗=argmaxπVπ(s),∀s∈S\pi^* = \arg\max_{\pi} V_\pi(s), \quad \forall s \in \mathcal{S} π∗=argπmaxV 2025-02-12 #Reinforcement learning
RL2 贝尔曼公式 回顾 折扣回报公式: Gt=Rt+1+γRt+2+γ2Rt+3+⋯=∑k=0∞γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} Gt=Rt+1+γRt+2+γ2Rt+3+⋯=k=0∑∞γkRt+k+1 可以帮助我们们衡量一 2025-02-12 #Reinforcement learning