Leetcode

图论带权并查集两点是否联通，联通图上两点的路径无向图判环 399. 除法求值：给定若干等式 Ai / Bi = values[i]，每个 Ai 和 Bi 是字符串变量。还有一些查询 Cj / Dj，请根据已知等式计算每个查询的结果。返回每个查询的结果，若无法确定某个结果，则返回 -1.0。所有输入有效，除数不会为 0；未出现在等式中的变量视为未定义，查询结果为 -1.0。

2025-07-01

SDE and ODE

SDE 在连续的时间域中, 扩散模型的前向过程可以通过随机微分方程(stochastic differential equation) 来描述： dx(t)=f(t)x(t)dt+g(t)dw\begin{equation} dx(t) = f(t)x(t)dt + g(t)dw \end{equation} dx(t)=f(t)x(t)dt+g(t)dw f(t)f(t)f(t)

2025-05-19

Inverse Problems

Inverse Problems

ReCall Gaussians and Score Function 已知 p(z)=N(0,I)p(z) = N(0, I)p(z)=N(0,I) , x=u+Σ12zx = u + \Sigma ^{\frac{1}{2}}zx=u+Σ21z 则 p(x)=N(u,Σ)p(x) = N(u, \Sigma)p(x)=N(u,Σ) , p(x)=1(2π)d/2∣Σ∣1/2e−12(x−u)

2025-05-16

RL9 Actor-critic算法

RL9 Actor-critic算法

回顾 Actor-critic算法本质上就是policy gradient算法的一种 θt+1=θt+αtqπ(st,at)π(at∣st,θt)∇θ(π(at∣st,θt))\theta_{t+1} = \theta_{t} + \alpha_t \frac{\color{blue}q_{\pi}(s_t, a_t)}{\pi(a_t|s_t, \theta_t)}\nabla_{\theta

2025-04-27

RL8 策略梯度

回顾在这之前的方法，都是based on value，通过优化q(s,a)q(s,a)q(s,a)，来进一步得到最优策略。我们能不能用神经网络直接对策略进行拟合并优化呢？ Metircs 回顾最优策略的定义 vπ∗(s)≥vπ(s) ∀πv_{\pi^{*}}(s) \ge v_{\pi}(s) \space {\forall \pi} vπ∗(s)≥vπ(s) ∀π 一个自然而然想要最大

2025-04-27

RL7 值函数近似

值函数近似概念当状态SSS空间大或者是连续而非离散时，直接存储一个离散全量的值函数表 v(s)v(s)v(s) 或 q(s,a)q(s,a)q(s,a) 是不可行的，需要学习一个可近似值函数的变量模型，进而用函数估计这些值。一般将值函数近似表示为: v^(s,θ)∼vπ(s)\hat{v}(s,\theta) \sim v_{\pi}(s) v^(s,θ)∼vπ(s) 其中： θ\the

2025-04-27

RL6 时序差分方法

朴素TD 相较于蒙特卡洛采样一整个episode后才对策略进行更新，时序差分每执行一步即可更新值函数朴素的时序差分方法：依靠数据而非模型，遵循给定policy的计算特定状态的状态价值 vt+1(st)=vt(st)−αt(st)[vt(st)−(rt+1+γvt(st+1))],vt+1(s)=vt(s),for all s≠st,\begin{align} v_{t+1}(s_t) &am

2025-03-04

RL5 随机近似与随机梯度下降

RL5 随机近似与随机梯度下降

回顾在MC 算法中最重要的就是利用Mean Estimation 对 q(s,a)q(s,a)q(s,a) 进行估计。其本质上是一个利用独立且同分布（i.i.d.）{xi}i=1n\{x_i\}_{i=1}^{n}{xi}i=1n的sample来对随机变量X\mathcal{X}X 的期望估计 E(X)≈xˉ=1n∑i=1nxiE(\mathcal{X}) \approx \bar{x}

2025-02-13

#Reinforcement learning

RL4 策略迭代算法和MC算法

RL4 策略迭代算法和MC算法

回顾上一讲中BOE解法实际上被称为值迭代算法（Value iteration algorithm）值迭代算法（Value iteration algorithm）该算法实际上就是两步：第一步 Policy update： πk+1(a∣s)={1当 a=ak∗(s)0当 a≠ak∗(s)\pi_{k+1}(a|s) = \begin{cases} 1 & \text{当 }

2025-02-12

#Reinforcement learning

RL3 贝尔曼最优公式

回顾已知策略，我们可以通过上一节提到的贝尔曼公式计算出状态价值和行动价值。然而实际上我们想要的是最优的策略，下面就仔细讲讲如何得到最优策略最优策略最优策略定义:使得每个状态的状态价值最高的策略 π∗=arg⁡max⁡πVπ(s),∀s∈S\pi^* = \arg\max_{\pi} V_\pi(s), \quad \forall s \in \mathcal{S} π∗=argπmaxV

2025-02-12

#Reinforcement learning