RL6 时序差分方法 朴素TD 相较于蒙特卡洛采样一整个episode后才对策略进行更新,时序差分每执行一步即可更新值函数 朴素的时序差分方法:依靠数据而非模型,遵循给定policy的计算特定状态的状态价值 vt+1(st)=vt(st)−αt(st)[vt(st)−(rt+1+γvt(st+1))],vt+1(s)=vt(s),for all s≠st,\begin{align} v_{t+1}(s_t) &am 2025-03-04
RL5 随机近似与随机梯度下降 回顾 在MC 算法中最重要的就是利用Mean Estimation 对 q(s,a)q(s,a)q(s,a) 进行估计。 其本质上是一个利用独立且同分布(i.i.d.){xi}i=1n\{x_i\}_{i=1}^{n}{xi}i=1n的sample来对随机变量X\mathcal{X}X 的期望估计 E(X)≈xˉ=1n∑i=1nxiE(\mathcal{X}) \approx \bar{x} 2025-02-13 #Reinforcement learning
RL4 从Model based 到 Model free的MC算法 回顾 上一讲中BOE解法实际上被称为值迭代算法(Value iteration algorithm) 值迭代算法(Value iteration algorithm) 该算法实际上就是两步: 第一步 Policy update: πk+1(a∣s)={1当 a=ak∗(s)0当 a≠ak∗(s)\pi_{k+1}(a|s) = \begin{cases} 1 & \text{当 } 2025-02-12 #Reinforcement learning
RL3 贝尔曼最优公式 回顾 已知策略,我们可以通过上一节提到的贝尔曼公式计算出状态价值和行动价值。 然而实际上我们想要的是最优的策略,下面就仔细讲讲如何得到最优策略 最优策略 最优策略定义:使得每个状态的状态价值最高的策略 π∗=argmaxπVπ(s),∀s∈S\pi^* = \arg\max_{\pi} V_\pi(s), \quad \forall s \in \mathcal{S} π∗=argπmaxV 2025-02-12 #Reinforcement learning
RL2 贝尔曼公式 回顾 折扣回报公式: Gt=Rt+1+γRt+2+γ2Rt+3+⋯=∑k=0∞γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} Gt=Rt+1+γRt+2+γ2Rt+3+⋯=k=0∑∞γkRt+k+1 可以帮助我们们衡量一 2025-02-12 #Reinforcement learning
RL1 MDP 基础概念 State: agent代理与环境交互时的状态 state space:S={si}i=1nS=\{s_{i}\}_{i=1}^nS={si}i=1n 即所有状态组成的集合 Action:aia_{i}ai 给定一个状态下所能采取的行动 Action space of a state:A(si)={aj}j=1mA(s_i) = \{a_j\}_{j=1}^mA(si 2025-02-12 #Reinforcement learning
Build nanoGPT [Code] of the project GPT-2架构 本次我们复现的是其124M结构模型[1][3] (openai 采用out_head和token_emb层共享参数) 123456789GPT_CONFIG_124M = { "vocab_size": 50257, # Vocabulary size &quo 2025-02-05 My Project #LLM
服务器环境搭建 远程桌面 由于种种原因,需要借助服务器的GPU,但同时也需要GUI界面。在此记录一下配置Ubuntu22.04服务器远程桌面的详细过程,避免后人踩坑。 服务器端 本人采用TigerVnc,按需也可以使用 Todesk(目前版本对终端用户不友好) 首先,检查服务器是否下载常见的图形化桌面。 1dpkg -l | grep -E "gnome|kde|xfce|mate|cinnamon|l 2025-01-10 环境配置 #server environment
Parallel Processing Baseline 矩阵乘法朴素实现 1234567for(int i = 0;i < M; i++){ for(int j = 0;j < N; j++){ for(int k = 0;k < K; k++){ C[i][j] = A[i][k] * B[k][j]; } 2024-12-29 #Efficient AI
Diffusion models DDPM Brief Intro 从VAE的角度来看,VAE中只有一层隐变量,而DDPM将x0x_0x0视为data point, 而x1:Tx_{1:T}x1:T整体作为隐变量,是一种Hierarchical VAEs Assumptions 遵循马可夫链 前向predefined: q(x0:T)=q(x0)∏t=T1q(xt∣xt−1)q(x_{0:T}) = q(x_0)\pro 2024-12-07 Generative models #Deep Learning #VAE