RL2 贝尔曼公式

回顾折扣回报公式： Gt=Rt+1+γRt+2+γ2Rt+3+⋯=∑k=0∞γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} Gt=Rt+1+γRt+2+γ2Rt+3+⋯=k=0∑∞γkRt+k+1 可以帮助我们们衡量一

2025-02-12

#Reinforcement learning

RL1 MDP

基础概念 State: agent代理与环境交互时的状态 state space：S={si}i=1nS=\{s_{i}\}_{i=1}^nS={si}i=1n 即所有状态组成的集合 Action：aia_{i}ai 给定一个状态下所能采取的行动 Action space of a state:A(si)={aj}j=1mA(s_i) = \{a_j\}_{j=1}^mA(si

2025-02-12

#Reinforcement learning

Build nanoGPT

Build nanoGPT

[Code] of the project GPT-2架构本次我们复现的是其124M结构模型[1][3] (openai 采用out_head和token_emb层共享参数) 123456789GPT_CONFIG_124M = { "vocab_size": 50257, # Vocabulary size &quo

2025-02-05

My Project

#LLM

服务器环境搭建

远程桌面由于种种原因，需要借助服务器的GPU，但同时也需要GUI界面。在此记录一下配置Ubuntu22.04服务器远程桌面的详细过程，避免后人踩坑。服务器端本人采用TigerVnc，按需也可以使用 Todesk(目前版本对终端用户不友好) 首先，检查服务器是否下载常见的图形化桌面。 1dpkg -l | grep -E "gnome|kde|xfce|mate|cinnamon|l

2025-01-10

环境配置

#server environment

Parallel Processing

Parallel Processing

Baseline 矩阵乘法朴素实现 1234567for(int i = 0;i < M; i++){ for(int j = 0;j < N; j++){ for(int k = 0;k < K; k++){ C[i][j] = A[i][k] * B[k][j]; }

2024-12-29

#Efficient AI

Diffusion models

Diffusion models

DDPM Brief Intro 从VAE的角度来看，VAE中只有一层隐变量，而DDPM将x0x_0x0视为data point，而x1:Tx_{1:T}x1:T整体作为隐变量，是一种Hierarchical VAEs Assumptions 遵循马可夫链前向predefined: q(x0:T)=q(x0)∏t=T1q(xt∣xt−1)q(x_{0:T}) = q(x_0)\pro

2024-12-07

Generative models

#Deep Learning #VAE

VAE

核心思想已知输入数据XXX的样本{x1,x2,......xn}\{x_1, x_2, ......x_n\}{x1,x2,......xn} 假设一个隐式变量zzz服从常见的分布如正态分布等（先验知识）希望训练一个生成器X^=g(z)\hat X = g(z)X^=g(z)使得X^\hat XX^尽可能逼近输入数据X的真实分布从Auto Encoder到Variati

2024-11-17

Generative models

#Deep Learning #VAE

Machine Learning 4 决策树

Machine Learning 4 决策树

决策树概览决策树构建过程不断选取一个特征作为判别节点，该特征使得划分后的两个branch的purity最大（即划分得最清晰）熵如何衡量一个集合中仅含两类示例的purity呢？这就需要引入熵的概念熵用于衡量信息的混乱程度： H(p)=−plogp — (1−p)log(1−p)H(p) = -plogp \space — \space(1 - p)log(1-p)H(p)=−plo

2024-10-19

Machine learning

Machine Learning 3 逻辑回归

Machine Learning 3 逻辑回归

逻辑回归逻辑回归的引入考虑预测值 yyy 不再连续，而是离散值。这时候线性回归不再适用。对于二分类问题y∈{0,1}y \in \{ 0, 1\}y∈{0,1} ,不妨使得假设函数hθ(x)h_{\theta}(x)hθ(x) 预测p(y=1∣x)p(y=1|x)p(y=1∣x),即xxx是种类y=1y=1y=1的概率构造逻辑回归函数： hθ(x)=g(z)=g(θx)=11+e−θxh

2024-05-30

Machine learning

Machine Learning 2 多元线性回归

Machine Learning 2 多元线性回归

多元线性回归概述特征：多个输入特征拟合方程：f(x⃗)=w⃗⋅x⃗+bf(\vec x)= \vec w \cdot \vec x+bf(x)=w⋅x+b 其中w⃗=[w1,w2,w3...wn],x⃗=[x1,x2....xn]\vec w=[w_{1},w_{2},w_{3}...w_{n}],\vec x =[x_{1},x_{2}....x_{n}]w=[w1,w2,w3

2023-12-24

Machine learning