RL1 MDP 基础概念 State: agent代理与环境交互时的状态 state space:S={si}i=1nS=\{s_{i}\}_{i=1}^nS={si}i=1n 即所有状态组成的集合 Action:aia_{i}ai 给定一个状态下所能采取的行动 Action space of a state:A(si)={aj}j=1mA(s_i) = \{a_j\}_{j=1}^mA(si 2025-02-12 #Reinforcement learning
Build nanoGPT [Code] of the project GPT-2架构 本次我们复现的是其124M结构模型[1][3] (openai 采用out_head和token_emb层共享参数) 123456789GPT_CONFIG_124M = { "vocab_size": 50257, # Vocabulary size &quo 2025-02-05 My Project #LLM
服务器环境搭建 远程桌面 由于种种原因,需要借助服务器的GPU,但同时也需要GUI界面。在此记录一下配置Ubuntu22.04服务器远程桌面的详细过程,避免后人踩坑。 服务器端 本人采用TigerVnc,按需也可以使用 Todesk(目前版本对终端用户不友好) 首先,检查服务器是否下载常见的图形化桌面。 1dpkg -l | grep -E "gnome|kde|xfce|mate|cinnamon|l 2025-01-10 环境配置 #server environment
Parallel Processing Baseline 矩阵乘法朴素实现 1234567for(int i = 0;i < M; i++){ for(int j = 0;j < N; j++){ for(int k = 0;k < K; k++){ C[i][j] = A[i][k] * B[k][j]; } 2024-12-29 #Efficient AI
Diffusion models DDPM Brief Intro 从VAE的角度来看,VAE中只有一层隐变量,而DDPM将x0x_0x0视为data point, 而x1:Tx_{1:T}x1:T整体作为隐变量,是一种Hierarchical VAEs Assumptions 遵循马可夫链 前向predefined: q(x0:T)=q(x0)∏t=T1q(xt∣xt−1)q(x_{0:T}) = q(x_0)\pro 2024-12-07 Generative models #Deep Learning #VAE
VAE 核心思想 已知输入数据XXX的样本{x1,x2,......xn}\{x_1, x_2, ......x_n\}{x1,x2,......xn} 假设一个隐式变量zzz服从常见的分布如正态分布等(先验知识) 希望训练一个生成器X^=g(z)\hat X = g(z)X^=g(z)使得X^\hat XX^尽可能逼近输入数据X的真实分布 从Auto Encoder到Variati 2024-11-17 Generative models #Deep Learning #VAE
Machine Learning 4 决策树 决策树 概览 决策树构建过程 不断选取一个特征作为判别节点,该特征使得划分后的两个branch的purity最大(即划分得最清晰) 熵 如何衡量一个集合中仅含两类示例的purity呢?这就需要引入熵的概念 熵用于衡量信息的混乱程度: H(p)=−plogp — (1−p)log(1−p)H(p) = -plogp \space — \space(1 - p)log(1-p)H(p)=−plo 2024-10-19 Machine learning
Machine Learning 3 逻辑回归 逻辑回归 逻辑回归的引入 考虑预测值 yyy 不再连续,而是离散值。这时候线性回归不再适用。 对于二分类问题y∈{0,1}y \in \{ 0, 1\}y∈{0,1} ,不妨使得假设函数hθ(x)h_{\theta}(x)hθ(x) 预测p(y=1∣x)p(y=1|x)p(y=1∣x),即xxx是种类y=1y=1y=1的概率 构造逻辑回归函数: hθ(x)=g(z)=g(θx)=11+e−θxh 2024-05-30 Machine learning
Machine Learning 2 多元线性回归 多元线性回归 概述 特征: 多个输入特征 拟合方程:f(x⃗)=w⃗⋅x⃗+bf(\vec x)= \vec w \cdot \vec x+bf(x)=w⋅x+b 其中w⃗=[w1,w2,w3...wn],x⃗=[x1,x2....xn]\vec w=[w_{1},w_{2},w_{3}...w_{n}],\vec x =[x_{1},x_{2}....x_{n}]w=[w1,w2,w3 2023-12-24 Machine learning
Machine Learning 1 一元线性回归 监督学习(supervised learning) 给定一个input x,给出x的正确答案,即标签 y。机器通过这些大量的例子训练学习后使得遇到一个崭新的x时,能够辨别出x对应的y是多少 专业术语: training set:训练集 xxx:input variable or input feature yyy:output variable or target variable (x,y) 2023-12-02 Machine learning