Megatron-LM中的权重初始化 笔者近期的工作中,对Megatron-LM和PyTorch中权重的初始化方式产生了疑惑,尝试解读源码进行分析。 2024-12-01 保住饭碗 #Megatron-LM #PyTorch #深度学习
Megatron-LM中的loss-scale loss-scale被广泛用于混精训练中,扩大反向传播过程中的参数梯度计算。笔者进一步解读了Megatron-LM框架中的loss-scale设置到应用的完整过程,希望能加深理解。 2024-06-05 保住饭碗 #Megatron-LM #PyTorch #深度学习
大模型中的计算和内存占用理论分析 简单探讨一下Decoder only的Transformer大模型,其在理论计算复杂度和内存占用分析(模型状态量和激活值内存)。 2024-05-01 保住饭碗 #深度学习
vscode-server端问题记录 vscode-remote连接神威时,vscode-server触发了更新,由于复杂的网络问题,导致一直卡在vscode-server的下载安装和初始化部分。 2023-09-09 助人为乐 #vscode