节约显存 训练节约显存 将计算 loss 的部分放入forward 的部分 训练一个任务的时候会有一张卡为主节点,接受其他节点的数据,占用显存会多一些.当主节点显存占用是从节点的 2 倍的时候,可以采用一下方式将每张卡都用满 任务编号 使用卡编号 0 0,2,3 1 1,2,3 混合精度 123for epoch in range(epochs): with autocast( 2022-10-30 #cuda,pytorch
关于 python 函数的参数 这是一个关于 python 函数中参数的实现 python 参数python 中的参数传递和 C 等不同,python 传入的参数可以理解是 C++ 中的引用,也可以理解为直接传入实参,函数栈中不会预先分配新的空间,可以观察下面的例子可以从从输出的 ID 中看出,外部空间传入的参数的 ID 和函数中变量的 ID 是相同的,所以可以理解为 python 的函数直接使用了外部空间的参数,所以也就会导 2022-05-25 #python
Cmake基础 CMake 基础cmake 所需要的文件是 CMakeLists.txt ,是不能打错名字的。 基本框架123456789cmake_minimum_required (VERSION 3.0) # 用来检查CMake 版本project(MYProject) # 指定项目名称set(CMAKEFLAG "-std=c++14 -g -w -fPIC") # set(变量名 字 2022-05-22 #cmake
Docker 基础 Docker 基础下载 Docker 12# ubuntusudo apt install docker 寻找镜像 1sudo docker search centos 拉取镜像 12# 按照 docker pull image-name:tag 的形式sudo docker pull centos:latest 查看 docker 镜像 1sudo docker images 对于 d 2022-05-22 #docker
Latex 基础文档 latex 基础文档overleaf 一开始先创建 空项目 中文配置 加入 \ usepackage{ctex} 点击左上角 [Menu] => [compiler] => 使用 [LuaLaTeX] 或者 [XeLaTex] 多作者1\author{一作 \\ 三作 \and 二作} 多级列举1234\begin{itemize&# 2022-05-19 #latex
日志简介 关于日志匹配通配符 正则表达式 命令tail -f 循环读取 -q 不显示处理信息 -v 显示详细的处理信息 -c<数目> 显示的字节数 -n<行数> 显示行数 -q, –quiet, –silent 从不输出给出文件名的首部 -s, –sleep-interval=S 与-f合用,表示在每次反复的间隔休 2022-05-16 #log
OP2 DSL OP2 DSL 调研 徐炜烨 数据类型模式 Mike 在文章 OP2 Developers Guide 中提到,他个人更倾向于用 AoS. For this reason, I have chosen to use the AoS format. AoS and SoA 介绍 AoS: for each set element, store al 2022-05-16 #parallel
CUDA 简介 CUDA 调研运行环境123456acsaxwy@snode6:~$ nvcc -Vnvcc: NVIDIA (R) Cuda compiler driverCopyright (c) 2005-2021 NVIDIA CorporationBuilt on Sun_Mar_21_19:15:46_PDT_2021Cuda compilation tools, release 11.3, V11. 2022-05-16 #cuda
Makefile简介 Makefile 笔记处理流程graph LR A(预编译)-->B(编译)-->C(汇编)-->D(链接) 选项 含义 -c 只编译不生成执行文件 -g 调试 -o 优化级别 -ldir 编译时增加一个(或多个)搜索头文件的目录 -Ldir 编译源文件是增加一个额外库文件目录 -Llibrary 编译链接时增加额外的库 libxxx.so, 2022-05-16 #makefile
pytorch 反向传播 关于 torch 反向传播普通的 grad1234567import torchx = torch.tensor([1,2,3],dtype=torch.float,requires_grad=True)z = torch.mean(x+x ** 2)z.backward()print(x.grad) tensor 对 tensor 的 grad tensor 对 tensor 的导数是直接不可 2022-05-05 #pytorch