use docker container in modelarts training service
目标:构建有如下软件的容器镜像,并使用华为云 ModelArts 训练服务运行
- ubuntu-18.04
- cuda-10.2
- python-3.7.13
- pytorch-1.8.1
1. 准备 context 文件夹
1 | mkdir -p context |
1.1. 准备文件
1.1.1. pip.conf
使用华为开源镜像站 pypi 配置
文件内容如下
1 | [global] |
1.1.2. torch*.whl
在该地址上 https://download.pytorch.org/whl/torch_stable.html 搜索并下载如下 whl
- torch-1.8.1+cu102-cp37-cp37m-linux_x86_64.whl
- torchaudio-0.8.1-cp37-cp37m-linux_x86_64.whl
- torchvision-0.9.1+cu102-cp37-cp37m-linux_x86_64.whl
1.1.3. Miniconda3
https://docs.conda.io/en/latest/miniconda.html
Miniconda3-py37_4.12.0-Linux-x86_64.sh
使用该地址 https://repo.anaconda.com/miniconda/Miniconda3-py37_4.12.0-Linux-x86_64.sh, 下载 miniconda3 安装文件
1.2. context 文件夹内容
将上述文件放置在 context 文件夹内
1 | context |
2. 编写容器镜像 Dockerfile 文件
在 context 文件夹内新建名为 Dockerfile 的空文件,并将下述文件内容写入其中
1 | # 容器镜像构建主机需要连通公网 |
3. 构建容器镜像
context 文件夹内容如下
1 | context |
执行如下命令构建容器镜像
1 | 执行构建容器镜像命令之前,请务必切换到 context 目录内 |
容器镜像构建成功后,可通过如下命令查询到对应的容器镜像地址
1 | docker images | grep pytorch | grep 1.8.1-cuda10.2 |
3. pytorch verification code
https://pytorch.org/get-started/locally/#linux-verification
验证示例代码:pytorch-verification.py
1 | import torch |
4. boot command in modelarts training service
1 | /home/ma-user/miniconda3/bin/python ${MA_JOB_DIR}/code/pytorch-verification.py |
cpu 训练作业日志显示示例
1 | tensor([[ 0.8945, -0.6946, 0.3807], |
gpu 训练作业日志显示示例
1 | tensor([[-0.2874, -0.3475, 0.1848], |