- 理解Container机制
- 使用Container进行自定义深度学习训练或推理
- PyTorch==1.5.0
- Docker Engine
计算集群调度管理,与云上训练和推理的基本知识
-
安装最新版Docker Engine,完成实验环境设置
-
运行一个alpine容器
- Pull alpine docker image
- 运行docker container,并列出当前目录内容
- 使用交互式方式启动docker container,并查看当前目录内容
- 退出容器
-
Docker部署PyTorch训练程序,并完成模型训练
- 编写Dockerfile:使用含有cuda10.1的基础镜像,编写能够运行MNIST样例的Dockerfile
- Build镜像
- 使用该镜像启动容器,并完成训练过程
- 获取训练结果
-
Docker部署PyTorch推理程序,并完成一个推理服务
- 克隆TorchServe源码
- 编写基于GPU的TorchServe镜像
- 使用TorchServe镜像启动一个容器
- 使用TorchServe进行模型推理
- 返回推理结果,验证正确性
硬件环境 | CPU(vCPU数目) | |
GPU(型号,数目) | ||
软件环境 | OS版本 | |
深度学习框架 python包名称及版本 |
||
CUDA版本 | ||
-
使用Docker部署PyTorch MNIST 训练程序,以交互的方式在容器中运行训练程序。提交以下内容:
- 创建模型训练镜像,并提交Dockerfile
- 提交镜像构建成功的日志
- 启动训练程序,提交训练成功日志(例如:MNIST训练日志截图)
- 使用Docker部署MNIST模型的推理服务,并进行推理。提交以下内容:
- 创建模型推理镜像,并提交Dockerfile
- 启动容器,访问TorchServe API,提交返回结果日志
- 使用训练好的模型,启动TorchServe,在新的终端中,使用一张图片进行推理服务。提交图片和推理程序返回结果截图。
本次实验基本教程: