GPU调用相关问题
Q:已经在workshop中安装了对应的python包或框架,为什么在GPU Run等功能调用GPU时仍报错‘ModuleNotFoundError: No module named 'module_name'’
✅ 在workshop安装python包或gcc等时,在未特殊处理的情况下,不会被安装到/root目录中,此时需要您先使用保存镜像功能,保存私有镜像后,在GPU调用时使用即可。
- 优点:环境可持续保存。
- 缺点:每次安装新包都需要保存一次镜像。故推荐在/root目录下安装conda管理环境,调用GPU时选择conda中的python解释器即可。
Q:数据加载速度很慢,该如何解决?
✅ 您可根据数据大小尝试以下两种优化方法。
-
方法1:使用多进程,从磁盘中读取数据 --> 需在dataloader里设置多CPU并行, 80G和40G卡可分别使用10核和5核CPU帮助处理数据;
-
方法2:从内存中读取数据,限数据集小于等于30G时 --> 将数据集copy到/dev/shm目录下,即可使用内存加载数据。
Q:我想监控任务运行状态/GPU的占用情况,该如何操作?
✅ 对Running状态下的进程,右击 DEVELOP SESSION 中的对应session,选择Terminal,打开session的运行终端,使用nvidia-smi或nvi-top,实时监控GPU的占用情况。
英伟达不支持监控40G的mig卡的占用情况。如调用GPU时选择40G卡,执行nvidia或nvi-top则不会显示内存占用。
Q:我想终止任务/进程,该如何操作?
✅ 对Running状态下的进程,右击 DEVELOP SESSION 中的对应session,选择Delete,手动终止进程并释放资源。
需注意,日志信息将随Delete一并删除。
本地VSCode中,右击 Task 中的某一进程,Delete功能会终止该进程,并删除日志信息。
🎈 如您的问题仍无法解决,可关注微信服务号“九章云极AladdinEdu”,点击菜单栏中的“限时活动” > “全民找bug”,根据问卷提示填写相应报错信息,等待工作人员联系。