Skip to main content

GPU调用相关问题

Q:已经在workshop中安装了对应的python包或框架,为什么在GPU Run等功能调用GPU时仍报错‘ModuleNotFoundError: No module named 'module_name'’

✅ 在workshop安装python包或gcc等时,在未特殊处理的情况下,不会被安装到/root目录中,此时需要您先使用保存镜像功能,保存私有镜像后,在GPU调用时使用即可。

  • 优点:环境可持续保存。
  • 缺点:每次安装新包都需要保存一次镜像。故推荐在/root目录下安装conda管理环境,调用GPU时选择conda中的python解释器即可。

Q:数据加载速度很慢,该如何解决?

✅ 您可根据数据大小尝试以下两种优化方法。

  • 方法1:使用多进程,从磁盘中读取数据 --> 需在dataloader里设置多CPU并行, 80G和40G卡可分别使用10核和5核CPU帮助处理数据;

  • 方法2:从内存中读取数据,限数据集小于等于30G时 --> 将数据集copy到/dev/shm目录下,即可使用内存加载数据。

Q:我想监控任务运行状态/GPU的占用情况,该如何操作?

✅ 对Running状态下的进程,右击 DEVELOP SESSION 中的对应session,选择Terminal,打开session的运行终端,使用nvidia-smi或nvi-top,实时监控GPU的占用情况。

英伟达不支持监控40G的mig卡的占用情况。如调用GPU时选择40G卡,执行nvidia或nvi-top则不会显示内存占用。

Q:我想终止任务/进程,该如何操作?

✅ 对Running状态下的进程,右击 DEVELOP SESSION 中的对应session,选择Delete,手动终止进程并释放资源。
需注意,日志信息将随Delete一并删除。

本地VSCode中,右击 Task 中的某一进程,Delete功能会终止该进程,并删除日志信息。 GPUtask

🎈 如您的问题仍无法解决,可关注微信服务号“九章云极AladdinEdu”,点击菜单栏中的“限时活动” > “全民找bug”,根据问卷提示填写相应报错信息,等待工作人员联系。