开发模式选择与机制介绍
开发模式选择
AladdinEdu 平台提供两种主要的开发与运行方式。为了最大化利用算力资源并降低使用成本,建议您在开始前根据实际需求阅读以下对比。
核心区别一览
| 特性 | 模式一:任务投递模式(推荐) | 模式二:传统开发模式 |
|---|---|---|
| 核心逻辑 | 存算分离:在 CPU 环境编写代码,运行时按需调用 GPU | 存算一体:工作台直接绑定 GPU,编写与运行在同一环境中 |
| 操作工具 | VSCode AladdinEdu插件 | SSH 客户端、Remote-SSH等 |
| 计费机制 | 真·按量计费:仅在任务运行期间按 GPU 价格扣费,其余时间仅扣除极低的存储/CPU 费用 | 按量计费:只要工作台处于“运行中”状态,无论是否运行代码,均持续按 GPU 价格扣费 |
| 适用场景 | 模型训练、离线批处理、代码编写与轻量级调试 | 复杂环境配置、需要实时交互的重度调试、传统服务器使用习惯 |
模式一:任务投递模式(平台推荐)
这是 AladdinEdu 提倡的高效工作流,在提供了一个您专属的远程开发环境(工作台)的同时,通过将代码编辑环境与高算力运行环境解耦,大幅降低闲置成本。
工作流程:
- 准备环境:启动一个 CPU 规格 的工作台(workshop)。
- 编写代码:在工作台中进行代码编辑、数据预处理、文件上传等(此时仅消耗微量 CPU 核时)。
- 提交运行:通过 VSCode 插件一键提交,选择 GPU 规格启动会话(session)。
- 结果同步:任务完成后,GPU 资源自动释放并停止计费,运行日志与结果文件自动回传至您的工作台。
核心优势: 此模式杜绝了“代码编辑与调试期间 GPU 资源空转”的浪费,适合绝大多数AI训练任务。
模式二:传统开发模式
此模式符合传统物理服务器或云主机的操作习惯。您将获得一个拥有完整 Root 权限、独占 GPU 且持续运行的交互式环境。
工作流程:
- 创建环境:在创建工作台时,直接绑定 GPU 规格。
- 直连操作:通过 SSH 客户端或VSCode Remote-SSH插件连接进入终端。
- 交互运行:直接在当前环境中执行 Python 命令或进行断点调试,与本地操作体验一致。
注意
在此模式下,工作台即为计算节点。只要工作台处于“运行中”状态,系统将持续按 GPU 单价扣费。使用完毕后,请务必手动执行“停止”操作以释放资源,避免产生额外费用。
💡 总结建议
- 如果您进行模型训练、跑实验,或希望节省算力成本,请首选 [模式一]。
- 如果您习惯传统 Linux 服务器操作,可选择 [模式二]。
平台运行原理
为了支持高效的“存算分离”模式,理解数据与环境的流转机制至关重要。请参考下图:

原理解析(必读):
-
📂 文件存哪里? 请务必将代码、模型权重、数据集等所有文件存放于 /root 目录 下。(/root 为持久化存储卷,可自动同步至 Session;其他目录为临时存储,重启或关闭后数据即丢失。)
-
📦 包怎么装?
-
情况 A(系统级安装): 使用 apt 或系统自带 pip 安装的包,必须点击 “保存镜像”,否则 GPU Session 无法加载。
-
情况 B(推荐做法): 在 /root 目录下创建 Conda 虚拟环境。此时环境被视为“普通文件”,无需保存镜像即可直接被 GPU Session 读取,省时省力。
-