检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
宿主机和容器使用不同的文件系统,work_dir为宿主机中工作目录,目录下存放着训练所需代码、数据等文件。container_dir为要挂载到的容器中的目录。为方便两个地址可以相同。 shm-size:共享内存大小。
numpy as np ## 解析 json 文件 def load_trainer_status(file_path): with open(file_path, "r") as f: trainer_status = json.load(f) return
创建和修改工作空间 本节通过调用一系列API,以创建和修改工作空间为例介绍ModelArts API的使用流程。 概述 创建和修改工作空间的流程如下: 调用认证鉴权接口获取用户Token,在后续的请求中需要将Token放到请求消息头中作为认证。 调用创建工作空间接口创建一个工作空间
但是,如果该进程一直处于"D+"状态,可能表明出现了I/O操作阻塞或其他问题,这可能导致系统死锁或其他问题。 如果想构造nvidia-smi D+进程,可以死循环一直执行nvidia-smi体验D+进程带来的系统不稳定性, 如: #!
枚举值如下: BUILD_IN:系统内置镜像。 DEDICATED:用户保存的镜像。 update_at Long 镜像最后更新的时间,UTC毫秒。 visibility String 镜像可见度。枚举值如下: PRIVATE:私有镜像。
系统自动清除缓存目录“/test”下的token文件夹。 Logout successful! 父主题: Gallery CLI配置工具指南
优化镜像无法解决问题,请联系系统管理员处理。 父主题: 服务部署
选择预下载至本地目录时,系统在训练作业启动前,自动将数据存储位置中的Checkpoint文件下载到训练容器的本地目录。 图1 训练输出设置 断点续训练建议和训练容错检查(即自动重启)功能同时使用。在创建训练作业页面,开启“自动重启”开关。
ModelArts预置镜像更新说明 本章节提供了ModelArts预置镜像的变更说明 ,比如依赖包的变化,方便用户感知镜像能力的差异,减少镜像使用问题。 镜像中包含的依赖项的查询方法:在Terminal里执行如下命令。 pip list 统一镜像更新说明 表1 统一镜像更新说明 镜像名称
以Linux x86_64架构的操作系统为例,获取Docker安装包。您可以执行以下指令安装Docker。关于安装Docker的更多指导内容参见Docker官方文档。
"modelarts:pool:delete" ], "Effect": "Deny" }, { "Action": [ "sfsturbo
无条件自动重启是指当训练作业失败时,不管什么原因系统都会自动重启训练作业,提高训练成功率和提升作业的稳定性。为了避免无效重启浪费算力资源,系统最多只支持连续无条件重启3次。 为了避免丢失训练进度、浪费算力,开启此功能前请确认代码已适配断点续训,操作指导请参见设置断点续训练。
以Linux x86_64架构的操作系统为例,获取Docker安装包。您可以执行以下指令安装Docker。关于安装Docker的更多指导内容参见Docker官方文档。
图7 设置推理参数 表3 参数设置 参数 说明 取值样例 温度/Temperature 设置推理温度。 数值较高,输出结果更加随机。 数值较低,输出结果更加集中和确定。 1 核采样/top_p 设置推理核采样。调整输出文本的多样性,数值越大,生成文本的多样性就越高。
创建导入任务 功能介绍 创建数据集的导入任务:从存储系统导入样本、标签到数据集。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
可参考权限管理文档修改SFS Turbo权限。 图9 输入数据设置完成界面 设置训练输出路径:新建“output”文件夹设置为输出。(如果本地有output文件夹,无需新建) 只有文件夹下才支持新建文件夹,除项目根目录以外,其他文件夹需展开才能添加文件夹。
以Linux x86_64架构的操作系统为例,获取Docker安装包。您可以使用以下指令安装Docker。关于安装Docker的更多指导内容参见Docker官方文档。
默认为'ucb',可能取值还有'ei'、'poi',一般不建议用户修改 kappa 采集函数ucb的调节参数,可理解为上置信边界 float,一般不建议用户修改 xi 采集函数poi和ei的调节参数 float,一般不建议用户修改 TPE算法 TPE算法全称Tree-structured
storage_type 否 String 挂载类型sfs_turbo极速文件系统挂载。 source_address 否 String 挂载源路径,挂载为极速文件时为sfs turbo id。
20240528150158-b521cc0 镜像发布到SWR,从SWR拉取 固件驱动:23.0.5 CANN:cann_8.0.rc2 容器镜像OS:hce_2.0 PyTorch:pytorch_2.1.0 FrameworkPTAdapter:6.0.RC2 如果用到CCE,版本要求是CCE Turbo