检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
头中X-Subject-Token的值)。 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 delete_success_list Array of strings 删除成功的模型id列表。 delete_failed_list Array of Del
部署类型,当前仅支持Docker。 spec Object 部署详情,如表14所示。 表14 spec字段数据结构说明 参数 参数类型 说明 engine String 部署引擎,当前仅支持CCE。 params Object 部署参数,当前仅支持Docker,如表15所示。 表15
训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50GB,只有默认的10GB,导致作业训练失败。 实际存储空间足够,却依旧报错“No
安装Docker。 以Linux x86_64架构的操作系统为例,获取Docker安装包。您可以执行以下指令安装Docker。关于安装Docker的更多指导内容参见Docker官方文档。 curl -fsSL get.docker.com -o get-docker.sh sh
DevServer服务器类型。枚举值如下: BMS:裸金属服务器 ECS:弹性云服务器 HPS:超节点服务器 hps_id String 服务器所属的超节点资源id。 表6 Endpoints 参数 参数类型 描述 allowed_access_ips Array of strings
DevServer服务器类型。枚举值如下: BMS:裸金属服务器 ECS:弹性云服务器 HPS:超节点服务器 hps_id String 服务器所属的超节点资源id。 表6 Endpoints 参数 参数类型 描述 allowed_access_ips Array of strings
String 部署类型,当前仅支持Docker。 spec Object 部署详情,如表8所示。 表8 spec字段数据结构说明 参数 参数类型 说明 engine String 部署引擎,当前仅支持CCE。 params Object 部署参数,当前仅支持Docker,如表9所示。 表9 Docker部署参数数据结构说明
图7 检查固件和驱动版本 安装docker环境。 先执行“docker -v”检查机器是否已安装docker,若已安装,则可跳过此步骤。 安装docker命令如下。 yum install -y docker-engine.aarch64 docker-engine-selinux
和PP流水线并行(pipeline-model-parallel-size),可以尝试增加 TP和PP的值,一般TP×PP≤NPU数量,并且要被整除,具体调整值可参照表1进行设置。 可调整参数:MBS指最小batch处理的样本量(micro-batch-size)、GBS指一个iteration所处理的样本量(gl
安装Docker。 以Linux x86_64架构的操作系统为例,获取Docker安装包。您可以执行以下指令安装Docker。关于安装Docker的更多指导内容参见Docker官方文档。 curl -fsSL get.docker.com -o get-docker.sh sh
time per iteration)×1000,其global batch size(GBS)、seq_len(SEQ_LEN)为训练时设置的参数。 loss收敛情况:日志里存在lm loss参数 ,lm loss参数随着训练迭代周期持续性减小,并逐渐趋于稳定平缓。 图2 查看日志和性能
"progress": 30, "status": 1, "message": "Submit auto labeling task succeed, waiting for auto labeling task to finish. ", "code": "ModelArts
在JupyterLab文件列表中,选择需要下载的文件,单击右键,在操作菜单中选择“Download”下载至本地。 下载的目的路径,为您本地浏览器设置的下载目录。 图1 下载文件 从JupyterLab中下载大于100MB的文件到本地 大于100MB的文件需要先从Notebook中上传到
taints 否 Array of Taint objects 支持给创建出来的节点加taints来设置反亲和性,非特权池不能指定。 labels 否 Map<String,String> k8s标签,格式为key/value键值对。 tags 否 Array of UserTag objects
航栏中选择“AI专属资源池 > 弹性集群Cluster”,进入“Standard资源池”页面。 在资源池列表中,选择某个资源池右侧操作列的“ > 设置作业类型”。 在“设置作业类型”弹窗中,选择需要设置的作业类型。 图1 设置作业类型 设置完成后,单击“确定”,启用作业类型。 父主题:
检查是否安装docker。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
greater than the threshold (25G)”如何解决? 镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.” 使用自定义镜像创建Notebook后打开没有kernel
# 原始数据目录 # 训练输出目录路径:根据{OUTPUT_SAVE_DIR}或yaml文件{output_dir}参数设置 |──{output_dir} # 输出目录,以下目录在训练过程中自动生成 |──conv
CustomHooks object 支持更新实例启动脚本。 表3 EndpointsReq 参数 是否必选 参数类型 描述 allowed_access_ips 否 Array of strings 允许远程接入的公网IP地址列表,最多5个。 service 否 String 支持的服务,枚举值如下:
否 String 样本状态。可选样本状态如下: __ALL__:已标注 __NONE__:未标注 __UNCHECK__:待验收 __ACCEPTED__:验收通过 __REJECTED__:已驳回 __UNREVIEWED__:待审核 __REVIEWED__:已审核 __WO