检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
将构建的镜像推到SWR。 注册SWR镜像到ModelArts。 创建Notebook并验证新镜像。 准备Docker机器并配置环境信息 准备一台具有Docker功能的机器,如果没有,建议申请一台弹性云服务器并购买弹性公网IP,并在准备好的机器上安装必要的软件。 ModelArts提供了ubuntu系统的脚本,方便安装docker。
导致基础镜像不可用。 driver及npu-smi需同时挂载至容器。 不要将多个容器绑到同一个NPU上,会导致后续的容器无法正常使用NPU功能。 --name ${container_name}:容器名称,进入容器时会用到,此处可以自己定义一个容器名称。 {image_id} 为
此处如果看不到Connect to Remote选项,请先参考创建Notebook实例章节,创建Notebook实例,并开启该实例的SSH远程开发功能。 也可能是PyCharm ToolKit的版本不正确,请按照文档要求下载新版本的PyCharm ToolKit。 下载前请先清除浏览器缓
导致基础镜像不可用。 driver及npu-smi需同时挂载至容器。 不要将多个容器绑到同一个NPU上,会导致后续的容器无法正常使用NPU功能。 --name ${container_name}:容器名称,进入容器时会用到,此处可以自己定义一个容器名称。 {image_id} 为
bash vae_cache.sh bash finetune_multi_gpus.sh 以上微调文档提示来自官方文档,有关可用微调脚本参数及其功能的全面文档,您可以参考官方CogVideo文档。 附:decord和triton在arm版本安装参考 由于训练使用decord和trito
创建Workflow模型注册节点 功能介绍 通过对ModelArts模型管理的能力进行封装,实现将训练后的结果注册到模型管理中,便于后续服务部署、更新等步骤的执行。主要应用场景如下: 注册ModelArts训练作业中训练完成的模型。 注册自定义镜像中的模型。 属性总览 您可以使用
存储配置,云硬盘EVS会一直收费,建议及时停止并删除Notebook,避免产生不必要的费用。 在创建Notebook时,默认会开启自动停止功能,在指定时间内停止运行Notebook,避免资源浪费。 只有处于“运行中”状态的Notebook,才可以执行打开、停止操作。 一个账户最多创建10个Notebook。
K8S标签:设置附加到Kubernetes对象(比如Pod)上的键值对。最多可以添加5条标签。使用该标签可区分不同节点,可结合工作负载的亲和能力实现容器Pod调度到指定节点的功能。 污点:默认为空。支持给节点加污点来设置反亲和性,每个节点最多配置5条污点。 安装后执行脚本:请输入脚本命令,命令中不能包含中文字符,需
选择规格,规格中描述了服务器类型、型号等信息,仅显示模型支持的资源。 xxx 计算节点个数 当计算节点个数大于1,将启动多节点分布式训练。详细信息,请参见分布式训练功能介绍。 1 更多选项 永久保存日志 选择是否打开“永久保存日志”开关。 关闭 事件通知 选择是否打开“事件通知”开关。 关闭 自动停止 当
则影响容器使用昇腾卡 docker容器无法挂载NPU卡 Snt3P 300IDuo Snt9B Snt9C 重要 操作系统没有开启IP转发功能 请检查/etc/sysctl.conf文件中net.ipv4.ip_forward配置 docker容器无法正常网络通信 - 重要 容器共享内存过小
当参数值>1时,保存模型版本次数与SAVE_TOTAL_LIMIT的值一致。 MA_TRAIN_AUTO_RESUME False 【可选】【故障快恢】是否开启此功能,【True、False】默认False不开启,当训练中断时重启任务会从最新生成权重文件处继续训练。详见断点续训和故障快恢说明 CKPT_LOAD_TYPE
当参数值>1时,保存模型版本次数与SAVE_TOTAL_LIMIT的值一致。 MA_TRAIN_AUTO_RESUME False 【可选】【故障快恢】是否开启此功能,【True、False】默认False不开启,当训练中断时重启任务会从最新生成权重文件处继续训练。详见断点续训和故障快恢说明 CKPT_LOAD_TYPE
当参数值>1时,保存模型版本次数与SAVE_TOTAL_LIMIT的值一致。 MA_TRAIN_AUTO_RESUME False 【可选】【故障快恢】是否开启此功能,【True、False】默认False不开启,当训练中断时重启任务会从最新生成权重文件处继续训练。详见断点续训和故障快恢说明 CKPT_LOAD_TYPE
当参数值>1时,保存模型版本次数与SAVE_TOTAL_LIMIT的值一致。 MA_TRAIN_AUTO_RESUME False 【可选】【故障快恢】是否开启此功能,【True、False】默认False不开启,当训练中断时重启任务会从最新生成权重文件处继续训练。详见断点续训和故障快恢说明 CKPT_LOAD_TYPE
支持TensorFlow、TensorRT、PyTorch、ONNXRuntime等多种推理引擎后端,并且支持多模型并发、动态batch等功能,能够提高GPU的使用率,改善推理服务的性能。 当从第三方推理框架迁移到使用ModelArts推理的模型管理和服务管理时,需要对原生第三方
创建Workflow训练作业节点 功能介绍 该节点通过对算法、输入、输出的定义,实现ModelArts作业管理的能力。主要用于数据处理、模型训练、模型评估等场景。主要应用场景如下: 当需要对图像进行增强,对语音进行除噪等操作时,可以使用该节点进行数据的预处理。 对于一些物体检测,
获取文件内容失败 请检查文件权限 400 ModelArts.2774 ParseParameterError 超参解析失败 超参解析为beta功能,若解析结果不合理请手动输入 400 ModelArts.2775 TrainingJobNotFound 训练作业(id:%s)未找到 请检查请求中训练作业信息的合法性