检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
于华为自研HSS或计算安全平台CSP。 ModelArts服务部署了漏洞扫描服务并自行进行例行扫描,能快速发现漏洞并能及时修复。 ModelArts服务通过统一的安全管控平台对云上资源进行安全运维。 ModelArts服务部署了态势感知服务,以感知攻击现状,还原攻击历史,同时及时发现合规风险,对威胁告警及时响应。
##认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 ##本示例以AK和SK保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。
建议使用官方提供的镜像部署训练服务。镜像地址{image_url}参见镜像地址获取。 docker pull {image_url} Step3 启动容器镜像 启动容器镜像前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。启动容器命令如下。 export work_dir="自定义挂载的工作目录"
建议使用官方提供的镜像部署训练服务。镜像地址{image_url}参见镜像地址获取。 docker pull {image_url} Step3 启动容器镜像 启动容器镜像前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。启动容器命令如下。 export work_dir="自定义挂载的工作目录"
GPU服务器上配置Lite Server资源软件环境 场景描述 本文旨在指导如何在GPU裸金属服务器上,安装NVIDIA、CUDA驱动等环境配置。由于不同GPU预置镜像中预安装的软件不同,您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件
附录:微调训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
加3条。 “部署类型” 选择此AI应用支持部署服务的类型,部署上线时只支持部署为此处选择的部署类型,例如此处只选择在线服务,那您导入后只能部署为在线服务。当前支持“在线服务”、“批量服务”和“边缘服务”。 “启动命令” 指定模型的启动命令,您可以自定义该命令。 说明: 包含字符$,|,>,<,`,
附录:训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
获取训练镜像 建议使用官方提供的镜像部署训练服务。镜像地址{image_url}参见镜像地址获取。 docker pull {image_url} 步骤三 启动容器镜像 启动容器镜像前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。启动容器命令如下。 export work_dir="自定义挂载的工作目录"
CREATING:创建中 STARTING:启动中 STOPPING:停止中 DELETING:删除中 RUNNING:运行中 STOPPED:已停止 SNAPSHOTTING:快照中(保存镜像时的状态) CREATE_FAILED:创建失败 START_FAILED:启动失败 DELETE_FAILED:删除失败
ep 60m”。这样启动的作业将会持续运行60分钟。您可通过Cloud Shell进入容器进行调试。 图5 自定义启动方式 出错的任务如何卡在运行中状态 创建训练作业时,启动命令末尾新增"|| sleep 5h",并启动训练任务,例如下方的cmd为您的启动命令: cmd || sleep
训练作业的“/cache”目录是否安全? ModelArts训练作业的程序运行在容器中,容器挂载的目录地址是唯一的,只有运行时的容器能访问到。因此训练作业的“/cache”是安全的。 父主题: 创建训练作业
超参支持修改和删除,状态取决于算法中的超参“约束”设置,详情请参见定义超参。 说明: 为保证数据安全,请勿输入敏感信息,例如明文密码。 环境变量 - 根据业务需求增加环境变量。训练容器中预置的环境变量请参见管理训练容器环境变量。 说明: 为保证数据安全,请勿输入敏感信息,例如明文密码。 自动重启 - 打开开关后,
启动智能任务 功能介绍 启动智能任务,支持启动“智能标注”和“自动分组”两大类智能任务。可通过指定请求体中的“task_type”参数来启动某类任务。数据路径或工作路径位于KMS加密桶的数据集,不支持启动主动学习和自动分组任务,支持预标注任务。 “智能标注”是指基于当前标注阶段的
设置大于1,表示后台的计算模式为分布式的。请根据实际编码情况选择计算模式。 “环境变量” 设置环境变量,注入环境变量到容器实例。为确保您的数据安全,在环境变量中,请勿输入敏感信息,如明文密码。 “部署超时时间” 用于设置单个模型实例的超时时间,包括部署和启动时间。默认值为20分钟,输入值必须在3到120之间。
预置框架启动文件的启动流程说明 ModelArts Standard训练服务预置了多种AI框架,并对不同的框架提供了针对性适配,用户在使用这些预置框架进行模型训练时,训练的启动命令也需要做相应适配。 本章节详细介绍基于不同的预置框架创建训练作业时,如何修改训练的启动文件。 Asc
VS Code连接后长时间未操作,连接自动断开 问题现象 VS Code SSH连接后,长时间未操作,窗口未关闭,再次使用发现VS Code在重连环境,无弹窗报错。左下角显示如下图: 查看VS Code Remote-SSH日志发现,连接在大约2小时后断开了: 原因分析 用户SS
启动停止边缘节点服务实例 功能介绍 启动停止边缘节点服务实例。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI PUT /v1/{project_id}/servic
WantedBy=multi-user.target EOF 启动buildkitd的服务 # 重新加载Unit file systemctl daemon-reload # 启动服务 systemctl start buildkitd # 开机自启动 systemctl enable buildkitd
##认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 ##本示例以AK和SK保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。