检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
“C:\Users”目录下的文件名必须和Windows登录用户名完全一致。 右键单击.ssh文件夹,选择“属性”。然后单击“安全”页签。 单击“高级”,在弹出的高级安全设置界面单击“禁用继承”, 在弹出的“阻止继承”窗口单击“从此对象中删除所有继承的权限”。此时所有用户都将被删除。 添
json中的swr_location字段后重试。 异常 自定义镜像健康检查接口必须是xxx。 The health check url of custom image model must be %s. 请修改自定义镜像健康检查接口后重试。 正常 当前镜像构建任务状态为xxx。 The status
运行训练作业时,当“代码目录”下载完成后,“启动命令”会被自动执行。 如果训练启动脚本用的是py文件,例如“train.py”,则启动命令如下所示。 python ${MA_JOB_DIR}/demo-code/train.py 如果训练启动脚本用的是sh文件,例如“main.sh”,则启动命令如下所示。
_FILE}" 2>&1 & chmod 640 ${KERNEL_GATEWAY_LOG_FILE} 执行命令ps -ef检查进程是否启动。 图3 检查进程是否启动 父主题: 环境配置故障
{"mnist_result": 7} (可选)健康检查接口 如果在滚动升级时要求不中断业务,那么必须在config.json文件中配置健康检查的接口,供ModelArts调用,在config.json文件中配置。当业务可提供正常服务时,健康检查接口返回健康状态,否则返回异常状态。 如果要
的名称。 如何修改环境变量 用户可以在创建训练作业页面增加新的环境变量,也可以设置新的取值覆盖当前训练容器中预置的环境变量值。 为保证数据安全,请勿输入敏感信息,例如明文密码。 训练容器中预置的环境变量 训练容器中预置的环境变量如下面表格所示,包括表1、表2、表3、表4、表5、表6、表7。
如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查是否安装docker。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine
差异,用户需要了解NPU的运行机制才能更好的使用NPU设备,同时在遇到问题时快速找到原因。 代码迁移操作步骤 在训练任务启动的Python脚本入口初始化Ascend Extension for PyTorch(torch_npu)。 在torch_npu安装后,该部分并没有直接植
进入弹性文件服务SFS管理控制台。 选择“SFS Turbo”进入文件系统列表,单击文件系统名称,进入详情页面。 在“基本信息”页签获取并记录“Linux挂载命令”。 在ECS服务器中挂载NFS存储。 首先保证对应目录存在,然后输入对应指令即可。命令参考: mkdir -p /mnt/sfs_turbo
log_path String 自定义镜像日志存储路径。 custom_script_path String Notebook启动时的自定义初始化脚本路径。 extend_storage Array<Storage> 扩展存储列表,如表20所示。扩展存储当前仅支持type为“obsfs”的类型,且仅对部分专属资源池开放。
path目录。参数grad_level可取值L0、L1、L2,级别越大导出的数据越详细。更多详细参数说明请参考参数说明。 监控逻辑插入训练脚本。 from msprobe.pytorch import PrecisionDebugger debugger = Precision
py”中将“project_dir”添加到“sys.path”中,再导入: import os import sys # __file__为获取当前执行脚本main.py的绝对路径 # os.path.dirname(__file__)获取main.py的父目录,即project_dir的绝对路径
check_method 是 String 健康检查方式。可选“HTTP/EXEC”。 HTTP:HTTP请求检查 EXEC:执行命令检查。 command 否 String 健康检查命令。健康检查方式为EXEC时必选。 url 否 String 健康检查接口请求路径。健康检查方式为HTTP时必选。 protocol
在本地PC的hosts文件中配置域名和IP地址的对应关系。 三、网络代理设置 如果用户使用的网络有代理设置要求,请检查代理配置是否正确。也可以使用手机热点网络连接进行测试排查。 检查代理配置是否正确。 图2 PyCharm网络代理设置 四、AK/SK不正确 获取到的AK/SK信息不正确,
DevServer和昇腾Snt9b资源。 安装过程需要连接互联网git clone,确保容器可以访问公网。 步骤一 检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态
AI开发流程科普视频 特性讲解 昇腾云服务 产品介绍 03:55 了解什么是昇腾云服务 华为云ModelArts服务视频 训练作业容错检查功能介绍 04:48 了解什么是训练作业容错检查功能 华为云ModelArts服务视频 高可用冗余节点功能介绍 03:07 了解什么是高可用冗余节点功能 操作指导
}' 方式三 online_serving.py 发送请求(单图单轮对话) 由于多模态推理涉及图片的编解码,所以采用脚本方式调用服务API。脚本中需要配置的参数如表2脚本参数说明所示。 import base64 import requests import argparse # Function
创建训练作业时提示“对象目录大小/数量超过限制”,如何解决? 训练环境中不同规格资源“/cache”目录的大小 训练作业的“/cache”目录是否安全? 训练作业一直在等待中(排队)? 创建训练作业时,超参目录为什么有的是/work有的是/ma-user? 在ModelArts创建分布式训练时如何设置NCCL环境变量?
容器镜像所在的路径:选择上传镜像至容器镜像服务上传的路径。 容器调用接口:根据实际情况配置容器调用接口。 健康检查:保持默认。如果镜像中配置了健康检查则按实际情况配置健康检查。 图1 模型配置参数 单击“立即创建”,进入模型列表页,等模型状态变为“正常”,表示模型创建成功。 使用模型部署在线服务
String 健康检查接口路径。 period_seconds String 健康检查周期 failure_threshold String 健康检查最大失败次数 check_method String 健康检查方式:HTTP 或者 EXEC(命令行) command String 命令行命令,以空格分隔的字符串