检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在ModelArts训练作业中如何判断文件夹是否复制完毕? 您可以在训练作业启动文件的脚本中,通过如下方式获取复制和被复制文件夹大小,根据结果判断是否复制完毕: import moxing as mox mox.file.get_size('obs://bucket_name/obs_file'
开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图1 开启故障重启 断点续训练是通过checkpoint机制实现。c
ReadWriteMany:读写方式(默认值) 表6 auto_stop定义数据结构说明 参数 是否必选 参数类型 说明 enable 否 Boolean 是否开启自动停止功能, true表示开启,则会在运行时长到达之后自动停止实例,false表示关闭,默认为false。 duration
创建模型成功后,部署服务报错,如何排查代码问题 问题现象 创建模型成功后,部署服务失败,如何定位是模型代码编写有问题。 原因分析 用户自定义镜像或者通过基础镜像导入的模型时,用户自己编写了很多自定义的业务逻辑,这些逻辑有问题将会导致服务部署或者预测失败,需要能够排查出哪里有问题。
服务启动失败,提示拉取镜像失败,请参考服务部署、启动、升级和修改时,拉取镜像失败如何处理? 资源不足,服务调度失败 服务启动失败,提示资源不足,服务调度失败,请参考服务部署、启动、升级和修改时,资源不足如何处理? 内存不足 服务启动失败,提示内存不足,请参考内存不足如何处理? 父主题: 服务部署
Serverless化实例管理,资源自动回收 免费算力,规格按需切换 亮点特性1:远程开发 - 支持本地IDE远程访问Notebook Notebook提供了远程开发功能,通过开启SSH连接,用户本地IDE可以远程连接到ModelArts的Notebook开发环境中,调试和运行代码。 对于使用本地IDE的开发者,由于
在ModelArts中如何查看OBS目录下的所有文件? 在使用Notebook或训练作业时,需要查看目录下的所有文件,您可以通过如下方式实现: 通过OBS管理控制台进行查看。 使用当前账户登录OBS管理控制台,去查找对应的OBS桶、文件夹、文件。 通过接口判断路径是否存在。在已有的No
如何在Notebook中安装外部库? ModelArts Notebook中已安装Jupyter、Python程序包等多种环境,包括TensorFlow、MindSpore、PyTorch、Spark等。您也可以使用pip install在Notobook或Terminal中安装外部库。
error”错误,可以运行代码,但是无法保存 如果当前Notebook还可以运行代码,但是无法保存,保存时会提示“save error”错误。 大多数原因是华为云WAF安全拦截导致的。当前页面,即用户的输入或者代码运行的输出有一些字符被华为云拦截,认为有安全风险。 出现此问题时,请提交工单,联系专业的工程师帮您核对并处理问题。
png")。 开启支持APP认证功能 在部署为在线服务时,您可以开启支持APP认证功能。或者针对已部署完成的在线服务,您可以修改服务,开启支持APP认证功能。 登录ModelArts管理控制台,在左侧菜单栏中选择“模型部署 > 在线服务”,进入在线服务管理页面。 开启支持APP认证功能。
确定性计算会导致API执行性能降低,通常不需要在精度问题刚开始定位时就开启,而是建议在发现模型多次执行结果不同的情况下时再开启。 rnn类算子、ReduceSum、ReduceMean等算子可能与确定性计算存在冲突,如果开启确定性计算后多次执行的结果不相同,则考虑存在这些算子。 否 函数示例
系统变量中。 重新打开CMD,并执行ssh,结果如下图即说明安装成功,如果还未装成功则执行5和6。 OpenSSH默认端口为22端口,开启防火墙22端口号,在CMD执行以下命令: netsh advfirewall firewall add rule name=sshd dir=in
Notebook无法执行代码,如何处理? 当Notebook出现无法执行时,您可以根据如下几种情况判断并处理。 如果只是Cell的执行过程卡死或执行时间过长,如图1中的第2个和第3个Cell,导致第4个Cell无法执行,但整个Notebook页面还有反应,其他Cell也还可以单击
方式一:单击“操作”列的“更多 > VS Code接入”。弹出“是否打开Visual Studio Code?”对话框。 图1 打开VS Code接入 方式二:单击“操作”列的“打开”,自动进入Launcher页面,然后单击“VS Code”。弹出“是否打开Visual Studio Code?”对话框。
moxing.tensorflow是否包含整个TensorFlow,如何对生成的checkpoint进行本地Fine Tune? 问题现象 使用MoXing训练模型,“global_step”放在Adam名称范围下,而非MoXing代码中没有Adam名称范围,如图1所示。其中1为
multi-step 什么是multi-step vLLM的调度和输入准备的CPU开销可能会导致NPU利用率不足,开启multi-step调度可以有效解决这个问题,开启multi-step调度后会在执行一次调度和输入准备后,连续n步运行模型。通过NPU在n步之间连续处理,而无需等待
请您根据报错原因排查创建训练作业时指定的代码目录,即OBS桶的路径是否正确。有两种方法判断是否存在。 使用当前账户登录OBS管理控制台,去查找对应的OBS桶、文件夹、文件是否存在。 通过接口判断路径是否存在。在代码中执行如下命令,检查路径是否存在。 import moxing as mox mox
如何切分ModelArts数据集? 在发布数据集时,仅“图像分类”、“物体检测”、“文本分类”和“声音分类”类型数据集支持进行数据切分功能。 一般默认不启用该功能。启用后,需设置对应的训练验证比例。 输入“训练集比例”,数值只能是0~1区间内的数。设置好“训练集比例”后,“验证集
在专属资源池列表中,单击资源池“ID/名称”,进入详情页。单击右上角“配置NAS VPC”,检查是否开启了NAS VPC。详情页面的“NAS VPC名称”和“NAS 子网ID”如果为空则证明没有开启,单击右上角配置NAS VPC即可。 如果单击开启后报错,可能是由于对应的VPC已经创建了对等连接,删除对等连接即可。
如何定位Workflow运行报错 使用run模式运行工作流报错时,分析解决思路如下: 确认安装的SDK包是否是最新版本,避免出现包版本不一致问题。 检查编写的SDK代码是否符合规范,具体可参考相应的代码示例。 检查运行过程中输入的内容是否正确,格式是否与提示信息中要求的一致。 根