检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练作业中如何判断文件夹是否复制完毕? 您可以在训练作业启动文件的脚本中,通过如下方式获取复制和被复制文件夹大小,根据结果判断是否复制完毕: import moxing as mox mox.file.get_size('obs://bucket_name/obs_file',recursive=True)
开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图1 开启故障重启 断点续训练是通过checkpoint机制实现。c
ReadWriteMany:读写方式(默认值) 表6 auto_stop定义数据结构说明 参数 是否必选 参数类型 说明 enable 否 Boolean 是否开启自动停止功能, true表示开启,则会在运行时长到达之后自动停止实例,false表示关闭,默认为false。 duration
Serverless化实例管理,资源自动回收 免费算力,规格按需切换 亮点特性1:远程开发 - 支持本地IDE远程访问Notebook Notebook提供了远程开发功能,通过开启SSH连接,用户本地IDE可以远程连接到ModelArts的Notebook开发环境中,调试和运行代码。 对于使用本地IDE的开发者,由于
error”错误,可以运行代码,但是无法保存 如果当前Notebook还可以运行代码,但是无法保存,保存时会提示“save error”错误。大多数原因是华为云WAF安全拦截导致的。 当前页面,即用户的输入或者代码运行的输出有一些字符被华为云拦截,认为有安全风险。出现此问题时,请提交工单,联系专业的工程师帮您核对并处理问题。
error”错误,可以运行代码,但是无法保存 如果当前Notebook还可以运行代码,但是无法保存,保存时会提示“save error”错误。 大多数原因是华为云WAF安全拦截导致的。当前页面,即用户的输入或者代码运行的输出有一些字符被华为云拦截,认为有安全风险。 出现此问题时,请提交工单,联系专业的工程师帮您核对并处理问题。
moxing.tensorflow是否包含整个TensorFlow,如何对生成的checkpoint进行本地Fine Tune? 问题现象 使用MoXing训练模型,“global_step”放在Adam名称范围下,而非MoXing代码中没有Adam名称范围,如图1所示。其中1为
是怎么判定训练任务结束?如何知道是哪个节点是worker呢? TensorFlow框架分布式训练的情况下,会启动ps与worker任务组,worker任务组为关键任务组,会以worker任务组的进程退出码,判断训练作业是否结束。 通过task name判断的哪个节点是worker。下发的训练作业是一个volcano
创建模型成功后,部署服务报错,如何排查代码问题 问题现象 创建模型成功后,部署服务失败,如何定位是模型代码编写有问题。 原因分析 用户自定义镜像或者通过基础镜像导入的模型时,用户自己编写了很多自定义的业务逻辑,这些逻辑有问题将会导致服务部署或者预测失败,需要能够排查出哪里有问题。
训练作业如何调用shell脚本,是否可以执行.sh文件? ModelArts支持调用shell脚本,可以使用python调用“.sh”。具体操作步骤如下: 上传“.sh”脚本至OBS桶,例如“.sh”所在存储位置为 “ /bucket-name/code/test.sh”。 在本地创建“
请您根据报错原因排查创建训练作业时指定的代码目录,即OBS桶的路径是否正确。有两种方法判断是否存在。 使用当前账户登录OBS管理控制台,去查找对应的OBS桶、文件夹、文件是否存在。 通过接口判断路径是否存在。在代码中执行如下命令,检查路径是否存在。 import moxing as mox mox
ToolKit的日志,报错信息为:Error occurs when accessing to OBS。 原因分析 可能是用户无OBS权限。 解决方法 判断用户是否有OBS权限。 登录ModelArts控制台,进入“数据管理 > 数据集 ”,单击“创建数据集”,如果可以成功访问对应的OBS路径,表
使用从OBS选择的数据创建表格数据集如何处理Schema信息? Schema信息表示表格的列名和对应类型,需要跟导入数据的列数保持一致。 若您的原始表格中已包含表头,需要开启“导入是否包含表头”开关,系统会导入文件的第一行(表头)作为列名,无需再手动修改Schema信息。 若您的
在ModelArts中如何查看OBS目录下的所有文件? 在使用Notebook或训练作业时,需要查看目录下的所有文件,您可以通过如下方式实现: 通过OBS管理控制台进行查看。 使用当前账户登录OBS管理控制台,去查找对应的OBS桶、文件夹、文件。 通过接口判断路径是否存在。在已有的No
训练好的模型是否可以下载或迁移到其他账号?如何获取下载路径? 通过训练作业训练好的模型可以下载,然后将下载的模型上传存储至其他账号对应区域的OBS中。 获取模型下载路径 登录ModelArts管理控制台,在左侧导航栏中选择“模型训练 > 训练作业”,进入“训练作业”列表。 在训练
如果是专属资源池,建议您进行以下排查: 排查专属资源池中是否存在其他作业(包括推理作业、训练作业、开发环境作业等)。 可通过总览页面,快速判断是否有其他模块的作业或实例在运行中,并进入到相关作业或实例上,判断是否使用了专属资源池。如判断相关作业或实例可停止,则可以停止,释放出更多的资源。
在专属资源池列表中,单击资源池“ID/名称”,进入详情页。单击右上角“配置NAS VPC”,检查是否开启了NAS VPC。详情页面的“NAS VPC名称”和“NAS 子网ID”如果为空则证明没有开启,单击右上角配置NAS VPC即可。 如果单击开启后报错,可能是由于对应的VPC已经创建了对等连接,删除对等连接即可。
png")。 开启支持APP认证功能 在部署为在线服务时,您可以开启支持APP认证功能。或者针对已部署完成的在线服务,您可以修改服务,开启支持APP认证功能。 登录ModelArts管理控制台,在左侧菜单栏中选择“模型部署 > 在线服务”,进入在线服务管理页面。 开启支持APP认证功能。
/etc/ssh/sshd_config #开启防暴力机制 sed -i "s/^.ClientAliveInterval.*/ClientAliveInterval 300/g" /etc/ssh/sshd_config #开启会话超时机制 systemctl restart
系统变量中。 重新打开CMD,并执行ssh,结果如下图即说明安装成功,如果还未装成功则执行5和6。 OpenSSH默认端口为22端口,开启防火墙22端口号,在CMD执行以下命令: netsh advfirewall firewall add rule name=sshd dir=in