检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
line error" 问题现象 在程序运行过程中,刷出大量错误日志“[ModelArts Service Log]modelarts-pipe: write line error”。并且问题是必现问题,每次运行到同一地方的时候,出现错误。 原因分析 出现该问题的可能原因如下: 程序
_url”代替算法中数据来源和数据输出所需的路径。 在使用预置框架创建算法时,根据1中的代码参数设置定义的输入输出参数。 训练数据是算法开发中必不可少的输入。“输入”参数建议设置为“data_url”,表示数据输入来源,也支持用户根据1的算法代码自定义代码参数。 模型训练结束后,
资源池创建失败的原因与解决方法? 本文主要介绍在ModelArts资源池创建失败时,如何查找失败原因,并解决问题。 问题定位 您可以参考以下步骤,查看资源池创建失败的报错信息,并根据相应的解决方法解决问题: 登录ModelArts控制台,单击弹性集群,单击资源池列表上方的“操作记录”查看创建失败的资源池。
登录OBS控制台,进入自己创建的OBS桶中,删除存储在OBS中的数据。操作完成后,OBS服务即停止计费。 对于使用专属资源池创建的自动学习作业: 登录ModelArts控制台,在自动学习作业列表中,删除正在扣费的自动学习作业。在训练作业列表中,停止因运行自动学习作业而创建的训练作业。在在线服
/bucket-name/code/test.sh”。 在本地创建“.py”文件,例如“test.py”。由于后台会自动将代码目录下载至容器的“/home/work/user-job-dir/”目录下,因此您可以在启动文件“test.py”中通过如下方式调用“.sh”文件: import
在Notebook中,如何使用昇腾多卡进行调试? 昇腾多卡训练任务是多进程多卡模式,跑几卡需要起几个python进程。昇腾底层会读取环境变量:RANK_TABLE_FILE,开发环境已经设置,用户无需关注。比如跑八卡,可以如下片段代码: export RANK_SIZE=8
Standard上运行GPU训练任务的场景介绍 不同AI模型训练所需要的数据量和算力不同,在训练时选择合适的存储及训练方案可提升模型训练效率与资源性价比。ModelArts Standard支持单机单卡、单机多卡和多机多卡的训练场景,满足不同AI模型训练的要求。 ModelArts S
训练作业中如何判断文件夹是否复制完毕? 您可以在训练作业启动文件的脚本中,通过如下方式获取复制和被复制文件夹大小,根据结果判断是否复制完毕: import moxing as mox mox.file.get_size('obs://bucket_name/obs_file',recursive=True)
管理我的服务 修改MaaS模型服务 更新MaaS模型服务的模型权重
模型转换报错如何查看日志和定位? 通过如下的配置项打开对应的模型转换日志,可以看到更底层的报错。如配置以下的环境变量之后,再重新转换模型,导出对应的日志和dump图进行分析: 报错日志中搜到“not support onnx data type”,表示MindSpore暂不支持该算子。
emory四个软件。 但是如果nvidia和cuda是使用runfile(local)方式安装的,那么需要在下一步中再次卸载。 若使用nvidia run包直接安装的驱动,需要找到对应的卸载命令。 sudo /usr/bin/nvidia-uninstall sudo /usr/local/cuda-11
使用自定义镜像创建在线服务,如何修改默认端口 当模型配置文件中定义了具体的端口号,例如:8443,创建AI应用没有配置端口(默认端口号为8080),或者配置了其他端口号,均会导致服务部署失败。您需要把AI应用中的端口号配置为8443,才能保证服务部署成功。 修改默认端口号,具体操作如下:
自动学习使用子账号单击开始训练出现错误Modelarts.0010 用主账号给子账号配置ModelArts所使用的OBS桶的ACL权限即可。 父主题: 模型训练
训练专属资源池如何与SFS弹性文件系统配置对等链接? 配置训练专属资源池与SFS弹性文件系统的对等链接,需要资源池打通VPC,使得资源池与SFS弹性文件系统所配置的VPC相同。配置完成后,在创建训练作业时,就可以看到SFS的配置选项。 打通VPC步骤请参考打通VPC。 父主题: Standard资源池
OBS目录中的文件创建训练作业。如果选择通过数据集作为训练任务的数据源,则需要指定数据集及特定的版本。因此,用户需要为准备好的数据发布一个版本,具体操作参考发布ModelArts数据集中的数据版本。 为了便于后期的模型构建和开发,对同一数据源来说,将其不同时间对数据的处理和标注按
Notebook实例重新启动后,需要删除本地known_hosts才能连接 可以在本地的ssh config文件中对这个Notebook配置参数“StrictHostKeyChecking no”和“UserKnownHostsFile=/dev/null”,如下参考所示: Host
专属资源池购买后,中途扩容了一个节点,如何计费? 华为云会重新计算一个增加了该节点的账单,付费以后才能使用。 父主题: Standard资源池
查看RANK_TABLE_FILE: 1 env | grep RANK 在训练作业中,您可以在训练启动脚本的首行加入如下代码,把RANK_TABLE_FILE的值打印出来: 1 os.system('env | grep RANK') 父主题: 功能咨询
资源选择推荐 不同AI模型训练所需要的数据量和算力不同,在训练时选择合适存储及训练方案可提升模型训练效率与资源性价比。ModelArts支持单机单卡、单机多卡和多机多卡的训练场景,满足不同AI模型训练的要求。针对第一次使用ModelArts的用户,本文提供端到端案例指导,帮助您快
ModelArts提供多版本支持和灵活的流量策略,您可以通过使用灰度发布,实现模型版本的平滑过渡升级。修改服务部署新版本模型或者切换模型版本时,原服务预测API不会变化。 调整模型版本的操作可以参考如下的步骤。 前提条件 已存在部署完成的服务。 已完成模型调整,创建AI应用新版本。