检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
义自定义环境变量时,不要使用“MA_”开头的名称。 如何修改环境变量 用户可以在创建训练作业页面增加新的环境变量,也可以设置新的取值覆盖当前训练容器中预置的环境变量值。 为保证数据安全,请勿输入敏感信息,例如明文密码。 训练容器中预置的环境变量 训练容器中预置的环境变量如下面表格
在ModelArts的Notebook中如何使用pandas库处理OBS桶中的数据? 参考下载OBS文件到Notebook中的指导,将OBS中的数据下载至Notebook本地处理。 参考pandas用户指南处理pandas数据。 父主题: Standard Notebook
在Windows上安装配置Grafana 在Linux上安装配置Grafana 在Notebook上安装配置Grafana 父主题: 使用Grafana查看AOM中的监控指标
型文件)推荐使用自定义镜像方式。 ModelArts推理平台不支持的AI引擎,推荐使用自定义镜像方式。 请参考创建模型的自定义镜像规范和从0-1制作自定义镜像并创建模型,制作自定义镜像。 推荐在开发环境Notebook中调试模型包,制作自定义镜像。请参考在开发环境中构建并调试推理
计费信息同步结束 [worker-0] 训练环境预检中 [worker-0] [耗时: 秒] 预检完成 [worker-0] [耗时: 秒] 检查失败。发现异常: [worker-0] [耗时: 秒] 检查失败。发现错误: [worker-0] 训练代码下载中 [worker-0] [耗时: 秒]
Session # 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以ak和sk保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。
使用自定义镜像创建训练作业找不到启动文件 问题现象 使用自定义镜像创建训练作业,出现如下报错,提示找不到运行的主文件:no such file or directory。 原因分析 根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。 处理方法 需要排查执行命令的启动文件目录是否正确,具体操作如下:
ma-cli在本地Windows/Linux环境中需要安装后在本地Terminal中使用。安装步骤具体可参考(可选)本地安装ma-cli。 ma-cli不支持在git-bash上使用。 推荐使用Linux Bash、ZSH、Fish,WSL或PowerShell等Terminal。在使用过程中,注意您的敏感信息数据保护,避免敏感信息泄露。
发布Workflow 发布Workflow到ModelArts 发布Workflow到AI Gallery 父主题: 开发Workflow命令参考
Workflow高阶能力 在Workflow中使用大数据能力(DLI/MRS) 在Workflow中指定仅运行部分节点 父主题: 开发Workflow命令参考
作业卡在tensorboard中,出现报错: writer = Sumarywriter('./path)/to/log') 解决方案3 存储路径设为本地路径,如cache/tensorboard,不要使用OBS路径。 问题现象4 使用pytorch中的dataloader读数据时
修改训练作业优先级 使用专属资源池训练作业时,支持在创建训练作业时设置任务优先级,也支持作业在长时间处于“等待中”的状态时调整优先级。如通过调整作业优先级可以减少作业的排队时长。 什么是训练作业优先级 在用户运行训练作业过程中,需要对训练作业做优先级划分。比如有一些任务是低优先级
ulimit 使用IB网络时 max locked memory > 16000 open files > 1000000 stack size > 8000 max user processes > 1000000 gpu检查 gpu-check 使用gpu,且使用v2训练引擎时(北京四暂无)
标签详细用法请参见ModelArts如何通过标签实现资源分组管理。 Cloud Shell 允许用户使用ModelArts控制台提供的CloudShell登录运行中在线服务实例容器,详情请见使用CloudShell调试在线服务实例容器。 修改服务个性化配置 服务个性化配置规则由配置条件、
Step4 测试用户权限 由于4中的权限需要等待15-30分钟生效,建议在配置完成后,等待30分钟,再执行如下验证操作。 使用用户组02中任意一个子账号登录ModelArts管理控制台。在登录页面,请使用“IAM用户登录”方式进行登录。 首次登录会提示修改密码,请根据界面提示进行修改。
(可选)本地安装ma-cli 使用场景 本文以Windows系统为例,介绍如何在Windows环境中安装ma-cli。 Step1:安装ModelArts SDK 参考本地安装ModelArts SDK完成SDK的安装。 Step2:下载ma-cli 下载ma-cli软件包。 完成软件包签名校验。
升级。按要求进行升级前准备,做好验证,即可实现业务不中断的无损升级。 表1 支持无损滚动升级的场景 创建模型的元模型来源 服务使用的是公共资源池 服务使用的是专属资源池 从训练中选择元模型 不支持 不支持 从容器镜像中选择元模型 不支持 支持,创建模型的自定义镜像需要满足创建模型的自定义镜像规范。
升级。按要求进行升级前准备,做好验证,即可实现业务不中断的无损升级。 表1 支持无损滚动升级的场景 创建模型的元模型来源 服务使用的是公共资源池 服务使用的是专属资源池 从训练中选择元模型 不支持 不支持 从容器镜像中选择元模型 不支持 支持,创建模型的自定义镜像需要满足创建模型的自定义镜像规范。
置的参数,您仅需在原来的基础上进行修改即可重新创建训练作业。 停止训练作业 在训练作业列表中,针对“创建中”、“等待中”、“运行中”的训练作业,您可以单击“操作”列的“终止”,停止正在运行中的训练作业。 训练作业停止后,ModelArts将停止计费。 运行结束的训练作业,如“已完
本次批量服务的任务结束时间。 描述 您可以单击编辑按钮,添加服务描述。 输入数据目录位置 本次批量服务中,输入数据的OBS路径。 输出数据目录位置 本次批量服务中,输出数据的OBS路径。 模型名称&版本 本次批量服务所使用的模型名称及版本。 运行日志输出 默认关闭,批量服务的运行日志仅存放在ModelArts日志系统。