检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
推荐使用“西南-贵阳一”Region上的昇腾资源。 创建OBS桶 ModelArts使用对象存储服务(Object Storage Service,简称OBS)进行数据存储以及模型的备份和快照,实现安全、高可靠和低成本的存储需求。因此,在使用ModelArts之前通常先创建一个OBS桶,然后在OBS桶中创建文件夹用于存放数据。
推荐使用“西南-贵阳一”Region上的昇腾资源。 创建OBS桶 ModelArts使用对象存储服务(Object Storage Service,简称OBS)进行数据存储以及模型的备份和快照,实现安全、高可靠和低成本的存储需求。因此,在使用ModelArts之前通常先创建一个OBS桶,然后在OBS桶中创建文件夹用于存放数据。
准备需要导入的数据,具体可参见从Manifest文件导入规范说明。 需导入的数据,已存储至OBS中。Manifest文件也需要存储至OBS。 确保数据存储的OBS桶与ModelArts在同一区域,并确保用户具有OBS桶的操作权限。 文件型数据从Manifest导入操作 不同类型的数据集,导入操
给子账号配置"设置作业为高优先级"权限 默认用户权限可选择优先级1和2,配置了"设置作业为高优先级"权限的用户可选择优先级1~3。 使用主用户账号登录华为云的管理控制台,单击右上角用户名,在下拉框中选择“统一身份认证”,进入统一身份认证(IAM)服务。 在统一身份认证服务页面的左侧导航选择“权限管理
如何在ModelArts的Notebook中上传下载OBS文件? 在Notebook中可以通过调用ModelArts的Moxing接口或者SDK接口与OBS交互,将Notebook中的文件上传至OBS,或者下载OBS中的文件至Notebook中。 图1 Notebook中上传下载OBS文件 使用OBS客户端上传文件的操作指导:上传文件
原来已经建立的链接依然有效, 当链接关闭后失效;新打开建立的链接只允许当前设置的IP进行访问。 此处的IP地址,请填写外网IP地址。如果用户使用的访问机器和华为云ModelArts服务的网络有隔离,则访问机器的外网地址需要在主流搜索引擎中搜索“IP地址查询”获取,而不是使用ipconfig或ifconfig/ip命令在本地查询。
CPU使用率 该指标用于统计测量对象的CPU使用率。 百分比(Percent) 0~100% 内存利用率 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 百分比(Percent) 0~100% GPU显卡使用率 该指标用于统计测量对象已使用的显卡占显卡容量的百分比。
此案例中的单价仅为示例,且计算出的费用为估算值。单价的变动和实际场景中计算出来的费用可能会有偏差。请以华为云官网发布的数据为准。 在使用ModelArts进行AI开发时,会将数据保存至OBS、EVS或SFS中,此时会产生单独的存储计费,具体费用以OBS、EVS和SFS的计费标准为准。 计费模式 计算规则 付费周期 费用计算
通过ModelArts预置算法训练得到的模型是保存在OBS桶里的,模型支持下载到本地。 在训练作业列表找到需要下载模型的训练作业,单击名称进入详情页,获取训练输出路径。 图1 获取训练输出位置 单击“输出路径”,跳转至OBS对象路径,下载训练得到的模型。 在本地环境进行离线部署。
endpoint: obs.xxxx.com” 问题现象 训练作业中使用Tensorboard直接写入到OBS路径,在日志中出现报错信息“ValueError: Invalid endpoint: obs. xxxx.com”。 原因分析 出现该问题的可能原因: 直接在OBS上写tensorboard文件,存在不稳定的风险。
由于AI机型规格相对较大,资源池所需的ECS实例数、内存大小、CPU核数和EVS硬盘大小很可能会超出华为云默认提供的资源配额,因此需要申请扩大配额。请先联系客户经理确认资源配额提升具体方案,再参考本章节申请扩大配额。 登录华为云管理控制台。 在顶部导航栏单击“资源 > 我的配额”,进入服务配额页面。 图6
TensorFlow-1.8作业连接OBS时反复出现提示错误 问题现象 基于TensorFlow-1.8启动训练作业,并在代码中使用“tf.gfile”模块连接OBS,启动训练作业后会频繁打印如下日志信息: Connection has been released. Continuing
桶区域位置) obs:object:GetObject(获取对象内容、获取对象元数据) obs:object:GetObjectVersion(获取对象内容、获取对象元数据) obs:object:PutObject(PUT上传、POST上传、复制对象、追加写对象、初始化上传段任务、上传段、合并段)
adjust the signer 原因分析 OBS限制单次上传文件大小为5GB,TensorFlow保存summary可能是本地缓存,在每次触发flush时将该summary文件覆盖OBS上的原文件。当超过5GB后,由于达到了OBS单次导入文件大小的上限,导致无法继续写入。 处理方法
支持。 ModelArts Lite资源池对应的CCE集群需要安装1.10.12及以上版本的华为云版Volcano插件。Volcano调度器的安装升级请参见Volcano调度器。仅华为云版Volcano插件支持开启路由加速特性。 训练使用的Python版本是3.7或3.9,否则无法实现ranktable路由加速。
根据部署在线服务生成的服务对象删除服务。 根据查询服务对象列表返回的服务对象删除服务。 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式1:根据部署在线服务生成的服务对象删除服务 1 2 3
选择的目录下不符合模型包规范,将无法创建模型。 图1 从OBS中选择元模型 表2 元模型来源参数说明 参数 说明 “元模型来源” 选择“从对象存储服务(OBS)中选择”。 “选择元模型” 选择元模型存储的OBS路径。 OBS路径不能含有空格,否则创建模型会失败。 “AI引擎” 根
可选项,输入自定义镜像swr路径地址(使用的自定义镜像和预置的训练镜像引擎一致) Data OBS Path OBS上的数据集路径(需要提前把数据上传到OBS中) Training OBS Path OBS路径(该路径必须是存在的),用于保存代码和训练模型及日志的输出 Running Parameters
一个桶的文件,导致OBS桶限流。 OBS Client连接数过多,进程/线程之间的轮询,导致一个OBS Client与服务端连接30S内无响应,超过超时时间,服务端断开了连接。 处理方法 如果是限流问题,日志中还会出现如下报错,OBS相关的错误码解释请参见OBS官方文档,这种情况建议提工单。
ModelArts通过OBS的API访问OBS中的文件,属于内网还是公网访问? 在同一区域,ModelArts通过OBS的API访问OBS中的文件属于内网通信,不消耗公网流量费。 如果是通过互联网从OBS下载数据到本地,这时候会产生OBS公网流量费。OBS的详细计费说明可以参见计费项。