检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ModelArts的数据清洗通过PCC算子实现。图像分类或者物体检测的数据集中可能存在非所需类别的图像,需要将这些图像去除掉,以免对标注、模型训练造成干扰。 图5 PCC算子效果 参数说明 表1 数据清洗-PCC算子参数说明 参数名 是否必选 默认值 参数说明 prototype_sample_path
1%} |") 执行nvidia_smi + wapper + prettytable命令。 用户可以将GPU信息显示操作看作一个装饰器,在模型训练过程中就可以实时的显示GPU状态信息。 def gputil_decorator(func): def wrapper(*args
name 否 String 输出数据的名称。 type 否 String 输出项类型。枚举值如下: obs:OBS model:AI应用元模型 config 否 Map<String,Object> 输出配置。 表6 WorkflowErrorInfo 参数 是否必选 参数类型 描述
监控资源 用户可以通过资源占用情况窗口查看计算节点的资源使用情况,最多可显示最近三天的数据。在资源占用情况窗口打开时,会定期向后台获取最新的资源使用率数据并刷新。 操作一:如果训练作业使用多个计算节点,可以通过实例名称的下拉框切换节点。 操作二:单击图例“cpuUsage”、“g
做测试验证,可以不需要通过创建deployment或者volcano job的方式,直接启动容器进行测试。训练测试用例使用NLP的bert模型,详细代码和指导可参考Bert。 拉取镜像。本测试镜像为bert_pretrain_mindspore:v1,已经把测试数据和代码打进镜像中。
训练作业性能降低 问题现象 使用ModelArts平台训练算法训练耗时增加。 原因分析 可能存在如下原因: 平台上的代码经过修改优化、训练参数有过变更。 训练的GPU硬件工作出现异常。 处理方法 请您对作业代码进行排查分析,确认是否对训练代码和参数进行过修改。 检查资源分配情况(
续费概述 续费简介 包年/包月专属资源池到期后会影响ModelArts正常使用。如果您想继续使用,需要在指定的时间内为资源池续费,否则资源会自动释放,数据丢失且不可恢复。 续费操作仅适用于包年/包月专属资源池,按需计费专属资源池不需要续费,只需要保证账户余额充足即可。 专属资源池
管理标注数据 同步新数据 ModelArts会自动将数据集中新增的数据同步至标注作业,包含数据及当前标注作业支持的标注信息。 为了快速获取数据集中最新数据,可在标注作业详情页的“全部”、“未标注”或“已标注”页签中,单击“同步新数据”,快速将数据集中的数据添加到标注作业中。 问题现象:
推理部署计费项 计费说明 在ModelArts进行服务部署时,会产生计算资源和存储资源的累计值计费。计算资源为运行推理服务的费用。存储资源包括数据存储到OBS的计费。具体内容如表1所示。 表1 计费项 计费项 计费项说明 适用的计费模式 计费公式 计算资源 公共资源池 使用计算资源的用量。
在ModelArts的Notebook中不同规格资源/cache目录的大小是多少? 创建Notebook时,可以根据业务数据量的大小选择资源。 ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源,不同资源规格有不同的容量。
com/huggingface/diffusers.git -b v0.11.1-patch git clone Hugging Face上的模型,以SD模型为例。如果下载时若出现“SSL_ERROR_SYSCALL”报错,多重试几次即可。另外由于网络限制以及文件较大,下载可能很慢需要数个
Cluster资源池节点故障如何定位 故障说明和处理建议 图1 Lite池故障处理流程 对于ModelArts Lite资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondtition中。同时,节点
参数类型 描述 name String 输出数据的名称。 type String 输出项类型。枚举值如下: obs:OBS model:AI应用元模型 config Map<String,Object> 输出配置。 表9 WorkflowErrorInfo 参数 参数类型 描述 error_code
name 否 String 输出数据的名称。 type 否 String 输出项类型。枚举值如下: obs:OBS model:AI应用元模型 config 否 Map<String,Object> 输出配置。 表6 WorkflowErrorInfo 参数 是否必选 参数类型 描述
训练使用的Python版本是3.7或3.9,否则无法实现ranktable路由加速。 训练作业的任务节点数要大于或等于3,否则会跳过ranktable路由加速。建议在大模型场景(512卡及以上)使用ranktable路由加速。 脚本执行目录不能是共享目录,否则ranktable路由加速会失败。 路由加速的原理
Gallery。 代码化参数插件的使用 代码参数化插件可以降低Notebook案例的复杂度,用户无需感知复杂的源码,按需调整参数快速进行案例复现、模型训练等。该插件可用于定制Notebook案例,适用于比赛、教学等场景。 仅对Code cell类型新增了Edit Form和Add For
_file_url和engine_id无需填写。请从查询作业引擎规格接口获取引擎规格ID。 model_id 是 Long 训练作业的内置模型ID。请通过查询预置算法接口获取model_id。填入model_id后app_url/boot_file_url和engine_id无需填写。
发的所有必要功能权限,如数据的访问、训练任务的创建和管理等。一般用户选择此项即可。 如何获取访问密钥AK/SK? 如果在其他功能(例如访问模型服务等)中使用到访问密钥AK/SK认证,获取AK/SK方式请参考如何获取访问密钥章节。 如何删除已有委托列表下面的委托名称? 图11 已有委托
步骤总览 单机单卡 资源购买: 购买对象存储服务OBS 购买容器镜像服务SWR 创建网络 购买ModelArts专属资源池 基本配置: 权限配置 obsutils安装和配置 (可选)工作空间配置 训练: 线下容器镜像构建及调试 上传镜像 上传数据和算法至OBS(首次使用时需要) 使用Notebook进行代码调试
Lite Cluster高危操作一览表 当您在CCE、ECS或BMS服务控制台直接操作ModelArts Lite Lite Cluster资源时,可能会导致资源池部分功能异常。下表可帮助您定位异常出现的原因,风险操作包括但不限于以下内容。 高危操作风险等级说明: 高:对于可能直