检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
要勾选ModelArts FullAccess,请谨慎配置。 配置OBS使用权限。搜索OBS,勾选“ OBS Administrator”。ModelArts训练作业中需要依赖OBS作为数据中转站,需要配置OBS的使用权限。 配置SWR使用权限。搜索SWR,勾选“SWR Full
告警规则”,在“告警规则”界面,单击“添加告警”。 填写告警基本信息。 设置告警规则。 “规则类型”选择“阈值规则”。 “监控对象”:选择“选择资源对象”。单击选择资源对象,弹出新窗口。 添加方式:选择“按指标维度添加”。 指标名称:选择“全量指标”,搜索需要监控的cache指标名称然后选
必填,单击右边的“选择”,从容器镜像中选择上一步上传到SWR的镜像。 代码目录 选择训练代码文件所在的OBS目录。如果自定义镜像中不含训练代码则需要配置该参数,如果自定义镜像中已包含训练代码则不需要配置。 需要提前将代码上传至OBS桶中,目录内文件总大小要小于或等于5GB,文件数要小于或等于1000个,文件深度要小于或等于32。
训练输出路径被其他作业使用 问题现象 在创建训练作业时出现如下报错:操作失败!Other running job contain train_url: /bucket-20181114/code_hxm/ 原因分析 根据报错信息判断,在创建训练作业时,同一个“训练输出路径”在被其他作业使用。
PyTorch1.0引擎提示“RuntimeError: std:exception” 问题现象 在使用PyTorch1.0镜像时,必现如下报错: “RuntimeError: std:exception” 原因分析 PyTorch1.0镜像中的libmkldnn软连接与原生torch的冲突,具体可参看文档。
创建训练作业提示错误码ModelArts.2763 问题现象 创建训练作业时,提示ModelArts.2763 : 选择的支持实例无效,请检查请求中信息的合法性。 原因分析 用户选择的训练规格资源和算法不匹配。 例如:算法支持的是GPU规格,创建训练作业时选择了ASCEND规格的资源类型。
step_title String 节点的Title。 status String 状态。 请求示例 查看Workflow工作流的待办事项。 GET https://{endpoint}/v2/{project_id}/workflows/todolist?workspace_id=0 响应示例
其中,index-url为pip源ip地址,使用时需自行替换。本示例以华为源为例,具体如下: [global] index-url = https://mirrors.huaweicloud.com/repository/pypi/simple trusted-host = mirrors
String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 查询节点池的节点列表。 GET https://{endpoint}/v2/{project_id}/pools/{pool_name}/nodepools/{nodepool_name}/nodes
String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 查询资源池的节点列表。 GET https://{endpoint}/v2/{project_id}/pools/{pool_name}/nodes { } 响应示例 状态码:
error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 查询资源规格列表。 GET https://{endpoint}/v1/{project_id}/resourceflavors { } 响应示例 状态码: 200 OK。
Integer GPU卡数。 gpu_memory String GPU内存。 type String GPU类型。 请求示例 GET https://{endpoint}/v1/{project_id}/notebooks/{id}/flavors 响应示例 状态码: 200 OK
训练作业日志中提示 “AttributeError: module '***' has no attribute '***'” 问题现象 训练日志中出现AttributeError: module '***' has no attribute '***'错误。如:AttributeError:
bash Step4 安装依赖和软件包 从github拉取MiniCPM-V代码。 cd /home/ma-user git clone https://github.com/OpenBMB/MiniCPM-V.git cd /home/ma-user/MiniCPM-V git checkout
实际情况,使用generate_datasets.py脚本生成和业务数据分布接近的数据集。 公开数据集下载地址: ShareGPT: https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered
业和在线服务。删除存储到OBS中的数据及OBS桶。 Workflow:停止因运行Workflow作业而创建的训练作业和在线服务。删除存储到OBS中的数据及OBS桶。 开发环境(Notebook):删除Notebook实例。删除存储到OBS中的数据及OBS桶。 停止Notebook
训练过程中无法找到so文件 问题现象 ModelArts训练作业运行时,日志中遇到如下报错,导致训练失败: libcudart.so.9.0 cannot open shared object file no such file or directory 原因分析 编译生成s
描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 PUT https://{endpoint}/v1/{project_id}/app-auth/apps/{app_id}/app-code/{app_code}
error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 查询网络详情。 GET https://{endpoint}/v1/{project_id}/networks/{network_name} { } 响应示例 状态码:
URL。如果有queryString,那么在params栏中添加参数。在header中添加认证信息(不同认证方式有不同header,跟https的推理服务相同)。选择单击右上的connect按钮,建立WebSocket连接。 图2 获取API接口调用公网地址 如果信息正确,右下角连接状态处会显示:CONNECTED;