检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
step_title String 节点的Title。 status String 状态。 请求示例 查看Workflow工作流的待办事项。 GET https://{endpoint}/v2/{project_id}/workflows/todolist?workspace_id=0 响应示例
end:20240606 步骤六 编写Config.yaml文件 k8s有两种方式来管理对象: 命令式,即通过Kubectl指令直接操作对象。 声明式,通过定义资源YAML格式的文件来操作对象。 首先给出单个节点训练的config.yaml文件模板,用于配置pod。而在训练中,需
end:20240606 步骤六 编写Config.yaml文件 k8s有两种方式来管理对象: 命令式,即通过Kubectl指令直接操作对象。 声明式,通过定义资源YAML格式的文件来操作对象。 首先给出单个节点训练的config.yaml文件模板,用于配置pod。而在训练中,需
训练过程中无法找到so文件 问题现象 ModelArts训练作业运行时,日志中遇到如下报错,导致训练失败: libcudart.so.9.0 cannot open shared object file no such file or directory 原因分析 编译生成s
bash Step4 安装依赖和软件包 从github拉取MiniCPM-V代码。 cd /home/ma-user git clone https://github.com/OpenBMB/MiniCPM-V.git cd /home/ma-user/MiniCPM-V git checkout
实际情况,使用generate_datasets.py脚本生成和业务数据分布接近的数据集。 公开数据集下载地址: ShareGPT: https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered
String 数据集的版本名称,名称仅包含数字、字母、中划线和下划线,长度是0-32位。 请求示例 查询某个数据集的特征分析任务历史列表 GET https://{endpoint}/v2/{project_id}/processor-tasks?offset=0&limit=10&sort
业和在线服务。删除存储到OBS中的数据及OBS桶。 Workflow:停止因运行Workflow作业而创建的训练作业和在线服务。删除存储到OBS中的数据及OBS桶。 开发环境(Notebook):删除Notebook实例。删除存储到OBS中的数据及OBS桶。 停止Notebook
接口启动2种方式。详细启动服务与请求方式参考:https://docs.vllm.ai/en/latest/getting_started/quickstart.html。 以下服务启动介绍的是在线推理方式,离线推理请参见https://docs.vllm.ai/en/lates
使用moxing适配OBS路径,pandas读取文件报错 问题现象 使用moxing适配OBS路径,然后用较高版本的pandas读取OBS文件报出如下错误: 1.‘can't decode byte xxx in position xxx’ 2.‘OSError:File isn't
"manifest_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/annotation/V002/V002.manifest", "data_path" : "/test-obs/classify/outpu
重装的包与镜像装CUDA版本不匹配 问题现象 在现有镜像基础上,重新装了引擎版本,或者编译了新的CUDA包,出现如下错误: 1.“RuntimeError: cuda runtime error (11) : invalid argument at /pytorch/aten/s
使用generate_datasets.py脚本生成和业务数据分布接近的数据集。 方法一:使用公开数据集 ShareGPT下载地址: https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered
PyTorch1.0引擎提示“RuntimeError: std:exception” 问题现象 在使用PyTorch1.0镜像时,必现如下报错: “RuntimeError: std:exception” 原因分析 PyTorch1.0镜像中的libmkldnn软连接与原生torch的冲突,具体可参看文档。
创建训练作业提示错误码ModelArts.2763 问题现象 创建训练作业时,提示ModelArts.2763 : 选择的支持实例无效,请检查请求中信息的合法性。 原因分析 用户选择的训练规格资源和算法不匹配。 例如:算法支持的是GPU规格,创建训练作业时选择了ASCEND规格的资源类型。
Abnormal:SFS连通状态异常 ipAddr String SFS Turbo的访问地址。 请求示例 查询资源池列表。 GET https://{endpoint}/v2/{project_id}/pools { } 响应示例 状态码: 200 OK。 { "kind"
描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 GET https://{endpoint}/v1/{project_id}/services/{service_id}/app-auth-apis/{api_id}/api-auths
接口启动2种方式。详细启动服务与请求方式参考:https://docs.vllm.ai/en/latest/getting_started/quickstart.html。 以下服务启动介绍的是在线推理方式,离线推理请参见https://docs.vllm.ai/en/lates
日志提示“Please upgrade numpy to >= xxx to use this pandas version” 问题现象 在安装其他包的时候,有依赖冲突,对numpy库有其他要求,但是发现numpy卸载不了。出现如下类似错误: your numpy version
描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 GET https://{endpoint}/v1/{project_id}/app-auth/apps 响应示例 状态码: 200 OK { "apps"