检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 GET https://{endpoint}/v2/{project_id}/statistics/pools/{pool_name}/workloads
型开发、训练、管理、部署功能,可灵活使用其中一个或多个功能。 支持本地IDE+ModelArts 插件远程开发能力,线上线下协同开发,开发训练一体化架构,支持大模型分布式部署及推理。 统一管理AI开发全流程,提升开发效率,记录模型构建实验全流程。 多场景部署,灵活满足业务需求 支持云端/边端部署等多种生产环境。
请求是否成功。 请求示例 如下以查询“job_id”为10,“version_id”为10,文件名为“log1.log”的日志为例。 GET https://endpoint/v1/{project_id}/training-jobs/10/versions/10/aom-log?log_file=log1
"api_remark" : "string", "auth_type" : "APP", "predict_url" : "https://3565150c2e5c45d0989be40350dd80ed.apig.xxxxxx.com/test", "service_id"
定时调度策略中的标记,失败时触发。 on_running String 定时调度策略中的标记,running时触发。 请求示例 更新调度信息 PUT https://{endpoint}/v2/{project_id}/workflows/{workflow_id}/schedules/fa4a
参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 https://{endpoint}/v1/{project_id}/services/a55eba18-1ebf-4e9a-8229-d2d3b593a3dc/tags/delete
Gallery、发布数据集到AI Gallery。对于支持部署为AI应用的AI Gallery模型,可将此模型部署为AI应用,具体可参见将AI Gallery中的模型部署为AI应用。 发布后的资产,可通过微调大师训练模型和在线推理服务部署模型,具体可参见使用AI Gallery微调大师训练模型、使用AI
可能系统资源不足、如内存不足、内存泄露。 硬件故障、如IB网络或者GPU互联设备故障等。 没安装nvidia-fabricmanager组件或被误卸载。 处理方法 如果未安装fabricmanager,则需安装改组件。 如果已安装fabricmanager,运行以下命令重启fabricmanager.service。
但是达不到预期,可能是nv_peer_mem异常。 处理方法 查看nv_peer_mem是否已安装。 dpkg -i | grep peer 如果未安装则需要安装,安装方法参考装机指导。 如果已安装则进入下一检测项。 查看该软件是否已经加载至内核。 lsmod | grep peer
ch环境或没有安装Cuda的镜像,而不是选择一个PyTorch引擎和Cuda都不满足的镜像,如MindSpore+Cuda11.X,这样基础镜像就会很大,同样的操作最终目的镜像就很大。 此外下面举出几种常见的减少镜像大小的方式。 减少目的镜像层数 举例:假设需要安装两个pip包s
error_code String 删除该模型失败的错误码。 model_id String 删除失败的模型id。 请求示例 DELETE https://{endpoint}/v1/{project_id}/models/{model_id} 响应示例 状态码: 200 删除成功或者失败的提示信息。
String 工作空间ID。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 请求示例 查询标注团队列表 GET https://{endpoint}/v2/{project_id}/workforces 响应示例 状态码: 200 OK { "total_number"
peer-memory四个软件。 但是如果nvidia和cuda是使用runfile(local)方式安装的,那么需要在下一步中再次卸载。 若使用nvidia run包直接安装的驱动,需要找到对应的卸载命令。 sudo /usr/bin/nvidia-uninstall sudo
update_at Long 镜像最后更新的时间,UTC毫秒。 version_count Integer 镜像版本个数。 请求示例 GET https://{endpoint}/v1/{project_id}/images/group 响应示例 状态码: 200 OK { "current"
参数 参数类型 描述 name String 资源指标的名称。 labels Object 资源指标的标签信息。 请求示例 GET https://{endpoint}/v2/{project_id}/metrics/runtime/pools 响应示例 状态码: 200 OK。
= OpenAI( api_key="您的 APIKEY", # 从MaaS控制台鉴权管理处获取。 base_url="https://infer-modelarts.cn-east-4.myhuaweicloud.com/v1/infers/xxxxxx/v1"
stable-diffusion套件 使用differusers (https://github.com/huggingface/diffusers)。 stable-diffusion-webui (https://github.com/AUTOMATIC1111/stable-diffusion-webui)。
用户名,当user_id为all-users时,显示为所有用户。 create_time Long 创建时间戳。 请求示例 查看授权列表 GET https://{endpoint}/v2/{project_id}/authorizations 响应示例 状态码: 200 OK { "total_count"
如下以查询uuid为2cd88daa-31a4-40a8-a58f-d186b0e93e4f的训练作业对应worker-0镜像保存任务为例。 GET https://endpoint/v2/{project_id}/training-jobs/2cd88daa-31a4-40a8-a58f-d1
超参搜索算法的参数取值。 type String 超参搜索算法的参数类型。 请求示例 查询0代码超参搜索支持的搜索算法的信息。 GET https://endpoint/v2/{project_id}/search-algorithms 响应示例 状态码: 200 ok { "search_algo_count"