检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
h/edge,默认不过滤推理方式。 offset 否 Integer 分页列表的起始页,默认为:“0”。 limit 否 Integer 指定每一页返回的最大条目数,默认为:“1000”。 service_status 否 String 服务状态,默认不过滤服务状态。可根据服务状态查询,取值如下。
请求参数 无 响应参数 状态码:200 表2 响应Body参数 参数 参数类型 描述 create_at Long 创建时间。 update_at Long 更新时间。 charging_mode String 计费模式。 COMMON:同时支持包周期和按需 POST_PAID:按需模式
查询训练作业指定任务的日志(OBS链接) 功能介绍 查询训练作业指定任务的日志(OBS临时链接,有效期5分钟),可全量查看或直接下载。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
ModelArts在线服务 1分钟 avg_latency 平均延迟毫秒数 统计api接口平均响应延时时间 ≥ms ModelArts在线服务 1分钟 tp_99 TP99 上1分钟内,统计该请求每次响应所消耗的时间,并将这些时间按从小到大的顺序进行排序,取第99%的值作为TP99的值。 ≥ms ModelArts在线服务
精度选择需要在模型转换阶段进行配置,执行converter_lite命令时通过--configFile参数指定配置文件路径,配置文件通过precision_mode参数指定精度模式。可选的参数有“enforce_fp32”,“preferred_fp32”,“enforce_fp
和BF16数据类型推理。float16表示FP16,bfloat16表示BF16。如果不指定,则根据输入数据自动匹配数据类型。使用不同的dtype会影响模型精度。如果使用开源权重,建议不指定dtype,使用开源权重默认的dtype。 --block-size:kv-cache的b
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
和BF16数据类型推理。float16表示FP16,bfloat16表示BF16。如果不指定,则根据输入数据自动匹配数据类型。使用不同的dtype会影响模型精度。如果使用开源权重,建议不指定dtype,使用开源权重默认的dtype。 --block-size:kv-cache的b
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
HPS:超节点服务 响应参数 状态码:200 表3 响应Body参数 参数 参数类型 描述 create_at Long 创建时间。 update_at Long 更新时间。 charging_mode String 计费模式。 COMMON:同时支持包周期和按需 POST_PAID:按需模式
和BF16数据类型推理。float16表示FP16,bfloat16表示BF16。如果不指定,则根据输入数据自动匹配数据类型。使用不同的dtype会影响模型精度。如果使用开源权重,建议不指定dtype,使用开源权重默认的dtype。 --block-size:kv-cache的b
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
版本ID。 expired_at String 超期时间。 表15 ExecutionBrief 参数 参数类型 描述 execution_id String 工作流执行ID。 created_at String 工作流执行的创建时间。 status String 工作流状态。 running_steps
offset 否 Integer 分页列表的起始页,默认为“0”。 limit 否 Integer 指定每一页返回的最大条目数,默认为“1000”。 sort_by 否 String 指定排序字段,可选“publish_at”、“service_name”,默认可选“publish_at”。