检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
推荐使用“西南-贵阳一”Region上的昇腾资源。 创建OBS桶 ModelArts使用对象存储服务(Object Storage Service,简称OBS)进行数据存储以及模型的备份和快照,实现安全、高可靠和低成本的存储需求。因此,在使用ModelArts之前通常先创建一个O
容器所属pod的ID。 node_ip 容器所属的节点IP值。 container_id 容器ID。 cluster_id 集群ID。 cluster_name 集群名称。 container_name 容器名称。 namespace 是用户创建的POD所在的命名空间。 app_kind
事件名称 部署服务 service addService 删除服务 service deleteService 更新服务 service updateService 启停服务 service startOrStopService 启停边缘服务节点 service startOrStopNodesService
对于有多个测量维度的测量对象,使用接口查询监控指标时,所有测量维度均为必选。 查询单个监控指标时,多维度dim使用样例:dim.0=service_id,530cd6b0-86d7-4818-837f-935f6a27414d&dim.1="model_id,3773b058-5
创建buildkitd的启动服务。其中都是buildkitd.service的内容。复制以下全部命令并运行即可。 cat <<EOF > /usr/lib/systemd/system/buildkitd.service [Unit] Description=buildkitd After=network
创建buildkitd的启动服务。其中都是buildkitd.service的内容。复制以下全部命令并运行即可。 cat <<EOF > /usr/lib/systemd/system/buildkitd.service [Unit] Description=buildkitd After=network
创建buildkitd的启动服务。其中都是buildkitd.service的内容。复制以下全部命令并运行即可。 cat <<EOF > /usr/lib/systemd/system/buildkitd.service [Unit] Description=buildkitd After=network
创建buildkitd的启动服务。其中都是buildkitd.service的内容。复制以下全部命令并运行即可。 cat <<EOF > /usr/lib/systemd/system/buildkitd.service [Unit] Description=buildkitd After=network
附录:工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。 图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe
{number} {service_type} service instances are allowed. {类型}服务实例总数超限,限制为{数量}。 删除不再使用的服务或者联系服务运维人员增加服务实例的配额。 400 ModelArts.3523 Service {name} has
附录:工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。 图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe
附录:工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。 图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe
PAAS.NODE: 主机指标、网络指标、磁盘指标和文件系统指标的命名空间 PAAS.SLA:SLA指标的命名空间 PAAS.AGGR:集群指标的命名空间 CUSTOMMETRICS:默认的自定义指标的命名空间 表6 dimensions 参数 参数类型 描述 name String
HCCL RANK_TABLE_FILE文件说明 Ascend HCCL RANK_TABLE_FILE文件提供Ascend分布式训练作业的集群信息,用于Ascend芯片分布式通信,可以被HCCL集合通信库解析。该文件格式有模板一和模板二两个版本。 ModelArts提供的是模板二
"name" : "modelbox1.3.0-libtorch1.9.1-cuda10.2-cudnn8-euler2.9.6", "resource_categories" : [ "GPU" ], "service_type" : "TRAIN",
高性能计算:主要是高带宽的需求,用于共享文件存储,比如基因测序、图片渲染这些。 如大数据分析、静态网站托管、在线视频点播、基因测序和智能视频监控等。 如高性能计算、企业核心集群应用、企业应用系统和开发测试等。 说明: 高性能计算:主要是高速率、高IOPS的需求,用于作为高性能存储,比如工业设计、能源勘探这些。 容量
预测流量不大但频繁出现以下报错 Backend service internal error. Backend service read timed out Send the request from gateway to the service failed due to connection
的模型 提供训练作业的事件信息(训练作业生命周期中的关键事件点)、训练日志(训练作业运行过程和异常信息)、资源监控(资源使用率数据)、Cloud Shell(登录训练容器的工具)等能力,方便用户更清楚得了解训练作业运行过程,并在遇到任务异常时更加准确的排查定位问题 父主题: Standard功能介绍
session = Session() predictor_instance = Predictor(session, service_id="your_service_id") 方式2:部署在线服务predictor 部署服务到公共资源池 1 2 3 4 5 6 7
选择“明细账单”,在账单列表中,单击复制资源名称。 图5 复制资源名称 登录ModelArts管理控制台,在左侧导航栏选择“AI专属资源池 > 弹性集群Cluster”,进入Standard资源池列表页面。 在搜索框中输入2中复制的资源名称,单击图标即可查找到该资源。 图6 查找资源 单击操作列的“更多