检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用PyCharm ToolKit ,提示Error occurs when accessing to OBS 问题现象 查看PyCharm ToolKit的日志,报错信息为:Error occurs when accessing to OBS。
镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.”
原因分析 在CCE纳管过程中,需要通过cloudinit userdata机制拉取cce-agent,但是在服务器上查看没有拉cce-agent的动作,理论上该动作是cloudinit中的脚本在创建时自动执行的,可能是由于安装脚本没有注入userdata或者注入了但未执行。
子用户使用专属资源池创建训练作业无法选择已有的SFS Turbo 由于权限不足,导致子用户无法看到已有的SFS Turbo,请为子用户所在用户组添加SFS FullAccess 、SFS Turbo FullAccess权限。 父主题: 功能咨询
Lite Cluster高危操作一览表 当您在CCE、ECS或BMS服务控制台直接操作ModelArts Lite Lite Cluster资源时,可能会导致资源池部分功能异常。下表可帮助您定位异常出现的原因,风险操作包括但不限于以下内容。
helm rdma-sriov-dev-plugin 0.1.0 无约束 适用于BMS、RDMA且非ascend-1980 用于支持容器里使用RDMA网卡。 memarts 3.23.6-r002 无约束 无约束 近计算侧分布式缓存插件,用于存储加速。
AK/SK认证:通过AK(Access Key ID)/SK(Secret Access Key)加密调用请求。 Token认证 Token的有效期为24小时,需要使用同一个Token鉴权时,可以缓存起来,避免频繁调用。
K8S标签:设置附加到Kubernetes对象(比如Pod)上的键值对。最多可以添加5条标签。使用该标签可区分不同节点,可结合工作负载的亲和能力实现容器Pod调度到指定节点的功能。 污点:默认为空。支持给节点加污点来设置反亲和性,每个节点最多配置5条污点。
CCE页面上配置中心修改默认调度器为volcano。 该方案的缺点:后续对ModelArts的节点做相关操作如重置、升级驱动等可能会出现节点异常无法启动的情况。 父主题: Lite Cluster
docker run方式启动任务。 Snt9B集群在纳管到CCE集群后,会安装容器运行时,下文以docker举例。仅做测试验证,可以不需要通过创建deployment或者volcano job的方式,直接启动容器进行测试。
pod_id 容器所属pod的ID。 node_ip 容器所属的节点IP值。 container_id 容器ID。 cluster_id 集群ID。 cluster_name 集群名称。 container_name 容器名称。
找到购买Cluster资源时选择的CCE集群,单击名称进入CCE集群详情页面,单击“节点管理”页签,在“节点”页签中单击需要登录的节点名称,跳转至弹性云服务器页面。 图1 节点管理 绑定弹性公网IP。 若已有未绑定的弹性公网IP,直接选择即可。
CCE 云容器引擎(Cloud Container Engine,简称CCE)是一个企业级的Kubernetes集群托管服务,支持容器化应用的全生命周期管理,为您提供高度可扩展的、高性能的云原生应用部署和管理方案。CCE官网文档可参考云容器引擎。
图1 资源池详情-基本信息 单击基本信息列中对应的“CCE集群”,进入CCE集群详情页面,在“集群信息”找到“连接信息”。 图2 链接信息 使用kubectl工具。 若通过内网使用kubectl工具,需要将kubectl工具安装在和集群在相同vpc下的某一台机器上。
kubectl get pod -A 进入容器,{pod_name}替换为您的pod名字(get pod中显示的名字),{namespace}替换为您的命名空间(默认为default)。
图5 查看节点的yaml文件 父主题: Lite Cluster资源使用
其中Containerd调用链更短,组件更少,更稳定,占用节点资源更少,Containerd和Docker差异对比请见容器引擎。 若CCE集群版本低于1.23,仅支持选择Docker作为容器引擎。若CCE集群版本大于等于1.27,仅支持选择Containerd作为容器引擎。
表4 CheckTaskStats 参数 参数类型 描述 accepted_sample_count Integer 通过的样本数目。 checked_sample_count Integer 已验收的样本数目。 pass_rate Double 样本的通过率。
URI POST /v2/{project_id}/datasets/{dataset_id}/workforce-tasks/{workforce_task_id}/acceptance 表1 路径参数 参数 是否必选 参数类型 描述 dataset_id 是 String 数据集
与云容器引擎的关系 ModelArts使用云容器引擎(Cloud Container Engine,简称CCE)部署模型为在线服务,支持服务的高并发和弹性伸缩需求。CCE的更多信息请参见《云容器引擎用户指南》。