检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
问题场景:节点上存在不可访问的挂载点 节点存在不可访问的挂载点,通常是由于该节点或节点上的Pod使用了网络存储nfs(常见的nfs类型有obsfs、sfs等),且节点与远端nfs服务器断连,导致挂载点失效,所有访问该挂载点的进程均会出现D状态卡死。 登录节点。 在节点上新建一个脚本文件(例如/tmp/check_hang_mount
ng-Node标签被激活。 创建默认租户OBS桶:创建名称为cce-cost-{region}-{domain_id}的默认OBS桶,该OBS桶用来存储从费用中心导出的账单数据。 订阅账单数据:订阅账单后,费用中心会定期将账单推送到OBS桶中,供成本洞察使用。 图2 开通集群 (
可创建的最大Pod数量说明。 云服务器组 云服务器组是对云服务器的一种逻辑划分,同一云服务器组中的云服务器遵从同一策略。 反亲和性策略:同一云服务器组中的云服务器分散地创建在不同主机上,提高业务的可靠性。 选择已创建的云服务器组,或单击“新建云服务器组”创建,创建完成后单击刷新按钮。
中心的说明请参见镜像中心。 共享镜像:可选择由其他账号共享的镜像。关于共享镜像的操作详情请参见共享私有镜像。 容器镜像服务 企业版:提供企业级的独享安全托管服务,支持镜像加签、镜像安全扫描,保障数据安全。 所属实例:选择企业版仓库实例,您需要提前购买一个企业版仓库,详情请参见购买仓库。
hadoop.fs.obs.secret.key=SK_OF_YOUR_ACCOUNT spark.hadoop.fs.obs.endpoint=OBS_ENDPOINT spark.hadoop.fs.obs.buffer.dir=/root/hadoop-obs/obs-cache spark
该参数可采用多种类型(file/http/local等),详情请参见官方文档。 访问对象存储服务OBS 使用spark-submit下发hdfs任务。请修改命令最后的参数为租户内实际的文件obs://bucket-name/filename。 spark-submit \ --master
version”。 该问题是由于cce-agent不是最新版本且自动更新未能成功导致,通常由OBS地址失效或组件版本过低引起。 解决方式: 登录异常节点执行以下命令,获取有效的OBS地址,如图中addr地址为正确的OBS地址。 cat /home/paas/upgrade/agentConfig
弹性负载均衡 ELB 应用性能管理 APM 应用运维管理 AOM NAT网关 NAT 对象存储服务 OBS 弹性文件服务 SFS 正常创建工作负载时不依赖其他服务的权限。 如果需要创建ELB类型的服务,需要设置ELB FullAccess或者ELB Administrator权限,以及VPC
ext4: EVS云硬盘存储,详情可参见使用云硬盘存储卷。 nfs:SFS弹性文件存储,详情可参见使用文件存储卷。 obs:OBS对象存储,详情可参见使用对象存储卷。 efs:SFS Turbo极速文件存储,详情可参见使用极速文件存储卷。 options Options object
请先恢复弹性云服务器,约3分钟后集群节点可自行恢复。 若弹性云服务器出现故障:请先重启弹性云服务器,恢复故障。 若弹性云服务器状态为“可用”:请参考排查项七:内部组件是否正常登录弹性云服务器进行本地故障排查。 排查项三:弹性云服务器能否登录 登录ECS控制台。 确认界面显示的节点
SFS、OBS等),网络资源(ELB、EIP等)。其中节点会默认添加CCE-Cluster-ID标签。 给集群添加标签。 在CCE控制台进入集群信息页面,在资源标签处给集群打标签。 EVS 在EVS控制台,单击具体云硬盘,进入详情页,在“标签”Tab页添加标签。 OBS 在OBS
定时任务 CronJobSpec
调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_id}/jobs/{job_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 参数解释: 项目ID,获取方式请参见如何获取接口URI中参数。
完成配置后,单击“下一步:规格确认”,确认所设置的服务选型参数、规格和费用等信息,并单击“提交”,开始创建节点。 待GPU节点创建完成后,可前往“节点列表”查看节点状态。 导入OBS存储卷 进入存储管理页面,导入OBS存储数据预置中创建的OBS存储卷。 父主题: 在CCE集群中部署使用Caffe
cpu,设置对应的容器规格。 启动命令添加python /home/caffeEx00.py。 挂载刚刚导入的OBS存储盘: 单击“创建”。等待job执行完成,进入OBS存储盘的outputimg下,可以看到推理使用的图片。 登录在集群中添加GPU节点添加的节点,执行docker
存储管理 如何扩容容器的存储空间? CCE支持的存储在持久化和多节点挂载方面的有什么区别? 创建CCE节点时可以不添加数据盘吗? CCE集群中的EVS存储卷被删除或者过期后是否可以恢复? 公网访问CCE部署的服务并上传OBS,为何报错找不到host? Pod接口ExtendPathMode:
查看应用实例运行情况。 访问服务更新适配 集群迁移后,原有集群的访问服务可能无法生效,可执行如下步骤更新服务。如原集群中设置了Ingress资源,迁移后需重新对接ELB,您可参考添加Ingress-对接已有ELB。 通过kubectl连接集群。 编辑对应Service的YAML文件,修改服务类型及端口。
与其它云服务的关系 云容器引擎需要与其他云服务协同工作,云容器引擎需要获取如下云服务资源的权限。 图1 云容器引擎与其他服务的关系示意图 云容器引擎与其他服务的关系 表1 云容器引擎与其他服务的关系 服务名称 云容器引擎与其他服务的关系 主要交互功能 弹性云服务器 ECS 在云容
对象存储卷 对象存储卷概述 使用kubectl自动创建对象存储 使用kubectl对接已有对象存储 使用kubectl部署带对象存储卷的无状态工作负载 使用kubectl部署带对象存储卷的有状态工作负载 父主题: 存储管理-Flexvolume(已弃用)
存储 存储概述 存储基础知识 云硬盘存储(EVS) 文件存储(SFS) 极速文件存储(SFS Turbo) 对象存储(OBS) 专属存储(DSS) 本地持久卷(Local PV) 临时存储卷(EmptyDir) 主机路径(HostPath) 存储类(StorageClass) 存储管理最佳实践