检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
工作负载异常:添加存储失败 问题现象 实例一直处于创建中,事件中存在“添加存储失败”的告警,事件信息如下所示: AttachVolume.Attach failed for volume "pvc-***" : rpc error: code = Internal desc = [***][disk
com/kubeflow/examples.git 安装python3。 wget https://www.python.org/ftp/python/3.6.8/Python-3.6.8.tgz tar -zxvf Python-3.6.8.tgz cd Python-3.6.8 ./configure
设置对应的容器规格。 启动命令添加python /home/caffeEx00.py。 挂载刚刚导入的OBS存储盘: 单击“创建”。等待job执行完成,进入OBS存储盘的outputimg下,可以看到推理使用的图片。 登录在集群中添加GPU节点添加的节点,执行docker logs
Volcano调度器 插件介绍 Volcano 是一个基于 Kubernetes 的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要的而 Kubernetes 当下缺失的一系列特性。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic
节点Python命令检查异常处理 检查项内容 检查Node节点中Python命令是否可用。 检查方式 /usr/bin/python --version echo $? 如果回显值不为0证明检查失败。 解决方案 可优先重置节点或手动安装Python之后再进行升级。 父主题: 升级前检查异常问题排查
Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性。 Volcano提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力,通过接入AI、大数据、基因、渲染等诸多行业计算框架
创建CCE节点时可以不添加数据盘吗? 不可以,数据盘是必须要的。 新建节点会给节点绑定一个供kubelet及容器引擎使用的专用数据盘,详情请参见数据盘空间分配说明。CCE数据盘默认使用LVM(Logical Volume Manager)进行磁盘管理,开启后您可以通过空间分配调整数据盘中不同资源的空间占比,具体请参见LVM简介。
默认数据盘空间分配说明 本章节将详细介绍节点数据盘空间分配的情况,以便您根据业务实际情况配置数据盘大小。 设置默认数据盘空间分配 v1.23.18-r0、v1.25.13-r0、v1.27.10-r0、v1.28.8-r0、v1.29.4-r0以下版本的集群中,节点会添加一块默认
购买CCE集群,购买GPU节点并使用gpu-beta插件安装显卡驱动。 在集群下添加一个对象存储卷。 数据预置 从https://github.com/zalandoresearch/fashion-mnist下载数据。 获取tensorflow的ML范例,加以简单的修改。 basicClass
首先开发者在开发环境机器上开发应用并制作镜像。 Docker执行命令,构建镜像并存储在机器上。 开发者发送上传镜像命令。 Docker收到命令后,将本地镜像上传到镜像仓库。 开发者向生产环境机器发送运行镜像命令。 生产环境机器收到命令后,Docker会从镜像仓库拉取镜像到机器上,然后基于镜像运行容器。
Volcano调度概述 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。 Volcano
默认数据盘空间分配说明 本章节将详细介绍节点数据盘空间分配的情况,以便您根据业务实际情况配置数据盘大小。 设置默认数据盘空间分配 v1.23.18-r0、v1.25.13-r0、v1.27.10-r0、v1.28.8-r0、v1.29.4-r0以下版本的集群中,节点会添加一块默认
前提条件 从客户端机器访问Kubernetes集群,需要使用Kubernetes命令行工具kubectl,请先连接kubectl。详情请参见通过kubectl连接集群。 操作步骤 通过后台创建daemonSet,选择nginx镜像、开启特权容器、配置生命周期、添加hostNetwork:
跨账号挂载对象存储 应用场景 跨账号数据共享。例如,公司内部多团队需要共享数据,但不同团队使用不同的账号。 跨账户数据迁移和备份。例如,账号A即将停用,所有的数据需要迁移至账户B。 数据处理与分析。例如,账号B是外部数据处理商,需要访问账户A的原始数据进行大数据分析和机器学习等操作。 通过跨账户
批量添加指定集群的资源标签 功能介绍 该API用于批量添加指定集群的资源标签。 每个集群支持最多20个资源标签。 此接口为幂等接口:创建时,如果创建的标签已经存在(key/value均相同视为重复),默认处理成功;key相同,value不同时会覆盖原有标签。 调用方法 请参见如何调用API。
项目是基于容器和Kubernetes构建,旨在为数据科学家、机器学习工程师、系统运维人员提供面向机器学习业务的敏捷部署、开发、训练、发布和管理平台。它利用了云原生技术的优势,让用户更快速、方便地部署、使用和管理当前最流行的机器学习软件。 目前Kubeflow 1.0版本已经发布,
数据保护技术 CCE通过多种数据保护手段和特性,保障数据的安全可靠。 表1 CCE的数据保护手段和特性 数据保护手段 简要说明 详细介绍 服务发现支持证书配置 CCE集群中的应用服务支持使用HTTPS传输协议,保证数据传输的安全性,您可以根据需求创建四层或七层的访问方式来对接负载均衡器。
根据情况,手动清除所关联的底层存储资源上的数据。 手动删除所关联的底层存储资源。 如果您希望重用该底层存储资源,可以重新创建新的PersistentVolume对象。 CCE还支持一种删除PVC时不删除底层存储资源的使用方法,当前仅支持使用YAML创建:PV回收策略设置为Delete,并添加annotations“everest
Server VM (build 25.382-b05, mixed mode) 添加环境变量。 Linux环境变量配置在/etc/profile文件中。 vim /etc/profile 在编辑模式下,在文件最后添加如下内容: JAVA_HOME=/usr/lib/jvm/java-1.8
若需授予其他用户操作该集群并限制为上述权限,在步骤7结束后将生成的配置文件/home/test.config提供给该用户,由该用户置于自己机器上(用户机器须保证能访问集群apiserver地址),在该机器上执行步骤8使用kubectl时kubeconfig参数须指定为配置文件所在路径。 验证权限 可以查询tes