AI开发平台MODELARTS-华为云

AI开发平台MODELARTS-创建Notebook实例:背景信息

背景信息 Notebook使用涉及到计费，具体收费项如下：处于“运行中”状态的Notebook，会消耗资源，产生费用。根据您选择的资源不同，收费标准不同，价格详情请参见产品价格详情。当您不需要使用Notebook时，建议停止Notebook，避免产生不必要的费用。创建Notebook时，如果选择使用云硬盘EVS存储配置，云硬盘EVS会一直收费，建议及时停止并删除Notebook，避免产品不必要的费用。在创建Notebook时，默认会开启自动停止功能，在指定时间内停止运行Notebook，避免资源浪费。只有处于“运行中”状态的Notebook，才可以执行打开、停止操作。一个账户最多创建10个Notebook。

AI开发平台MODELARTS 管理Notebook实例

AI开发平台MODELARTS-不同机型的对应的软件配套版本:系统内核与gpu-driver配套关系

系统内核与gpu-driver配套关系表4 系统内核与gpu-driver配套关系镜像版本系统内核版本适配CCE gpu-driver版本 EulerOS 2.10 4.18.0-147.5.2.15.h1109.eulerosv2r10.x86_64 v1.(23|25|27|28).* 容器隧道网络|VPC|ENI 470.57.02 4.18.0-147.5.2.5.h805.eulerosv2r10.x86_64 v1.(23|25|27).* 容器隧道网络|VPC|ENI 470.57.02 EulerOS 2.9 4.18.0-147.5.1.6.h841.eulerosv2r9.x86_64 v1.(23|25|27|28).* 容器隧道网络|VPC 470.57.02 EulerOS 2.3 3.10.0-514.44.5.10.h193.x86_64 v1.(23|25).* 容器隧道网络|VPC 470.57.02 3.10.0-514.44.5.10.h254.x86_64 v1.(23|25).* 容器隧道网络|VPC 470.57.02

AI开发平台MODELARTS

AI开发平台MODELARTS-不同机型的对应的软件配套版本:弹性云服务器的对应的软件配套版本

AI开发平台MODELARTS

AI开发平台MODELARTS-不同机型的对应的软件配套版本:裸金属服务器的对应的软件配套版本

AI开发平台MODELARTS

AI开发平台MODELARTS-不同机型的对应的软件配套版本:插件版本与CCE集群版本适配关系

插件版本与CCE集群版本适配关系表3 插件版本与CCE集群版本适配关系类别插件名称插件版本适配CCE集群版本适用范围、约束插件功能描述 ccePlugin gpu-beta 2.0.48（仅适用于北京四、贵阳一、广州一、上海一、乌兰察布一、北京二、乌兰察布汽车，其余region暂不支持。） v1.(23|25).* GPU 支持在容器中使用GPU显卡的设备管理插件。 1.2.15 v1.23.* huawei-npu 1.2.5 v1.(23|25).* NPU 支持容器里使用huawei NPU设备的管理插件。 volcano 1.11.9 v1.(23|25).* NPU 基于Kubernetes的批处理平台。 1.7.1 v1.(23|25).* 1.4.2 v1.(23|25).* npuDriver npu-driver 7.1.0.7.220-23.0.5（推荐）无约束 NPU 用于升级、回滚npu驱动。 helm rdma-sriov-dev-plugin 0.1.0 无约束 BMS、RDMA且非ascend-1980 用于支持容器里使用RDMA网卡。 memarts 3.23.6-r002 无约束无约束近计算侧分布式缓存插件，用于存储加速。 os-node-agent 6.2.0-20230925213538 无约束无约束 OS插件，用于故障检测。 icAgent icagent default CCE默认安装当前适配版本无约束 CCE基础组件，用于日志和监控。 gpuDriver gpu-driver gpu-driver与系统内核版本有关，请见表4。用于升级、回滚gpu驱动，插件依赖gpu-beta版本。

AI开发平台MODELARTS

AI开发平台MODELARTS-k8s Cluster资源购买:Step1 在ModelArts上创建委托授权

Step1 在ModelArts上创建委托授权新建委托第一次使用ModelArts时需要创建委托授权，授权允许ModelArts代表用户去访问其他云服务。使用ModelArts Lite的资源池需要授权允许ModelArts代表用户访问云容器引擎服务CCE、裸金属服务BMS、镜像服务 IMS和密钥管理服务DEW。进入到ModelArts控制台的“全局配置”页面，单击“添加授权”，根据提示进行操作。图2 添加授权更新委托如果之前给ModelArts创过委托授权，此处需要更新授权。进入到ModelArts控制台的“专属资源池”页面，查看是否存在授权缺失的提示。如果有授权缺失，根据提示，单击“此处”更新委托。根据提示选择“追加至已有授权”，单击“确定”，系统会提示权限更新成功。

AI开发平台MODELARTS k8s Cluster资源开通

AI开发平台MODELARTS-k8s Cluster资源购买:集群资源开通流程

集群资源开通流程开通集群资源过程中用户侧需要完成的任务流程如下图所示。图1 用户侧任务流程表1 用户侧任务流程阶段任务说明参考文档准备工作登录华为云控制台，在ModelArts上创建委托授权。第一次使用ModelArts时需要创建委托授权，授权允许ModelArts代表用户去访问其他云服务。如果之前已经创建过委托授权，需要更新委托相应的权限。配置ModelArts访问授权申请开通资源规格。当前部分规格为受限购买，需要提前联系客户经理申请开通资源规格，预计1~3个工作日内开通（若无客户经理可提交工单反馈）。申请开通资源规格申请扩大资源配额。集群所需的E CS 实例数、内存大小、CPU核数和EVS硬盘大小资源会超出华为云默认提供的资源配额，因此需要申请扩大配额。具体的配额方案请联系客户经理获取。配额需大于要开通的资源，且在购买开通前完成配额提升，否则会导致资源开通失败。提升资源配额购买集群资源在ModelArts控制台上购买资源池。 - 购买集群资源

AI开发平台MODELARTS k8s Cluster资源开通

AI开发平台MODELARTS-节点管理

节点管理在资源池详情页，单击“节点管理”页签，您可以对节点进行退订、替换等操作。退订/释放节点：若是“包年/包月”且资源未到期的资源池，您可单击操作列的“退订”，即可实现对单个节点的资源释放。若是“包年/包月”且资源到期的资源池（处于宽限期），您可单击操作列的“释放”，即可实现对单个节点的资源释放。部分“包年/包月”节点会出现“删除”按钮，原因是该节点为存量节点，单击“删除”即可实现节点的资源释放。退订/释放节点可能导致该节点上运行的作业失败，请保证该节点无任务运行时再进行操作。当资源池中存在异常节点时，可通过退订/释放操作，将资源池中指定的异常节点移除，再通过扩容专属资源池获得和之前相同的总节点个数。仅有一个节点时，无法进行退订/释放操作。替换节点： “节点管理”页签中提供对单个节点替换的功能。可单击操作列的“替换”，即可实现对单个节点的替换。替换节点操作不会收取费用。单击“操作记录”可查看当前资源池替换节点的操作记录。“运行中”表示节点在替换中。替换成功后，节点列表中会显示新的节点名称。替换最长时间为24小时，超时后仍然未找到合适的资源，状态会变为“失败”。可将鼠标悬浮在图标上，查看具体失败原因。每天累计替换的次数不超过资源池节点总数的20%，同时替换的节点数不超过资源池节点总数的5%。替换节点时需确保有空闲节点资源，否则替换可能失败。当操作记录里有节点处于重置中时，该资源池无法进行替换节点操作。重置节点 “节点管理”页签中提供节点重置的功能。单击操作列的“重置”，可实现对单个节点的重置。勾选多个节点的复选框，单击操作记录旁的“重置”按钮，可实现对多个节点的重置。下发重置节点任务时需要填写以下参数：表1 重置参数说明参数名称说明操作系统选择下拉框中支持的操作系统。配置方式选择重置节点的配置方式。按节点比例：重置任务包含多个节点时，同时被重置节点的最高比例。按节点数量：重置任务包含多个节点时，同时被重置节点的最大个数。单击“操作记录”可查看当前资源池重置节点的操作记录。重置中节点状态为“重置中”，重置成功后，节点状态变为“可用”。重置节点操作不会收取费用。图1 重置节点重置节点将影响相关业务的运行，重置时本地盘会被清空、资源池上的k8s标签会被清除，请谨慎操作。节点状态为“可用”的节点才能进行重置。同一时间单个节点只能处于一个重置任务中，无法对同一个节点同时下发多个重置任务。当操作记录里有节点处于替换中时，该资源池无法进行重置节点操作。当资源池处于驱动升级状态时，该资源池无法进行重置节点操作。 GPU和NPU规格，重置节点完成后，节点可能会出现驱动升级的现象，请耐心等待。图2 查看资源池节点图3 操作记录父主题： k8s Cluster资源使用

AI开发平台MODELARTS k8s Cluster资源使用

AI开发平台MODELARTS-使用前须知

使用前须知 ModelArts Lite DevServer存在以下使用限制：切换或者重置操作系统后，ModelArts Lite DevServer服务器的EVS系统盘将不支持扩容服务器在进行过“切换或者重置操作系统”操作后，EVS系统盘ID发生变化，和下单时订单中的EVS ID已经不一致，因此EVS系统盘无法扩容，并显示信息："当前订单已到期，无法进行扩容操作，请续订"。建议挂载数据盘EVS或挂载SFS盘等方式进行存储扩容。 ModelArts Lite DevServer裸金属服务器操作系统升级/修改风险 ModelArts Lite DevServer裸金属服务器，如果升级/修改操作系统内核或者驱动，很可能导致驱动和内核版本不兼容，从而导致OS无法启动，或者基本功能不可用。如果需要升级/修改，请联系华为云技术支持。相关高危命令如：apt-get upgrade。父主题： DevServer资源配置

AI开发平台MODELARTS DevServer资源配置

AI开发平台MODELARTS-物理机环境配置:步骤5：（可选）安装pip

步骤5：（可选）安装pip 执行如下命令检查是否已安装pip且pip源正常访问，如果能正常执行，可跳过此章节： pip install numpy 若物理机上没有安装pip，可执行如下命令安装： python -m ensurepip --upgrade ln -s /usr/bin/pip3 /usr/bin/pip 配置pip源。 mkdir -p ~/.pip vim ~/.pip/pip.conf 在“~/.pip/pip.conf”中写入如下内容： [global] index-url = http://mirrors.myhuaweicloud.com/pypi/web/simple format = columns [install] trusted-host=mirrors.myhuaweicloud.com