检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
号是否已完成访问授权的配置。如果未完成,请参考使用委托授权。针对之前使用访问密钥授权的用户,建议清空授权,然后使用委托进行授权。 在左侧导航栏中选择“模型训练 > 训练作业”,默认进入“训练作业”列表。单击“创建训练作业”进入创建训练作业页面。 在“创建训练作业”页面,填写相关参数信息,然后单击“提交”。
Server部署推理服务 前提条件 已经完成资源购买。 步骤一:检查环境 SSH登录机器后,检查NPU设备检查。如果驱动版本不是24.1.0,请先升级驱动和对应固件。 npu-smi info -t board -i 1 | egrep -i "software|firmware" #查看驱动和固件版本
Memory Access(RDMA)是一种直接内存访问技术,将数据直接从一台计算机的内存传输到另一台计算机。 RoCE:RDMA over Converged Ethernet(RoCE)是一种网络协议,允许应用通过以太网实现远程内存访问。 IB:InfiniBand (IB) 是一
indices_out_cuda_frame failed with error code 0” 问题现象 pytroch1.3镜像中,去升级了pytroch1.4的版本,导致之前在pytroch1.3跑通的代码报错如下: “RuntimeError:max_pool2d_wit
便于管理和使用。 工作空间支持3种访问控制: PUBLIC:租户(主账号和所有子账号)内部公开访问。 PRIVATE:仅创建者和主账号可访问。 INTERNAL:创建者、主账号、指定IAM子账号可访问当授权类型为INTERNAL时需要指定可访问的子账号的账号名,可选择多个。 每个
NotebookUnhealthy 实例处于不健康状态 紧急 OutOfMemory 实例被OOM掉了 紧急 JupyterProcessKilled jupyter进程被killed掉了 紧急 CacheVolumeExceedQuota /cache目录文件大小超过最大限制 紧急 NotebookHealthy
myhuaweicloud.com。 原因分析 在Notebook中访问公网需要通过代理,访问huawei.com不通过公网代理,huaweicloud.com域名在no_proxy/NO_PROXY中包含,就访问不了。 解决方式 执行以下命令查看在no_proxy/NO_PROXY中是否包含huaweicloud
专属资源池支持打通用户的网络,在该专属资源池中运行的作业可以访问打通网络中的存储和资源。例如,在创建训练作业时选择打通了网络的专属资源池,训练作业创建成功后,支持在训练时访问SFS中的数据。 专属资源池支持自定义物理节点运行环境相关的能力,例如GPU/Ascend驱动的自助升级,而公共资源池暂不支持。 专属资源池有什么能力?
节点运维 未知错误。 节点被标记为具有未知故障污点。 A200001 节点管理 驱动升级 GPU升级。 节点正在执行GPU驱动升级。 A200002 节点管理 驱动升级 NPU升级。 节点正在执行NPU驱动升级。 A200008 节点管理 节点准入 准入检测。 节点正在进行节点准入检测,
前提条件 注册并登录华为云,且创建好OBS桶用于存储数据。 下载数据集 登录“AI Gallery”。 选择“资产集市 > 数据集”,进入数据页面,该页面展示了所有共享的数据集。 搜索业务所需的数据集,请参见查找和收藏资产。 单击目标数据集进入详情页面。 在详情页面可以查看数据集的
对在线服务进行预测。具体操作请参见使用预测功能测试在线服务。 实例 查看异步在线服务的实例信息。这里的实例个数和部署服务时设置的“实例数”相对应,如果修改服务或服务异常,实例数会有变化。如果存在某个实例异常希望重建实例,您可单击“删除”按钮,该实例被删除后会自动新建一个相同计算规格的实例。 配置更新记录 展示“当前配置”详情和“历史更新记录”。
配置ModelArts委托权限 给用户配置ModelArts委托授权,允许ModelArts服务在运行时访问OBS等依赖服务。 使用华为云账号登录ModelArts管理控制台,在左侧导航栏单击“权限管理”,进入“权限管理”页面,单击“添加授权”。 在弹出的“添加授权”窗口中,选择: 授权对象类型:所有用户
该功能为调测使用,实际生产建议使用API调用。根据鉴权方式的不同,可以根据实际情况选择通过Token认证的方式访问在线服务、通过AK/SK认证的方式访问在线服务或者通过APP认证的方式访问在线服务。 针对您部署上线的服务,您可以在服务详情页面的“调用指南”中,了解本服务的输入参数,即上文提到的输入请求类型。 图1 查看服务的调用指南
日志提示“Unexpected keyword argument passed to optimizer” 问题现象 在使用keras时,升级版本>=2.3.0之后,之前跑通的代码出现如下报错: TypeError: Unexpected keyword argument passed
待发布的数据集。 发布数据集 进入AI Gallery首页,选择“资产集市 > 数据集”,进入数据页面。 单击“发布”弹出“选择云服务区域”,选择区域后单击“确定”进入发布数据集页面,填写相关信息。 如果选择ModelArts已有的数据集发布,则参见表1配置数据集信息。 图1 发布数据集(ModelArts)
ModelArts支持通过以下几种方式调用API访问在线服务(案例中均以HTTPS请求为例): 通过公网访问通道的方式访问在线服务:ModelArts推理默认使用公网访问在线服务。在线服务部署成功后,将为用户提供一个可调用的API,此API为标准Restful API。 通过VPC高速访问通道的方式访问在线服务:使
Connection timed out"如何解决? 问题现象 原因分析 原因分析一:实例配置的白名单IP与本地网络访问IP不符。 解决方法:请修改白名单为本地网络访问IP或者去掉白名单配置。 原因分析二:本地网络不通。 解决方法:检查本地网络以及网络限制。 父主题: VS Code连接开发环境失败故障处理
完成购买后,返回弹性云服务器页面,刷新列表。 选择刚才创建的弹性公网IP,单击“确定”。 图5 绑定弹性公网IP 通过SSH方式远程访问集群资源包括2种方式,密码方式或密钥方式,二选一即可。 通过SSH密钥方式登录云服务器,具体操作请参见SSH密钥登录方式。 通过SSH密码方式登录云服务器,具体操作请参见SSH密码登录方式。
扩缩容Standard专属资源池 升级Standard专属资源池驱动 修复Standard专属资源池故障节点 修改Standard专属资源池支持的作业类型 迁移Standard专属资源池和网络至其他工作空间 配置Standard专属资源池可访问公网 使用TMS标签实现资源分组管理
DockerFile构建镜像(可选) 本章节主要介绍通过DockerFile文件构建训练镜像,将训练过程中依赖包封装使用,过程中需要连接互联网git clone,请确保环境可以访问公网,详解操作如下: 进入代码包Dockerfile文件同级目录: cd /home/ma-user/ws/llm_train/AscendFactory