检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
(Peer-to-Peer)的NVIDIA GPU直接进行内存访问(DMA)。这意味着数据可以直接在多个GPU之间传输,而无需经过CPU或系统内存,这可以显著降低延迟并提高带宽。 所以既然nccl-tests能正常测试, 但是达不到预期,可能是nv_peer_mem异常。 处理方法
install-sshd.ps1 添加环境变量:将“C:\Program Files\OpenSSH-xx”(路径中包含ssh可执行exe文件)添加到环境系统变量中。 重新打开CMD,并执行ssh,结果如下图即说明安装成功,如果还未装成功则执行5和6。 OpenSSH默认端口为22端口,开启防火墙22端口号,在CMD执行以下命令:
install-sshd.ps1 添加环境变量:将“C:\Program Files\OpenSSH-xx”(路径中包含ssh可执行exe文件)添加到环境系统变量中。 重新打开CMD,并执行ssh,结果如下图即说明安装成功,如果还未装成功则执行5和6。 OpenSSH默认端口为22端口,开启防火墙22端口号,在CMD执行以下命令:
训练版本”中选择之前已完成的训练版本,在此版本基础上进行增量训练。其他参数请根据界面提示填写。 设置完成后,单击“确定”,即进行增量训练。系统将自动跳转至“模型训练”页面,待训练完成后,您可以在此页面中查看训练详情,如“训练精度”、“评估结果”、“训练参数”等。 图1 选择增量训练版本
华为云租户的安全责任在于对使用的IaaS、PaaS和SaaS类各项云服务内部的安全以及对租户定制配置进行安全有效的管理,包括但不限于虚拟网络、虚拟主机和访客虚拟机的操作系统,虚拟防火墙、API网关和高级安全服务,各项云服务,租户数据,以及身份账号和密钥管理等方面的安全配置。 《华为云安全白皮书》详细介绍华为云
在“数据处理”页面,单击“创建”进入“创建数据处理”页面。 在创建数据处理页面,填写相关算法参数。 填写基本信息。基本信息包括“名称”、“版本”和“描述”。其中“版本”信息由系统自动生成,按“V0001”、“V0002”规则命名,用户无法修改。 您可以根据实际情况填写“名称”和“描述”信息。 设置场景类别。场景类别当前支持“图像分类”和“物体检测”。
提供合适的软件、操作系统、网络等配置策略,通过在硬件上的充分测试,确保其兼容性和性能最合适。 方便自定义,预置镜像已经在SWR仓库中,通过对预置镜像的扩展完成自定义镜像注册。 安全可信,基于安全加固最佳实践,访问策略、用户权限划分、开发软件漏洞扫描、操作系统安全加固等方式,确保镜像使用的安全性。
多边形标注,根据目标物体的轮廓绘制多边形。 极点标注,在目标物体轮廓的最上、最左、最下、最右的位置分别标注四个极点,极点要在物体的轮廓上。系统将根据标注的极点推理出物体的轮廓。对于背景比较复杂的图片,极点标注效果不佳,推荐使用多边形标注。 极点标注功能仅支持北京一与北京四区域。
重置”按钮,可实现对多个节点的重置。 如图1,下发重置节点任务时需要填写以下参数: 表1 重置参数说明 参数名称 说明 操作系统 选择下拉框中支持的操作系统。 配置方式 选择重置节点的配置方式。 按节点比例:重置任务包含多个节点时,同时被重置节点的最高比例。 按节点数量:重置任务
络(包含混合精度)再到NPU上排查精度问题。常见的精度调测手段,包含使用全精度FP32,或者关闭算子融合开关等,先进行排查。对于精度问题,系统工程人员需要对算法原理有较深入的理解,仅从工程角度分析有时候会非常受限,同时也可联系华为工程师进行诊断与优化。 父主题: GPU训练业务迁移至昇腾的通用指导
前提条件 给用户组授权之前,请先了解用户组可以添加的使用ModelArts及其依赖服务的权限,并结合实际需求进行选择,MaaS服务支持的系统权限,请参见表1。 表1 服务授权列表 待授权的服务 授权说明 IAM权限设置 是否必选 ModelArts 授予子用户使用ModelArts服务的权限。
基于昇腾、Dockerhub官网等官方开源的镜像制作,开源镜像需要满足如下操作系统约束: x86:Ubuntu18.04、Ubuntu20.04 ARM:Euler2.8.3、Euler2.10.7 Ubuntu20.04.6可能有兼容性问题,请优先使用低于该版本的操作系统。 不满足以上镜像规范,所制作的镜像使用可
在专属资源池到期前均可开通自动续费,到期前7日凌晨3:00首次尝试自动续费,如果扣款失败,每天凌晨3:00尝试一次,直至专属资源池到期或者续费成功。到期前7日自动续费扣款是系统默认配置,您也可以根据需要修改此扣款日。 父主题: 续费
permission.)。 图2 复制模型文件失败 原因分析 由于ModelArts的使用权限依赖OBS服务的授权,需要为用户授予OBS的系统权限。子用户的IAM权限是由其主用户设置的,如果主用户没有赋予OBS的putObjectAcl权限即会导致创建AI应用构建失败。 处理方法
由于商用模型支持同时购买多种配额模式的资产,所以仅部署商用模型时需要进行配额选择。免费模型仅一种配额模式无需选择。 如果您选择部署的非商业模型,系统自动跳转至“部署”页面。 在部署页面中,无需再选择模型及其版本,参考部署模型的操作指导完成其他参数填写,即可部署为您需要的服务。 父主题:
为准。 变更配置后对计费的影响 当前包年/包月计算资源的规格不满足您的业务需要时,您可以在ModelArts控制台发起变更规格操作,变更时系统将按照如下规则为您计算变更费用: 资源升配:新配置价格高于老配置价格,此时您需要支付新老配置的差价。 资源降配:新配置价格低于老配置价格,此时华为云会将新老配置的差价退给您。
单击作业操作列的“更多>复制”。 在标注任务复制的弹窗中,填写作业描述,作业名称task-xxxx-copy-xxxx,其中xxxx为系统生成的随机码,用来区分新作业与被复制作业。也可以修改新生成的作业名称。单击“确定”。 复制完成后,在标注作业列表页即可查询新的标注任务,复
开通自动续费后,还可以手动续费该专属资源池。手动续费后,自动续费仍然有效,在新的到期时间前的第7天开始扣款。 自动续费的到期前7日自动扣款属于系统默认配置,您也可以根据需要修改此扣款日,如到期前6日、到期前5日等。 更多关于自动续费的规则介绍请参见自动续费规则说明。 前提条件 请确认包年/包月专属资源池还未到期。
然后可在云监控服务(CES)中获得ModelArts推理在线服务的监控数据,最后可配置告警规则实现实时告警通知。 业务运行阶段,先将业务系统对接在线服务请求,然后进行业务逻辑处理和监控设置。 图1 推理服务的端到端运维流程图 整个运维过程会对服务请求失败和资源占用过高的场景进行监控,当超过阈值时发送告警通知。
Lite又分以下2种形态: ModelArts Lite Server提供不同型号的xPU裸金属服务器,您可以通过弹性公网IP进行访问,在给定的操作系统镜像上可以自行安装加速卡相关的驱动和其他软件,使用SFS或OBS进行数据存储和读取相关的操作,满足算法工程师进行日常训练的需要。 ModelArts