检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
标注作业对应的“实体标签”和“关系标签”已定义好。“关系标签”需设置对应的“起始实体”和“终止实体”。“关系标签”只能添加至其设置好的“起始实体”和“终止实体”之间。 支持设置多个“实体标签”和“关系标签”。一个文本数据中,也可以标注多个“实体标签”和“关系标签” 创建数据集时定义的“实体标签”,不支持删除。
善的桶管理和对象管理操作。推荐使用此工具创建桶或上传对象。obsutil是一款用于访问管理OBS的命令行工具,对于熟悉命令行程序的用户,obsutil是执行批量处理、自动化任务的好的选择。 如果您的业务环境需要通过API或SDK执行数据上传操作,或者您习惯于使用API和SDK,推
A050104 GPU 显存 ECC错误到达64次。 通过nvidia-smi -a查询到Retired Pages中,Single Bit和Double Bit之和大于64。 A050148 GPU 其他 infoROM告警。 执行nvidia-smi的返回信息中包含“infoROM
I云服务进行全面适配和优化,使得精度和性能显著提升。开发者无需从零开始构建模型,只需选择合适的预训练模型进行微调或直接应用,减轻模型集成的负担。 零代码、免配置、免调优模型开发 平台结合与100+客户适配、调优开源大模型的行业实践经验,沉淀了大量适配昇腾,和调优推理参数的最佳实践
性。本章主要阐述ModelArts服务受入侵的检测响应能力、防抖动的能力、域名合理使用、内容安全检测等能力。 安全防护套件覆盖和使用堡垒机,增强入侵检测和防御能力 ModelArts服务部署主机层、应用层、网络层和数据层的安全防护套件。及时检测主机层、应用层、网络层和数据层的安全入侵行为。
提供机柜、节点、加速卡、任务多场景故障感知和检测 提供节点级、作业级、容器级,多级故障恢复,保障千卡作业稳定训练 多种资源形态 集群模式,开箱即提供好Kubernetes集群,直接使用,方便高效 节点模式,客户可采用开源或自研框架,自行构建集群,更强的掌控力和灵活性 零改造迁移 提供业界通用
如果升级/修改操作系统内核或者驱动,很可能导致驱动和内核版本不兼容,从而导致OS无法启动,或者基本功能不可用。相关高危命令如:apt-get upgrade。 高 如果需要升级/修改,请联系华为云技术支持。 切换或者重置操作系统。 服务器在进行过“切换或者重置操作系统”操作后,EVS系统盘ID发生变化,和下单时订单中的EVS
修复Standard专属资源池故障节点 Standard专属资源池支持对故障节点进行修复操作,目前提供了替换节点、高可用冗余节点、重置节点和重启节点等方式。华为云技术支持在故障定位和性能诊断时,部分运维操作需要用户授权才可进行,本章节同时也介绍了如何进行授权操作。 故障节点处理方式 替换节点:替换节
常见问题 模型转换报错如何查看日志和定位? 日志提示Compile graph failed 日志提示Custom op has no reg_op_name attr 父主题: GPU推理业务迁移至昇腾的通用指导
内资源正常运行,此阶段为有效期;资源到期而未续费时,将陆续进入宽限期和保留期。 图1 包年/包月资源生命周期 到期预警 包年/包月资源池在到期前第7天内,系统将向用户推送到期预警消息。预警消息将通过邮件、短信和站内信的方式通知到华为云账号的创建者。 到期后影响 当您的包年/包月资
oads 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 作业所属的命名空间。 表2 Query参数 参数 是否必选 参数类型 描述 type 否 String
tron官网进行查看,或者对于模型结构中的输入进行shape的打印,并明确输入的batch。 一般来说,推理时指定的inputShape是和用户的业务及推理场景是紧密相关的,可以通过原始模型推理脚本或者网络模型进行判断。需要把Notebook中的模型下载到本地后,再放入netron官网中,查看其inputShape。
弹性集群Cluster”,进入“弹性集群Cluster”页签,查看资源池列表。 在旧版资源池迁移到新版资源池的过程中,资源池状态显示为“受限”。此时,资源池无法进行扩缩容和退订。 图1 查看资源池列表 增减节点数量 单击某个资源池操作列的“扩缩容”对资源池进行扩缩容(对于为包周期资源池,此按钮为“扩容”,如果需
AI应用的自定义镜像制作流程 如果您使用了ModelArts不支持的AI引擎开发模型,也可通过制作自定义镜像,导入ModelArts创建为AI应用,并支持进行统一管理和部署为服务。 制作流程 场景一: 预置镜像的环境软件满足要求,只需要导入模型包,就能用于创建AI应用,通过镜像保存功能制作。具体案例参考在N
静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动,且输入输出长度也在一定范围内变化时,模型的延迟和吞吐。该场景能模拟实际业务下动态的
的组件之一,负责管理镜像和容器的生命周期。Kubelet通过Container Runtime Interface (CRI) 与容器引擎交互,以管理镜像和容器。其中Containerd调用链更短,组件更少,更稳定,占用节点资源更少,Containerd和Docker差异对比请见容器引擎。
通过nvidia-smi -a查询到Retired Pages中,Single Bit和Double Bit之和大于64。 发起维修流程。 NT_GPU_CARD_LOSE GPU 掉卡 GPU卡丢失。 节点规格的GPU卡数和以下任意值不相等: lspci可见GPU卡数。 nvidia-smi可见卡数。
弹性文件服务(Scalable File Service,SFS)提供按需扩展的高性能文件存储(NAS),可以在裸金属服务器中通过网络协议挂载使用,SFS支持NFS和CIFS的网络协议。在使用裸金属服务器时, 将数据放在SFS盘中, 并发建立多个NFS链接、并发的读写数据、做大模型训练。 但有时候会出现读
如图1所示,用户向ModelArts授权后,ModelArts使用委托授权的临时凭证访问和操作用户资源,协助用户自动化一些繁琐和耗时的操作。同时,委托凭证会同步到用户的作业中(Notebook实例和训练作业),客户在作业中可以使用委托凭证自行访问自己的资源。 在ModelArts服务中委托授权有两种方式:
效果是否满足要求,通过对比原始onnx pipeline的最终输出结果确认迁移效果。如果精度和性能都没有问题,则代表迁移完成。 对比图片生成效果 在CPU上推理onnx,将原始onnx和适配完成的MindSpore Lite pipeline输出的结果图片进行对比,在这里保证输入