检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在灵活性上有其独特的优势,而NPU上的执行目前还是依赖于算子的下发,对于NPU构造的理解是昇腾训练迁移中必备的知识,只有对于昇腾有基础理解,配合一些诊断工具,面对复杂问题时,才能进行进一步诊断与定位,进而发挥NPU的能力。 性能调优可以先将重点放在NPU不亲和的问题处理上,确保一
障存储在ModelArts中的数据安全可靠。 数据保护手段 说明 静态数据保护 对于AI Gallery收集的用户个人信息中的敏感信息,如用户邮箱和手机号,AI Gallery在数据库中做了加密处理。其中,加密算法采用了国际通用的AES算法。 传输中的数据保护 在ModelArt
华为云:负责云服务自身的安全,提供安全的云。华为云的安全责任在于保障其所提供的IaaS、PaaS和SaaS各类各项云服务自身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这不仅包括华为云基础设施和各项云服务技术的安全功能和性能本身,也包括
识别出此图片的数字是“2”。 本案例中使用的MNIST是比较简单的用做demo的数据集,配套算法也是比较简单的用于教学的神经网络算法。这样的数据和算法生成的模型仅适用于教学模式,并不能应对复杂的预测场景。即生成的模型对预测图片有一定范围和要求,预测图片必须和训练集中的图片相似(黑底白字)才可能预测准确。
通过nvidia-smi -a查询到存在Pending Page Blacklist为Yes的记录,或多比特Register File大于0。对于Ampere架构的GPU,存在以下场景: 存在不可纠正的SRAM错误。 存在Remapping Failure记录。 dmsg中存在Xid 95事件。
开启滚动:开启开关后,支持滚动升级的方式升级驱动。当前支持“按节点比例”和“按实例数量”两种滚动方式。 按节点比例:每批次驱动升级的实例数量为“节点比例*资源池实例总数”。 按实例数量:每批次驱动升级的实例数量为设置的实例数量。 对于不同的升级方式,滚动升级选择节点的策略会不同: 如果升级方
在ModelArts的Notebook中,访问外网速度不稳定怎么办? 为了方便AI开发者在使用Notebook时访问外部资源,ModelArts提供了一个免费的共享网络代理服务。借助这个代理,开发者可以更加便捷地下载所需的各类资源,助力开发工作的顺利进行。 由于该网络代理免费且共
管理员和开发者权限分离 对于中小规模团队,管理员希望对ModelArts资源进行主导分配,全局控制,而对于普通开发者只需关注自己实例的生命周期控制。对于开发者账号,一般不会具有te_admin的权限,相应的权限也需要主账号进行统一配置。本章节以使用Notebook进行项目开发为例
得更好的推理性能收益。 ModelArts针对上述使用场景,在给出系统化推理业务昇腾迁移方案的基础上,提供了即开即用的云上集成开发环境,包含迁移所需要的算力资源和工具链,以及具体的Notebook代码运行示例和最佳实践,并对于实际的操作原理和迁移流程进行说明,包含迁移后的精度和性能验证、调试方法说明。
train_url to an empty obs directory”。 原因分析 对于不支持断点训练的模型,如果选择训练输出路径不是空目录,会出现该报错。 处理方法 对于不支持断点训练的模型,请您将模型的输出路径train_url设置为空目录。 父主题: 预置算法运行故障
ModelArts作为顶层服务,其部分功能依赖于其他服务的访问权限。本章节主要介绍对于IAM子账号使用ModelArts时,如何根据需要开通的功能配置子账号相应权限。 权限列表 子账号的权限,由主用户来控制,主用户通过IAM的权限配置功能设置用户组的权限,从而控制用户组内的子账号的权限。此处的授权列表均按照Mode
服务管理员可以通过标准的IAM授权动作,来对特定用户进行精细化的权限管控。 场景描述 MaaS服务的访问授权是通过ModelArts统一管理的,当用户已拥有ModelArts的访问授权时,无需单独配置MaaS服务的访问授权,当用户没有ModelArts的访问授权时,则需要先完成配置才能正常使用MaaS服务。
型输出进行可对比的误差分析(精度)。 模型自动调优工具 AOE(Ascend Optimization Engine)是一个昇腾设备上模型运行自动调优工具,作用是充分利用有限的硬件资源,以满足算子和整网的性能要求。在推理场景下使用,可以对于模型的图和算子运行内置的知识库进行自动优化,以提升模型的运行效率。
且隔离的可用区,这些可用区通过延迟低、吞吐量高且冗余性高的网络连接在一起。利用可用区,您可以设计和操作在可用区之间无中断地自动实现故障转移的应用程序和数据库。与传统的单个或多个数据中心基础设施相比,可用区具有更高的可用性、容错性和可扩展性。 ModelArts通过对DB的数据进行
iling参数,确保能采集到16步的数据。 对于所有step稳定劣化的场景,避免采集第一个step的profiling即可,可以采集任意step如第15个step即可。 对于偶现且劣化现象出现的step数不固定的场景,则需要确保能采集到该不固定的step。 profiling数据采集请参考Ascend
通过nvidia-smi -a查询到存在Pending Page Blacklist为Yes的记录,或多比特Register File大于0。对于Ampere架构的GPU,存在以下场景: 存在不可纠正的SRAM错误。 存在Remapping Failure记录。 dmsg中存在Xid 95事件。
人工固定(硬件随机差异) 工具内部对于随机的控制,是通过设定统一的随机种子进行随机性固定的。但是由于硬件的差异,会导致同样的随机种子在不同硬件上生成的随机数不同。具体示例如下: 由上图可见,torch.randn在GPU和NPU上固定随机种子后,仍然生成不同的随机张量。 对于上述场景,用户需要将
两大类任务。可通过指定请求体中的复合参数“template”的“id”字段来创建某类任务。 “特征分析”是指基于图片或目标框对图片的各项特征,如模糊度、亮度进行分析,并绘制可视化曲线,帮助处理数据集。 “数据处理”是指从大量的、杂乱无章的、难以理解的数据中抽取或者生成对某些特定的
卡死等)导致训练作业还未完成就被中断,下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。 断点续训练是通过checkpoint机制实现。 checkpoint的机制是:在模型训练的过程中,不断地保存训练结果(包括但不限于EPOCH、模型权重
pe”参数来单独查询某类任务的列表。 “特征分析”是指基于图片或目标框对图片的各项特征,如模糊度、亮度进行分析,并绘制可视化曲线,帮助处理数据集。 “数据处理”是指从大量的、杂乱无章的、难以理解的数据中抽取或者生成对某些特定的人们来说是有价值、有意义的数据。“数据处理”又分为“数