华为云用户手册

  • 约束和限制 安装插件后,大部分能力能够对标在GPU上的使用,但并不是所有行为和GPU上是一一对应的,例如在torch_npu下,当PyTorch版本低于2.1.0时,一个进程只能操作一张昇腾卡,不支持一个进程操作多卡的能力,在PyTorch2.1.0及以上版本中torch_npu才支持一个进程中使用多张昇腾卡。 基于PyTorch上的第三方开发库非常多,例如transformers、accelerate、deepspeed以及Megatron-LM等,这些三方库昇腾也做了类似PyTorch Adapter的适配插件库,可以在Gitee的昇腾官方仓库中找到,请按需进行使用。部分三方库例如最新版本deepspeed已原生支持NPU,可以直接在昇腾设备上运行。
  • 代码迁移基础知识 PyTorch 2.1以下版本时,PyTorch官方并不直接支持昇腾的后端,仅直接支持CUDA和AMD ROCm,因此PyTorch在GPU上的训练代码无法直接在昇腾设备运行。PyTorch2.1版本提供了新硬件适配的插件机制,通过昇腾提供的Ascend Extension for PyTorch 插件,NPU可以成为PyTorch支持的硬件直接使用。 Ascend Extension for PyTorch 作为一个PyTorch插件,支持在不改变PyTorch表达层的基础上,动态添加昇腾后端适配,包含增加了NPU设备、hccl等一系列能力的支持。安装后可以直接使用PyTorch的表达层来运行在NPU设备上。 当前提供了自动迁移工具进行GPU到昇腾适配,原理是通过monkey-patch的方式将torch下的CUDA、nccl等操作映射为NPU和hccl对应的操作。如果没有用到GPU的高阶能力,例如自定义算子、直接操作GPU显存等操作,简单场景下可以直接使用自动迁移。 图1 torch_npu工作原理示意图 NPU(Neural Network Processing Unit)和GPU在构造结构上存在差异,因此迁移过程并不是完全平替的关系。昇腾训练芯片属于NPU的范畴,虽然在表达层可以通过torch.cuda和torch.npu的形式来替代,但是真实的算子下发、显存管理、集合通信等存在差异,用户需要了解NPU的运行机制才能更好的使用NPU设备,同时在遇到问题时快速找到原因。
  • 前提条件 要迁移的训练任务代码在GPU上多次训练稳定可收敛。训练业务代码和数据,应该确保在GPU环境中能够运行,并且训练任务有稳定的收敛效果。 本文只针对基于PyTorch的训练代码迁移。这里假设用户使用的是基于PyTorch的训练代码进行迁移。其他的AI引擎如TensorFlow、Caffe等不在本指导的讨论范围中。 已经完成环境准备(参考迁移环境准备),并且代码、预训练模型、数据等训练必需内容已经上传到环境中。
  • 迁移环境准备 本文以弹性裸金属作为开发环境,弹性裸金属支持深度自定义环境安装,可以方便的替换驱动、固件和上层开发包,具有root权限,结合配置指导、初始化工具及容器镜像可以快速搭建昇腾开发环境。 开通裸金属服务器资源请见DevServer资源开通,在裸金属服务器上搭建迁移环境请见裸金属服务器环境配置指导,使用ModelArts提供的基础容器镜像请见容器环境搭建。 父主题: GPU训练业务迁移至昇腾的通用指导
  • LoRA适配流是怎么样的? 因为现在pytorch-npu推理速度比较慢(固定shape比mindir慢4倍),在现在pth-onnx-mindir的模型转换方式下,暂时只能把lora合并到unet主模型内,在每次加载模型前lora特性就被固定了(无法做到pytorch每次推理都可以动态配置的能力)。 目前临时的静态方案可参考sd-scripts, 使用其中的“networks/merge_lora.py”把lora模型合入unet和text-encoder模型。 父主题: 常见问题
  • Stable Diffusion WebUI如何适配? WebUI一般可以分为前端和后端实现两部分,后端的实现模式种类多样,并且依赖了多个的第三方库,当前在WebUI适配时,并没有特别好的方式。在对后端实现比较理解的情况下,建议针对具体的功能进行Diffusers模块的适配与替换,然后针对替换上去的Diffusers,对其pipeline进行昇腾迁移适配,进而替代原有WebUI的功能。针对很多参数以及三方加速库(如xformers)的适配,当前没有特别好的处理方案。 父主题: 常见问题
  • 模型转换失败时如何查看日志和定位原因? 在模型转换的过程,如果出现模型转换失败,可以参考以下步骤查看日志并定位原因: 设置DEBUG日志。 设置MindSpore日志环境变量。 #shell export G LOG _v=0 # 0-DEBUG、1-INFO、2-WARNING、3-ERROR 设置CANN日志环境变量。 #shell export ASCEND_GLOBAL_LOG_LEVEL=1 # 0:表示DEBUG、1:表示INFO、2:表示WARNING、3:表示ERROR 4: 表示NONE export ASCEND_SLOG_PRINT_TO_STDOUT=1 # 表示日志打印 设置DUMP模型转换中间图。 设置DUMP中间图环境变量。 #shell export DUMP_GE_GRAPH=2 # 1:表示dump图全量内容、 2:表示不dump权重数据的基础图、 3:表示只dump节点关系的精简图 export DUMP_GRAPH_LEVEL=2 # 1:表示dump图所有图、 2:表示dump除子图外的所有图、 3:表示只dump最后一张图 问题分析。 配置以上的环境变量之后,再重新转换模型,导出对应的日志和dump图进行分析: 报错日志中搜到“not support onnx data type”,表示MindSpore暂不支持该算子。 报错日志中搜到“Convert graph to om failed”,表示CANN模块进行图编译存在保存,需要结合CANN的报错日志和dump图进行具体分析。 父主题: 常见问题
  • AOE的自动性能调优使用上完全没有效果怎么办? 在MindSpore Lite Convertor2.1版本之前可能出现的调优不生效的场景,建议直接使用MindSpore Lite Convertor2.1及以后的版本。配置文件指定选项进行AOE调优。使用转换工具配置config参数,具体如下所示,其中“subgraph tuning”表示子图调优,“operator tuning”表示算子调优。 其中,“ge.op_compiler_cache_mode”在该场景下必须设置为“force”,表示该场景下要强制刷新缓存,保证AOE调优后的知识库能够命中,实现模型调优。示例如下: # config.ini [ascend_context] aoe_mode="subgraph tuning, operator tuning" [acl_init_options] ge.op_compiler_cache_mode="force" 父主题: 常见问题
  • 同样功能的PyTorch Pipeline,因为指导要求适配onnx pipeline,两个pipeline本身功能就有差别,如何适配? 由于Diffusers社区的“single model file policy”设计原则,不同的pipeline是不同路径在独立演进的。先确保应用输出符合预期后,再进入到MindSpore Lite模型转换的过程,否则迁移昇腾后还是会遇到同样的问题。 父主题: 常见问题
  • ModelArts昇腾迁移调优工具总览 ModelArts集成了多个昇腾迁移调优工具,方便您在ModelArts平台环境中进行训练推理迁移、精度调试、性能调优等工作,您可在下表中查看当前ModelArts支持的昇腾迁移调优工具及对应指导。 表格中的部分工具已集成到ModelArts基础镜像中(镜像地址详见基础镜像章节),若您使用的是ModelArts基础镜像,可先尝试直接使用工具命令,如果相关命令不存在则需要参考工具安装指导自行安装。 表1 ModelArts昇腾迁移调优工具总览表 使用场景 类别 工具名称 工具描述 工具安装 使用指导 PyTorch GPU训练迁移至PyTorch NPU训练 训练迁移 Transfer2NPU 代码自动迁移工具,通过简单import命令可将PyTorch训练脚本从GPU平台迁移至NPU平台运行。 包含在torch_npu包中。 自动迁移工具使用指导 训练业务代码适配昇腾PyTorch代码适配 PyTorch Analyse 迁移分析工具,可以使用工具扫描用户的训练脚本,识别出源码中不支持的torch API和cuda API信息。 包含在cann toolkit中。 分析工具使用指导 精度调试 api_accuracy_checker 精度API预检工具,能在昇腾NPU上扫描用户训练模型中所有API,输出单API级别的精度情况的诊断和分析。 下载工具源码使用。 Ascend模型精度预检工具 ptdbg_ascend 精度整网对比工具,可以对NPU整网数据进行dump并与GPU dump数据进行比较,输出整网的精度情况的诊断和分析。 支持模块级dump,可按模块级别做对比。 支持溢出检测功能,可检测API的溢出情况。 支持梯度监控功能,可辅助定位长训精度问题。 下载工具whl包安装使用,推荐使用最新版本。 PyTorch精度工具 性能调优 PyTorch Profiler 性能采集工具,在训练脚本中调用Ascend PyTorch Profiler接口,可在训练过程中采集性能数据文件,包括PyTorch层算子信息、CANN层算子信息、底层NPU算子信息、以及算子内存占用信息等。 包含在torch_npu包中。 Ascend PyTorch Profiler数据采集与分析 MA-Advisor 性能自动诊断工具,采集好的Profiling数据通过该工具进行自动扫描分析,可给出性能瓶颈的诊断和修改建议。当迁移开箱性能较低时,通过该工具给出的建议修改代码后,通常可提升10%~30%。 whl包,地址见教程中下载链接。 自动诊断工具MA-Advisor compare_tools 性能比对工具,将在GPU和NPU采集的Profiling数据进行性能拆解和分类比对,展示算子、通信、内存等类别的性能比对数据。 下载工具源码使用。 性能比对工具 cluster_analyse 集群性能分析工具,采集好的多机Profiling数据可通过该工具分析集群通信耗时、通信带宽矩阵等内容,从而辅助定位慢卡、慢节点等问题。工具的输出数据为csv格式,可直接拖入Ascend Insight进行可视化查看。 下载工具源码使用。 集群分析工具 Ascend Insight 性能可视化工具,采集好的profiling数据可通过该工具进行可视化展示,辅助人工进行profiling数据查看和分析。 windows版本工具,下载链接见教程内。 Ascend Insight用户指南 PyTorch GPU推理迁移至MindSpore Lite NPU推理 模型迁移 Tailor Mindspore-lite模型转换、精度误差分析、性能分析。 whl包,地址见教程中下载链接。 Tailor使用指导 性能调优 msprof msprof命令行工具提供了AI任务运行性能数据、昇腾AI处理器系统数据等性能数据的采集和解析能力。 包含在cann toolkit中。 msprof AOE 自动调优工具,提供子图调优和算子调优功能,在静态shape场景下有较好的调优效果。推荐在mindspore-lite离线推理场景下使用。 包含在cann toolkit中。 AOE性能自动调优 AKG MindSpore自动调优工具,提供算子自动优化和算子自动融合的功能,推荐在mindspore-lite离线推理场景下使用。 下载工具源码使用。 AKG PyTorch GPU推理迁移至PyTorch ascend-vllm /atb/torchair 推理 模型迁移 - 需要用户自行代码适配,或者使用ModelArts迁移好的模型。 - ModelArts迁移好的模型可参考最佳实践中的案例,使用AscendCloud软件包中的模型,例如:主流开源大模型基于DevServer适配PyTorch NPU推理指导。 模型量化 modelslim 模型量化工具,通过量化提升模型的推理性能。 包含在cann toolkit中。 ModelSlim 精度调试 ait llm 大模型精度调试工具,支持加速库(atb)和torchair的大模型推理的精度数据dump及比对功能,辅助大模型推理精度问题定位。 下载工具whl包安装使用,推荐使用最新版本。 大模型推理精度工具 父主题: GPU业务迁移至昇腾训练推理
  • 解决方法 解决方法如下,请您根据实际业务场景选择: 方法一:将默认路由0.0.0.0/0改成指向明确的路由,比如192.168.0.0/16这样的地址。 方法二:将默认路由0.0.0.0/0拆分成8个指向明确的路由,具体如表1所示。 表1 方法二 目的地址 下一跳 128.0.0.0/1 企业路由器 64.0.0.0/2 企业路由器 32.0.0.0/3 企业路由器 16.0.0.0/4 企业路由器 8.0.0.0/5 企业路由器 4.0.0.0/6 企业路由器 2.0.0.0/7 企业路由器 1.0.0.0/8 企业路由器
  • 问题场景 当您的VPC和ER组网存在以下情况时,则不建议您在VPC路由表中将下一跳为ER的路由配置成默认路由0.0.0.0/0,那样会导致部分业务流量无法转发至ER。 VPC内的E CS 绑定了EIP。 该场景可参考方法一解决,方法二不适用。 VPC内部署了ELB、NAT网关、VPCEP、DCS服务。 该场景可参考方法一或者方法二解决。 注意:使用方法二时,VPC内访问公网的流量会转发到企业路由器,如果组网中的VPC有访问公网的需求,比如通过EIP访问公网,请勿使用该方法。
  • 背景信息 支持备份上云的VMware版本包括VMware vSphere 5.1、VMware vSphere 5.5、VMware vSphere 6.0、VMware vSphere 6.5、VMware vSphere 6.7。 一个eBackup备份管理系统中有且只有一个备份服务器,可以部署多个备份代理。请根据需要保护的虚拟机数量规划备份代理的数量。 本节以VMware vSphere Client 6.0为例进行介绍。当使用其他版本的VMware vSphere Client时,请参见VMware相关文档。 由于镜像模板中不包含VMware的VDDK(Virtaual Disk Development Kit)需要用户访问VMware官方网站下载VDDK。 VMware 6.7及以下版本虚拟机的VDDK需要使用6.0.3版本。 如果用户已安装的eBackup镜像包支持的是VMware6.5及以下版本,想要升级VMware到6.7及以上版本,需要先升级eBackup到对应版本。 安装eBackup的服务器规格要求CPU不低于4vCPU内存不低于8GiB,数据盘和系统盘容量不小于200GB。
  • 后续操作 当用户使用专线或者VPN接入华为云时,请在备份服务器和备份代理服务器上配置华为云的DNS。 当eBackup服务器需要接入管理平面或存储平面(包括生产存储平面和备份存储平面)的其他网段或者IP地址时,需要进行路由配置。 执行ifconfig命令,查看与需要接入管理平面或存储平面通信的网卡信息。 eth2 Link encap:Ethernet HWaddr 2A:BE:D4:88:99:01 inet addr:192.168.31.190 Bcast:192.168.31.255 Mask:255.255.255.0 … 执行vi /etc/sysconfig/static-routes命令,打开配置文件。 在文件中添加路由信息,输入:wq保存并退出文件。 any net 192.168.1.0 netmask 255.255.255.0 gw 192.168.31.1 dev eth2 上述回显信息四列分别表示目标网络,目标网络子网掩码,本端的网关和网卡名称。 执行service network restart命令,重启网络使路由生效。 执行route命令,查看路由信息。 Kernel IP routing table Destination Gateway Genmask Flags Metric Ref Use Iface 192.168.1.0 192.168.31.1 255.255.255.0 UG 0 0 0 eth2
  • VMware备份 支持备份上云的VMware版本包括VMware vSphere 5.1、VMware vSphere 5.5、VMware vSphere 6.0、VMware vSphere 6.5、VMware vSphere 6.7。 当前仅支持对接ESXi实现VMware备份上云。 为了获得更优的性能和操作体验,仅支持表1所列经过兼容性测试的操作系统执行云上恢复,如果仅恢复到云下VMware,则无操作系统版本限制。 VMware 6.7及以下版本虚拟机的VDDK需要使用6.0.3版本。 同步至云端的备份无法创建新的服务器。 同步至云端的备份只能恢复至已创建的同类型操作系统的云服务器,暂不支持部分磁盘恢复。 系统盘组了LVM的服务器暂不支持云上恢复。 执行恢复操作前,请务必按照操作步骤完成安全组的配置,否则可能会导致恢复失败。 备份带宽建议不低于100Mbits,VMware备份上云的主机对应磁盘大小建议是整数GB。 操作系统为Windows的上云副本,执行云上恢复时,目前只支持系统盘启动分区编号为2的WindowsVMware虚机备份。 操作系统为linux的上云副本,当前不支持系统盘多于2个分区的虚拟机云上恢复。 表1 恢复至云上服务器支持的操作系统 操作系统类型 版本范围 Windows Windows 7 Windows Server 2008 R2 Windows Server 2012 Windows Server 2012 R2 Windows Server 2016 Windows Server 2019 CentOS CentOS 6.4 CentOS 6.5 CentOS 7.2 CentOS 7.3 CentOS 7.4 CentOS 7.5 CentOS 7.6 CentOS 7.7 RedHat RedHat 6.4 RedHat 6.5 RedHat 7.2
  • 发起测试券申请邮件 当“认证测试计划表”、“可靠性checklist”、“云市场测试券申请表”都填写完成后,伙伴可以发起测试券的申请邮件。 邮件的模板信息参考如下: 邮件的收件人:填写华为测试工程师的邮箱地址。 抄送人:非必填。 主题:按照“【联营商品测试代金券申请模板-伙伴侧】XXX公司—XXX方案代金券申请”的格式,将模板中“XXX公司”替换成伙伴公司的名称,“XXX方案”替换成本次认证的方案的名称。 附件:将填写好的“认证测试计划表”、“可靠性checklist”、“云市场测试券申请表”这3个文件放在附件。 正文:填写申请测试券的文字声明+集成架构图截图。 正文文字声明模板:参考如下所示,您可以复制到邮件正文中修改。 “XXX您好, 附件为华为云联营商品XXX方案上架测试的云资源代金券申请材料。 XXX公司已知悉需在云资源1个月有效期内完成测试并修复问题,如未完成自行续费闭环测试,承诺本次申请的测试资源为联营商品认证测试环境实际部署所需最低规格,最低规格合理的原因为:XXXX(必填)。 请您预审后帮忙发起电子流申请,感谢! 下图是本次测试环境的云服务集成架构图:” 您需要将正文文字模板中的“XXX您好”中的“XXX”替换成华为测试工程师的名字,将“XXX公司”替换成伙伴公司的名称,将“最低规格合理的原因为:XXXX”中的“XXXX”修改为具体的原因描述。 正文集成架构图截图:需要保持与“解决方案工作台”的集成架构一致。 图11 邮件模板参考 以上信息全部填写完成后,点击发送邮件,并通知华为测试工程师审核申请测试券的内容即可。
  • “云市场测试券申请表”的填写方法 打开“云市场测试券申请表”,先填写“项目基本信息”的内容。您只需要填写带“*”号的单元格后面的内容,带红色角标的单元格后面的内容一般无需填写。 以下提供需要填写的单元格内容的解释说明供您参考。 项目类型:无需修改,默认即可。 伙伴名称:填写伙伴公司的名称。 申请资源预算:对应您下方填写的资源“总计”的价格。 项目启动时间:对应测试启动时间。 申请类型:默认为“初次申请”,如果该方案是第一次申请,则无需修改,如果是第二次申请,则将“初次申请”修改为“二次申请”。 伙伴账号名:填写申请的代金券下发的华为云主账号。 伙伴解决方案名称:对应本次认证的方案的名称。 申请人:发起申请测试券的伙伴代表的名字 项目结束时间点:一般对应前面填写的启动时间往后推一个月的时间。 华为云生态接口人:对应该方案的华为生态经理的姓名和工号(可以询问华为生态经理或者华为测试工程师然后再填写此项)。 图7 填写项目基本信息 完善云服务资源信息 云服务资源信息需要与解决方案工作台的部署清单的内容保持一致。 模板已经填好的云服务资源信息仅供参考,填写完成时需要将模板历史填写好云服务资源的内容清空。 区域:申请购买云资源所在的区域,建议从解决方案工作台的部署清单复制。 云服务类型:云服务的名称,建议从解决方案工作台的部署清单复制。 云服务规格说明:云服务的规格配置,建议从解决方案工作台的部署清单复制。 数量:购买对应云服务规格的数量,建议从解决方案工作台的部署清单复制。 单价(元):1个云服务对应的价格,建议从解决方案工作台的部署清单复制。 合计(元):等于“数量”ד单价(元)”。 计划使用开始时间:计划开始购买云服务的的时间。 计划使用结束时间:计划测试完成的时间,一般在“计划使用开始时间”上往后推一个月。 图8 完善云服务资源信息 最终统计的资源“总计”的价格为所有云服务的单价乘以数量之和,且需要和“项目基本信息”中的“申请资源预算”相对应。 图9 资源总价 图10 项目基本信息-申请资源预算 以上信息全部完善后,“云市场测试券申请表”填写完成,保存后退出即可。
  • “可靠性checklist”的填写方法 打开“可靠性checklist”表后,里面包含3个Sheet页,分别是“SaaS可靠性华为云要求表”、“license可靠性华为云要求表”、“硬件商品华为云要求表(不需进行可靠性测试)”,您需要根据本次认证测试的产品的类型选择对应的Sheet页填写。 例如:假如您本次的产品为Saas交付的产品,那么您只需要填写“SaaS可靠性华为云要求表”这个Sheet页的内容,另外2个Sheet页不涉及可以删除。 图3 确定需要填写的Sheet页 确定好需要填写的Sheet页,并删除掉不涉及的Sheet页之后,需要继续完善Sheet页当中需要填写的内容。 继续用“SaaS可靠性华为云要求表”这个Sheet页举例说明,首先您需要在下方截图指出的位置填写本次认证的“联营商品的名称”,然后填写“saas可靠性要求级别评估结果”,评估结果有“中”和“高”这两种结果。 图4 填写联营商品名称 “saas可靠性要求级别评估结果”选择“中”还是“高”,可以根据上面表格“中”和“高”分别对应的不同的“RTO”和“RPO”的要求评估后选择。 图5 评估可靠性要求级别的方法 “联营商品的名称”和“saas可靠性要求级别评估结果”都填写完成后,则“可靠性checklist”填写完成,保存后退出即可。(以下截图为举例说明,您需要根据产品的实际情况填写) 图6 “可靠性checklist”填写完成
  • 创建空间 进入解决方案工作台控制台→首页→新建,单击【新建】按钮。 图1 新建空间 选择工作场景“伙伴Lead基线构建”,右边会自动显示“伙伴Lead基线构建”的整体流程,然后点击“下一步”即可。 图2 选择工作场景 进入“编辑空间信息”的页面,首先按照“XX公司-XX方案-伙伴Lead商品认证测试”的格式,编辑您的空间名称,将“XX公司”替换成您的公司名称,将“XX方案”替换成您的方案名称。“空间描述”非必填。 图3 编辑空间名称 添加空间成员 点击“空间成员”下方的“添加”按钮。 图4 添加成员第一步 点击点击“ IAM 用户名”右边的下拉框,选择您需要添加的用户名(支持多选)。 当前步骤只能邀请“本企业”主账号下的用户名,如需邀请华为测试工程师的用户名,需待空间创建完成后到“成员管理”添加。 图5 添加成员第二步 点击“角色”右边的下拉框,可以给您所选择的用户名分配需要的角色。 解决方案工作台空间角色,指解决方案工作台用户在具体的某个解决方案工作台空间内的角色,空间之间相互隔离,某个空间内的角色不影响其他空间。 管理员:空间管理员,可以对本空间内的成员进行管理。 项目经理:管理空间、空间成员、测试计划制定、方案/需求/用例/报告审核等。 架构师:在解决方案工作台上进行解决方案注册、设计与审核,测试需求创建,测试问题处理等。 解决方案生命周期管理员:伙伴lead方案不涉及。 测试工程师:测试用例设计、执行,测试资源开通,测试问题处理,测试报告生成等。 访客:在邀请用户进入空间时可设置该用户为访客角色,访客角色用户在该空间内仅支持查看,不允许任何编辑操作。 您可以给一个用户名选择一个角色,比如给测试人员支选择“测试工程师”的角色。如果测试人员既要负责测试工作,又要负责架构图的设计工作,那么您可以给测试人员勾选“测试工程师”和“架构师”这两个角色。 图6 角色管理 “IAM用户名”和对应的“角色”信息都填写好之后,点击“确定”按钮。 图7 确认成员信息 在用户列表会显示刚刚添加的用户信息,如需再添加用户,您可以继续点击“添加”按钮。 添加完成则点击右下角的“确定”按钮,则完成空间的创建。 图8 查看成员信息 回到“解决方案工作台”的“首页,可以在“工作空间”的列表查看到创建完成的空间。 图9 查看空间列表 父主题: 认证测试操作指导
  • 证书配置概述 HTTPS是以安全为目标的HTTP通道,在HTTP的基础上通过传输加密和身份认证保证了传输过程的安全性。被广泛应用于万维网上安全敏感的通讯,例如交易支付等。 本章节的配置证书是指在CDN节点配置 域名 证书,证书配置成功后,客户端可以使用HTTPS协议请求CDN节点。如果想要节点可以使用HTTPS协议回源,需要在源站配置HTTPS证书。 修改证书相关配置需要加速域名处于“已开启”或“配置中”状态,并且未被CDN锁定、禁用。 功能 说明 SCM委托授权 如果您需要配置“SCM证书”,您需要配置“SCM委托授权”,如此,在CDN侧配置证书时就可以直接获取到证书内容。 配置HTTPS证书 在CDN节点添加证书,支持客户端以HTTPS协议访问节点,实现HTTPS安全加速。 HTTPS证书要求 介绍了不同的机构颁发证书的拼接、上传顺序。 HTTPS证书格式转换 CDN仅支持PEM格式的证书,其它格式需要转换为PEM格式才可以使用。 配置TLS版本 您可以根据业务需求开启或关闭相应的TLS版本。 配置OCSP Stapling 开启此项配置后,CDN将预先缓存在线证书的结果并返回给客户端,浏览器无需再次查询,从而减少用户验证时间。 强制跳转 如果您需要将客户端到CDN节点的请求强制跳转为HTTP/HTTPS,您需要配置“强制跳转”。 配置HSTS 配置HSTS后,将强制客户端(如浏览器)使用HTTPS协议访问服务器,提升访问安全性。 配置HTTP/2 介绍了HTTP/2的背景信息和优势,有助于您决定是否开启此项配置。 配置QUIC协议 配置QUIC协议,提高了传输的安全性,减少传输和连接时的延时,避免网络拥塞。 父主题: HTTPS配置
  • CDN回源机制 当源站存在多个IP地址时,CDN回源时采用负载均衡机制,详情如下: 一次回源请求最多访问两个高优先级源站IP,如果两个IP均回源失败,切换到低优先级源站IP,最多访问两个低优先级源站IP。一次用户请求CDN会进行四次回源尝试,如果四次均失败,此次用户请求失败。 回源失败:指连接超时、连接失败或者收到源站的5xx错误码。 当您的源站是域名,且解析到多个IP地址时,最多重试2个IP,如果访问两个IP均失败,则切换到下一个源站。
  • 约束与限制 OMS 迁移任务限制如表1所示。 表1 OMS迁移任务限制 类别 限制 多版本对象迁移 OMS默认只迁移源端多版本对象中的最新版本,不支持迁移历史版本的对象存储数据。 目的端桶存储类别 目的端桶的存储类别只能为标准存储或者低频访问存储。迁移完成后,可以自行修改桶的存储类别。 迁移网络 仅支持公网迁移,不支持专线迁移。 元数据迁移 仅支持中文字符、英文字符、数字和中划线【-】迁移。除上述字符外,其他所有字符均不支持。 中文字符:迁移过程中,会被转换成URL编码形式。 注意: 不支持中文标点符号迁移,由于中文标点符号不会被转换成URL编码,因此元数据中包含中文标点符号时,将无法迁移成功。 英文字符、数字与中划线【-】:迁移过程中不需要进行编码转换,可以直接迁移。 迁移范围 目前单个任务(迁移任务/迁移任务组)仅支持迁移单桶数据,如果涉及多桶数据迁移,需要创建多个任务。 迁移速度 通常OMS的迁移速度参考值是10~20 TB每天。若需更高的迁移效率,建议使用迁移中心MgC的存储迁移工作流进行迁移。迁移中心MgC提供独享的集群资源,能够动态扩展迁移性能,最高支持20Gbit/s带宽。 迁移速度受源端对象个数、大小,带宽以及公网传输距离影响,建议用户创建一个含有实际数据的迁移任务来测试迁移速度,实际最大迁移速度为单个任务平均速度的5倍(单个Region内并发任务数最大为5)。如果需要更高的并发任务数,可以使用迁移中心 MgC的存储迁移工作流来自定义并发子任务数。 归档数据 对于归档类型的数据,迁移前需要您进行解冻操作,待解冻完成后再创建迁移任务,解冻时请注意如下事项: 请务必在解冻完成后再创建迁移任务。 请根据待迁移的数据总量评估并设置解冻有效期,以防迁移期间数据再次变成归档状态。 解冻操作可能会产生一定的费用,由源端云厂商收取,计费规则请咨询源端云厂商。 迁移任务 同一用户,单个Region内并发任务数最大为5。 说明: 假设分别迁移对象存储数据到华北-北京一和华南-广州时,总并发数为5*2=10个。 24小时内,单个Region内最多创建迁移任务数为5000个。 迁移任务组 同一用户,单个Region内并发任务组数最大为5。 说明: 假设分别迁移对象存储数据到华北-北京一和华南-广州时,总并发数为5*2=10个。 同步任务 同步任务和迁移任务、迁移任务组共用配额,优先于迁移任务、迁移任务组下发。 并发执行同步中的任务数量最多为5个。 对象列表文件 对象列表文件大小不能超过1024MB。 对象列表文件必须是“.txt”类型的文件,并且该文件元数据中的“ContentType”只能为:“text/plain”。 对象列表文件必须是UTF-8无BOM格式编码格式。 对象列表文件中每行只能包含一个对象名称,并且对象名称使用URL Encode编码。 对象列表文件中每行不要添加无效空格,否则会将空格作为对象名,导致迁移失败。 对象列表文件中每行长度不要超过65535,否则会导致迁移失败。 对象列表文件的元数据中不能设置“ContentEncoding”,否则会导致迁移失败。 URL列表文件 URL列表文件大小不能超过1024MB。 URL列表文件必须是“.txt”类型的文件,并且该文件元数据中的“ContentType”只能为:“text/plain”。 URL列表文件必须是UTF-8无BOM格式编码格式。 URL列表文件中每行只能包含一个URL和目的端对象名称。 URL列表文件中每行长度不要超过65535,否则会导致迁移失败。 URL列表文件的元数据中不能设置“ContentEncoding”,否则会导致迁移失败。 URL列表文件中每行不要添加无效空格,否则会将空格作为对象名,导致迁移失败。 URL列表文件中每行使用制表符\t分割URL和目的端对象名称,格式为:[URL][制表符][目的端对象名称],其中源端对象名称如果包含中文、特殊字符必须使用URL Encode对URL编码;目的端对象名称如果包含中文、特殊字符也需要使用URL Encode编码。例如: http://xxx.xxx.xxx.xxx.com/doc/%e6%96%87%e4%bb%b61.txt doc/%e6%96%87%e4%bb%b61.txt http://xxx.xxx.xxx.xxx.com/doc/thefile2.txt doc/thefile2.txt http://xxx.xxx.xxx.xxx.com/the%20file.txt the%20file.txt http://xxx.xxx.xxx.xxx.com/the%20file2.txt the+file2.txt http://xxx.xxx.xxx.xxx.com/doc/thefile.txt doc/thefile.txt 注意: URL编码仅从域名后第二个字符开始,不要将协议头、域名以及域名两侧的斜线转码,否则将导致格式校验错误。 URL与目的端对象名称之间使用一个制表符(键盘上Tab键)进行分割,请勿使用空格。 以上示例中,URL所表示的文件,被复制到目的端桶后,对象会被分别命名为:doc/文件1.txt、doc/thefile2.txt、the file.txt、the file2.txt以及doc/thefile.txt。 URL列表文件中的URL需确保可通过HEAD和GET请求正常访问。 失败对象列表文件 单个任务失败对象列表最多记录10万个失败对象。 说明: 失败对象超过10万个的场景,建议基于已有失败对象列表,分析处理后重新迁移。
  • 巡检授权 MRS 为您提供巡检集群功能,帮助您检查集群的基础信息,包括容量、资源、版本、缺陷等,帮助您更好的维护集群。当您需要对集群进行巡检时,请通过该功能授权后,联系运维人员进行巡检并获取巡检结果。MRS支持的所有巡检脚本见界面中的巡检脚本列表,MRS目前仅支持证书检测脚本,用来检查集群中的证书是否过期。 开启巡检授权 登录MRS控制台。 单击集群名称进入集群详情页面。 选择“巡检授权”页签。 配置巡检参数。 巡检授权时间:运维巡检授权的时长,到期后会自动取消授权。 巡检脚本保留时间:巡检脚本在执行前会先下载到集群中,该参数用于设置巡检脚本执行后保留的时长。巡检结果下载后保存在集群的“/srv/Bigdata/operationCmd”中。 巡检结果保留时间:巡检结果在用户集群中的保留时长。巡检结果保存在集群的“/srv/Bigdata/operationCmd”中。 图1 巡检授权 关闭巡检授权 登录MRS控制台。 单击集群名称进入集群详情页面。 选择“巡检授权”页签。 单击“取消授权”。
  • 开启MRS集群远程运维授权 登录MRS管理控制台。 在左侧导航栏中选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 在页面右上角单击“运维”,选择“集群节点授权”,选择授权给华为云支持人员访问本机的权限的“截止时间”。在截止时间之前支持人员有临时访问本机的权限。 配置完成后,勾选确认信息,单击“确定”,并进行二次确认。 问题解决后,在页面右上角单击“运维”,选择“取消集群节点授权”为华为云支持人员取消访问权限。
  • 告警解释 系统每30秒周期性检查DBServer主节点的数据目录磁盘空间使用率,并把实际数据目录磁盘空间使用率和阈值相比较,当数据目录磁盘空间使用率连续5次(可配置,默认值为5)超过设定阈值时,系统将产生此告警。数据目录磁盘空间使用率的阈值设为80%(可配置,默认值为80%)。 平滑次数可配置,当平滑次数为1,数据磁盘目录空间使用率小于或等于阈值时,该告警恢复;当平滑次数大于1,数据磁盘目录空间使用率小于阈值的90%时,该告警恢复。
  • 使用限制 当集群中分析Core节点个数小于等于HDFS副本数时,为了保证数据的可靠性MRS不支持退订节点。HDFS副本数可通过HDFS参数配置中的“dfs.replication”参数查询。 MRS不支持退订部署了ZooKeeper、Kudu、Kafka及ClickHouse服务的节点。 MRS 3.1.2之前版本ClickHouse服务的节点不支持退订。 MRS 3.1.2及之后版本ClickHouse服务的节点,必须等退服成功后,才能进行退订操作。
  • 参考信息 节点互信异常处理方法如下: 本操作需使用omm用户执行。 如果节点间网络不通,请先解决网络不通的问题,可以检查两个节点是否在同一个安全组,是否有设置hosts.deny、hosts.allow 等。 在两端节点执行ssh-add -l 确认是否有identities信息。 是,执行4。 否,执行2。 如果没有identities信息,执行ps -ef|grep ssh-agent找到ssh-agent进程,并停止该进程并等待该进程自动重启。 执行ssh-add -l 查看是否已经添加identities信息,如果已经添加手动ssh确认是否互信正常。 如果有identities信息,需要确认“/home/omm/.ssh/authorized_keys”中是否有对端节点“/home/omm/.ssh/id_rsa.pub”文件中的信息,如果没有手动添加。 检查“/home/omm/.ssh”目录下的文件权限是否被修改。 排查如下日志文件“/var/log/Bigdata/nodeagent/scriptlog/ssh-agent-monitor.log”。 如果用户把omm的“/home”目录删除了,请联系MRS支撑人员修复。
  • 告警解释 系统每30秒周期性检测主机中omm用户D状态和Z状态进程数,并把实际进程数和阈值相比较。主机D状态和Z状态进程数默认提供一个阈值范围。当检测到进程数超出阈值范围时产生该告警。 平滑次数为1,主机中omm用户D状态和Z状态进程总数小于或等于阈值时,告警恢复;平滑次数大于1,主机中omm用户D状态和Z状态进程总数小于或等于阈值的90%时,告警恢复。 主机Z状态进程数检测功能适用于MRS 3.2.0及之后版本。
  • 参考信息 NameNode JVM参数配置规则 NameNode JVM参数“GC_OPTS”默认值为: -Xms2G -Xmx4G -XX:NewSize=128M -XX:MaxNewSize=256M -XX:MetaspaceSize=128M -XX:MaxMetaspaceSize=128M -XX:+UseConcMarkSweepGC -XX:+CMSParallelRemarkEnabled -XX:CMSInitiatingOccupancyFraction=65 -XX:+PrintGCDetails -Dsun.rmi.dgc.client.gcInterval=0x7FFFFFFFFFFFFFE -Dsun.rmi.dgc.server.gcInterval=0x7FFFFFFFFFFFFFE -XX:-OmitStackTraceInFastThrow -XX:+PrintGCDateStamps -XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=10 -XX:GCLogFileSize=1M -Djdk.tls.ephemeralDHKeySize=3072 -Djdk.tls.rejectClientInitiatedRenegotiation=true -Djava.io.tmpdir=${Bigdata_tmp_dir} NameNode文件数量和NameNode使用的内存大小成比例关系,文件对象变化时请修改默认值中的“-Xms2G -Xmx4G -XX:NewSize=128M -XX:MaxNewSize=256M”。参考值如下表所示。 表1 NameNode JVM配置 文件对象数量 参考值 10,000,000 -Xms6G -Xmx6G -XX:NewSize=512M -XX:MaxNewSize=512M 20,000,000 -Xms12G -Xmx12G -XX:NewSize=1G -XX:MaxNewSize=1G 50,000,000 -Xms32G -Xmx32G -XX:NewSize=3G -XX:MaxNewSize=3G 100,000,000 -Xms64G -Xmx64G -XX:NewSize=6G -XX:MaxNewSize=6G 200,000,000 -Xms96G -Xmx96G -XX:NewSize=9G -XX:MaxNewSize=9G 300,000,000 -Xms164G -Xmx164G -XX:NewSize=12G -XX:MaxNewSize=12G
  • 为已有MRS集群创建RDS数据连接 该步骤指导用户为当前已有的MRS集群创建RDS数据连接。 登录MRS控制台,在导航栏选择“数据连接”。 单击“新建数据连接 ”。 参考表1配置相关参数。 表1 数据连接 参数 说明 类型 选择外部源连接的类型。 RDS服务PostgreSQL数据库:安装了Hive组件的集群支持连接该类型数据库。 RDS服务MySQL数据库:安装了Hive或Ranger组件的集群支持连接该类型数据库。 名称 数据连接的名称。 数据库实例 RDS服务数据库实例,该实例需要先在RDS服务创建后在此处引用,且已创建数据库,具体请参考创建并配置RDS实例。单击“查看数据库实例”查看已创建的实例。 数据库 待连接的数据库的名称。 用户名 登录待连接的数据库的用户名。 密码 登录待连接的数据库的密码。 当用户选择的数据连接为“RDS服务MySQL数据库”时,请确保使用的数据库用户为root用户。如果为非root用户,请参考创建并配置RDS实例操作。 单击“确定”完成创建。
共100000条