检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
168.0.0/16~26。 IPV6:开启IPv6功能后,将自动为子网分配IPv6网段,暂不支持自定义设置IPv6网段,该功能一旦开启,将不能关闭。 若创建网络时未勾选开启IPv6,也可在创建网络后在操作列单击“启动IPv6”,如图3 打通VPC前,需要保证ModelArts网络和您
控制节点高可用:开启后,系统为您的集群创建三个控制平面节点,确保集群的可靠性。如果集群规模为1000/2000节点,则必须开启。如果关闭高可用,您的集群只会创建一个控制平面节点。资源池创建后,控制节点高可用的开启或关闭状态不可修改。 控制节点分布:可以选择随机分配,也可以指定可用区。控制节点推荐尽可能随机分布在不同可用区以提高容灾能力。
在ECS服务器中安装obsutil工具,具体命令可参考obsutil工具快速使用,将OBS桶中的数据下载至SFS Turbo中。注意:需要使用用户账号中的AK和SK进行签名验证,确保通过授权的账号才能访问指定的OBS资源。 父主题: 准备工作
认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以ak和sk保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 __AK = os
密钥。 图9 选择正确的密钥文件 当左下角显示如下状态时,代表实例连接成功: 图10 实例连接成功 当弹出如下错误时,代表实例连接失败,请关闭弹窗,并查看OUTPUT窗口的输出日志,请查看FAQ并排查失败原因。 图11 实例连接失败 远程调试代码 在VS Code界面,上传本地代码到云端开发环境。
议提工单请求隔离有问题的节点。 如果是触发了欧拉操作系统的限制,有如下建议措施。 分目录处理,减少单个目录文件量。 减慢创建文件的速度。 关闭ext4文件系统的dir_index属性,具体可参考:https://access.redhat.com/solutions/29894,(可能会影响文件检索性能)。
开发基于ModelArts提供的版本能够满足的时候,比如用户开发基于MindSpore1.X,建议用户使用预置镜像,这些镜像经过充分的功能验证,并且已经预置了很多常用的安装包,用户无需花费过多的时间来配置环境即可使用。 ModelArts默认提供了一组预置镜像供开发使用,这些镜像有以下特点:
在ModelArts服务页面的左侧导航选择“权限管理 ”,单击“添加授权”。授权对象选择子账号,在已有委托中选择新建的委托,然后单击“创建”。 验证权限是否配置成功。 登录子账号,如果用户能在控制台上成功创建Notebook实例、挂载OBS文件系统(OBS桶需由管理员创建)、保存镜像,则表示权限配置成功。
收益。在此基础上,可以进行三板斧自助工具式性能调优。这些调优过程由大量的项目交付经验总结,帮助您获得模型最佳推理性能,重复性能测试章节可以验证对应的收益情况。 自助性能调优三板斧分别为:通过固定shape获取更好的常量折叠、AOE性能自动调优、自动高性能算子生成工具。 通过固定shape获取更好的常量折叠
在ECS服务器中安装obsutil工具,具体命令可参考obsutil工具快速使用,将OBS桶中的数据下载至SFS Turbo中。注意:需要使用用户账号中的AK和SK进行签名验证,确保通过授权的账号才能访问指定的OBS资源。 父主题: 准备工作
在ECS服务器中安装obsutil工具,具体命令可参考obsutil工具快速使用,将OBS桶中的数据下载至SFS Turbo中。注意:需要使用用户账号中的AK和SK进行签名验证,确保通过授权的账号才能访问指定的OBS资源。 父主题: 准备工作
议提工单请求隔离有问题的节点。 如果是触发了欧拉操作系统的限制,有如下建议措施。 分目录处理,减少单个目录文件量。 减慢创建文件的速度。 关闭ext4文件系统的dir_index属性,具体可参考:https://access.redhat.com/solutions/29894,(可能会影响文件检索性能)。
精度问题根因和表现种类很多,会导致问题定位较为复杂,一般还是需要GPU上充分稳定的网络(包含混合精度)再到NPU上排查精度问题。常见的精度调测手段,包含使用全精度FP32,或者关闭算子融合开关等,先进行排查。对于精度问题,系统工程人员需要对算法原理有较深入的理解,仅从工程角度分析有时候会非常受限,同时也可联系华为工程师进行诊断与优化。
com/SafeAILab/EAGLE/ 版本实现 export ENABLE_SPEC_METRIC=0 # 是否关闭投机推理的metric采集功能,关闭有助于提升投机推理性能,默认关闭 如果需要使用eagle投机推理功能,需要进入 lm_tools/spec_decode/EAGLE文件
源占用过大或者OOM类问题导致的notebook实例异常。 5 disable_profiling_comparison False 否 关闭快慢卡算子比对。对于集群任务的profiling分析,如果存在快慢卡问题则会自动进行集群内部快慢卡的算子性能比对,包括npu侧计算的算子比
过滤出相应的工作流。 图1 属性类型 单击搜索框右侧的按钮,可设置Workflow列表页需要展示的内容和展示效果。 表格内容折行:默认为关闭状态。启用此功能可以让Workflow列表页中的内容在显示时自动换行。禁用此功能可截断文本,Workflow列表页中仅显示部分内容。 操作
功能获取相关信息,存在锁死的风险。出现D+进程后可以尝试如下方法: 方法1: 可以根据ps -aux查到的进程号, 使用kill -9强制关闭进程。 sudo kill -9 <进程ID> 方法2: 如果方法1执行后无法消除D+进程, 请尝试重启服务器。 父主题: Lite Server
返回新版自动学习页面,单击数据标注节点的“继续运行”,然后等待工作流按顺序进入训练节点。 模型将会自动进入训练,无需人工介入,训练时间相对较长,建议您耐心等待。如果关闭或退出此页面,系统仍然在执行训练操作。 在“声音分类”节点中,待训练状态由“运行中”变为“运行成功”,即完成模型的自动训练。 训练完成后,
Stopping service. - 正常 服务已停止。 Service stopped. - 正常 自动停止开关已关闭。 Auto-stop switched off. - 正常 自动关闭功能开启,服务将在xs后停止。 Auto-stop switched on, service will be
返回新版自动学习页面,单击数据标注节点的“继续运行”,然后等待工作流按顺序进入训练节点。 模型将会自动进入训练,无需人工介入,训练时间相对较长,建议您耐心等待。如果关闭或退出此页面,系统仍然在执行训练操作。 在“物体检测”节点中,待训练状态由“运行中”变为“运行成功”,即完成模型的自动训练。 图2 运行成功