检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
描述 phase String 网络的当前状态。可选值如下: Creating:网络创建中 Active:网络正常 Abnormal:网络不正常 connectionStatus NetworkConnectionStatus object 网络与其他云服务连通状态信息。 表13
GPU A系列裸金属服务器如何进行RoCE性能带宽测试? 场景描述 本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。 前提条件 GPU A系列裸金属服务器已经安装了IB驱动。(网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20
SD WebUI推理性能测试 以下性能测试数据仅供参考。 开启Flash Attention 生成1280x1280图片,使用Ascend: 1* ascend-snt9b(64GB),约耗时7.5秒。 图1 生成图片耗时(1) 生成1280x1280图片,使用Ascend: 1*
上述命令中:modelFile指定生成的mindir模型文件;device指定运行推理的设备。其他用法请参考benchmark文档。 测试结果如下所示: 图1 测试结果 父主题: 性能调优
放处于宽限期的节点。 退订/释放操作无法恢复,请谨慎操作。 删除网络 当AI业务开发不再需要使用网络时,您可以删除网络。 请注意,删除网络会导致使用该网络的资源池网络不可用,请谨慎操作。 在“网络”页签,单击某个网络操作列的“更多 > 删除”。 确认删除,单击“确定”即可。 父主题:
Step4 测试用户权限 由于4中的权限需要等待15-30分钟生效,建议在配置完成后,等待30分钟,再执行如下验证操作。 使用用户组02中任意一个子账号登录ModelArts管理控制台。在登录页面,请使用“IAM用户登录”方式进行登录。 首次登录会提示修改密码,请根据界面提示进行修改。
Connection timed out"如何解决? 问题现象 原因分析 原因分析一:实例配置的白名单IP与本地网络访问IP不符。 解决方法:请修改白名单为本地网络访问IP或者去掉白名单配置。 原因分析二:本地网络不通。 解决方法:检查本地网络以及网络限制。 父主题: VS Code连接开发环境失败故障处理
run.sh脚本测试ModelArts训练整体流程 自定义容器在ModelArts上训练和本地训练的区别如下图: 图1 本地与ModelArts上训练对比 ModelArts上进行训练比本地训练多了一步OBS和容器环境的数据迁移工作。 增加了和OBS交互工作的整个训练流程如下:
Test节点,其余参数可保持默认值或根据实际需求修改。 测试使用的最大数据:取值范围[1, 1024],单位可选为“B”、“KB”、“MB”、“GB”“TB”。测试使用的最大数据须大于开始测试使用的最小数据。 开始测试使用的最小数据:取值范围[1, 1024],单位可选为“B”
使用SSH连接,报错“Connection reset”如何解决? 问题现象 原因分析 可能是用户网络限制原因。比如部分企业网络的SSH是默认屏蔽的。 解决方法 用户重新进行申请SSH权限。 父主题: VS Code连接开发环境失败故障处理
JupyterLab中文件保存失败,如何解决? 问题现象 JupyterLab中保存文件时报错如下: 原因分析 浏览器安装了第三方插件proxy进行了拦截,导致无法进行保存。 在Notebook中的运行文件超过指定大小就会提示此报错。 jupyter页面打开时间太长。 网络环境原因,是否有连接网络代理。 解决方法
性能调优 性能测试 benchmark工具也可用于性能测试,其主要的测试指标为模型单次前向推理的耗时。在性能测试任务中,与精度测试不同,并不需要用户指定对应的输入(inDataFile)和输出的标杆数据(benchmarkDataFile),benchmark工具会随机生成一个输
子用户仅限于对自己创建的工作空间下的资源池进行迁移操作。 网络工作空间迁移 登录ModelArts管理控制台,选择“AI专属资源池 > 弹性集群Cluster”,切换到“网络”页签。 在网络列表中,选择目标网络“操作 > 更多 > 工作空间迁移”。 在弹出的“迁移网络”中,选择要迁移的“目标工作空间”,单击“确定”。
联网下载SimSun.ttf时可能会遇到网络问题 联网下载SimSun.ttf时肯会遇到网络问题 tonkenization_qwen.py会在cache中读取SimSun.ttf 文件,如果没有,就会联网下载,可能会遇到: SSL:CERTIFICATE_VERIFY_FAILED
联网下载SimSun.ttf时可能会遇到网络问题 联网下载SimSun.ttf时肯会遇到网络问题 tonkenization_qwen.py会在cache中读取SimSun.ttf 文件,如果没有,就会联网下载,可能会遇到: SSL:CERTIFICATE_VERIFY_FAILED
如何关闭Mox的warmup 问题现象 训练作业mox的Tensorflow版本在运行的时候,会先执行“50steps” 4次,然后才会开始正式运行。 warmup即先用一个小的学习率训练几个epoch(warmup),由于网络的参数是随机初始化的,如果一开始就采用较大的学习率会出现数值不稳定的问题,这是使用warm
d失败。 解决方法一 方法一:检查VS Code网络是否正常。在VS Code插件市场上搜索ModelArts-HuaweiCloud,如果显示如下则网络异常,请切换代理或使用其他网络。 操作完成后再次执行搜索,如果显示如下则网络正常,请回到ModelArts控制台界面再次单击界面上的“VS
创建模型成功后,部署服务报错,如何排查代码问题 问题现象 创建模型成功后,部署服务失败,如何定位是模型代码编写有问题。 原因分析 用户自定义镜像或者通过基础镜像导入的模型时,用户自己编写了很多自定义的业务逻辑,这些逻辑有问题将会导致服务部署或者预测失败,需要能够排查出哪里有问题。
-n 1000 address 192.168.100.18 -tcp RoCE测试结果如图: 图14 RoCE测试结果(接收端) 图15 RoCE测试结果(服务端) 当某网卡已经开始RoCE带宽测试时,再次启动任务会有如下报错: 图16 报错信息 需要执行下述命令后关闭roce_test任务后再启动任务。
ping命令是一种基于ICMP协议(Internet Control Message Protocol)的网络诊断工具,利用ICMP协议向目标主机发送数据包并接收返回的数据包来判断网络连接质量。当安全组的入方向规则中没有包含ICMP协议,就会出现ping不通的问题。 处理方法 在当前安全组的