检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU裸金属服务器无法Ping通如何解决 问题现象 在华为云使用GPU裸金属服务器时, 服务器绑定EIP(华为云弹性IP服务)后,出现无法ping通弹性公网IP现象。 原因分析 查看当前GPU裸金属服务器的安全组的入方向规则的配置,发现仅开通了TCP协议的22端口。 ping命令是一种基于ICMP协议(Internet
新建服务、存量服务停止后再启动、存量服务失败后再启动,会立即切换使用新域名。为保障持续提供推理服务,请您及时更新业务中的预测API的域名。 如果您使用的是VPC内部节点访问ModelArts推理的在线服务,预测API切换域名后,由于内网VPC无法识别公网域名,请提交工单联系华为云技术支持打通网络。
i.com不通过公网代理,huaweicloud.com域名在no_proxy/NO_PROXY中包含,就访问不了。 解决方式 执行以下命令查看在no_proxy/NO_PROXY中是否包含huaweicloud.com域名。 env | grep -i no_proxy 如果包
如果机器与容器镜像仓库不在同一区域,则上传镜像走公网链路,机器需要绑定弹性公网IP。 约束与限制 使用客户端上传镜像,镜像的每个layer大小不能大于10G。 上传镜像的容器引擎客户端版本必须为1.11.2及以上。 操作步骤 连接容器镜像服务。 登录容器镜像服务控制台。 单击右上角“
while [ -z "$ip" ]; do ip=$(ping -c 1 ${hostname} | grep "PING" | sed -E 's/PING .* .([0-9.]+). .*/\1/g') sleep 1
VS Code连接开发环境失败时的排查方法 VS Code连接开发环境失败时,请参考以下步骤进行基础排查。 网络链路检查 在ModelArts控制台查看Notebook实例状态是否正常,确保实例无问题。 在VS Code Terminal里执行如下命令检测SSH命令是否可用; ssh
创建Notebook实例后无法打开页面,如何处理? 如果您在创建Notebook实例之后,打开Notebook时,因报错导致无法打开页面,您可以根据以下对应的错误码来排查解决。 打开Notebook显示黑屏 Notebook打开后黑屏,由于代理问题导致,切换代理。 打开Notebook显示空白
com。内网VPC无法解析modelarts-infer.com域名,需要用户参考当前步骤和“步骤4 VPC访问在线服务”增加内网域名解析。 登录云解析服务DNS管理控制台,左侧导航栏选择“内网域名”。 单击“创建内网域名”,打开创建内网域名弹出框。填写以下参数配置: 域名:遵循命名规
Lite Server GPU裸金属服务器使用EulerOS内核误升级如何解决 GPU A系列裸金属服务器无法获取显卡如何解决 GPU裸金属服务器无法Ping通如何解决 GPU A系列裸金属服务器RoCE带宽不足如何解决? GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed
grep peer 如果没有则需要重新加载至内核,执行如下命令进行加载: /etc/init.d/nv_peer_mem start 如果执行失败,可能是未加载nv_peer_mem.conf至/etc/infiniband/中或nv_peer_mem不在/etc/init.d/中。
租户不可见域名:指华为云服务在内网相互调用使用的域名,外部用户无法访问到对应的权威DNS服务器;或者Internet受限访问域名,只允许华为办公网络黄&绿区华为员工及合作方或外包人员访问的域名。 华为云基础域名安全使用,避免直接为租户分配基础域名。 华为云服务在内网互相调用使用的域名,避免使用外部已备案域名。 所有中
在ModelArts的算法管理中已准备好待发布的算法。创建算法的相关操作请参见创建算法。 创建算法时,算法代码存储的OBS桶内不能存在文件和文件夹重名的情况,这样算法可能会发布失败。如果算法发布成功,则代码开放会失败。 发布算法 进入AI Gallery首页,选择“资产集市 > 算法”,进入算法页面。 单击“发
分布式Tensorflow无法使用“tf.variable” 问题现象 多机或多卡使用“tf.variable”会造成以下错误: WARNING:tensorflow:Gradient is None for variable:v0/tower_0/UNET_v7/sub_pixel/Variable:0
while [ -z "$ip" ]; do ip=$(ping -c 1 ${hostname} | grep "PING" | sed -E 's/PING .* .([0-9.]+). .*/\1/g') sleep 1
图1 修改defaults.ini文件 其中: root_url的组成为:https:{jupyterlab域名}/{INSTANCE_ID}/grafana。域名和INSTANCE_ID可以从打开的jupyterLab页面地址栏获取,如下: Serve_from_sub_path设置为true
训练作业使用的实例数量。 “VC_WORKER_NUM=4” VC_WORKER_HOSTS 多节点训练时,每个节点的域名地址,按顺序以英文逗号分隔,可以通过域名解析获取IP地址。 “VC_WORKER_HOSTS=modelarts-job-a0978141-1712-4f9b
while [ -z "$ip" ]; do ip=$(ping -c 1 ${hostname} | grep "PING" | sed -E 's/PING .* .([0-9.]+). .*/\1/g') sleep 1
产品变更公告 网络调整公告 预测API的域名停用公告
录或者obs文件不能重名,否则会覆盖。 是 str、Placeholder、Storage 使用案例 主要包含六种场景的用例: 基于JobStep的输出注册模型 基于OBS数据注册模型 使用模板方式注册模型 使用自定义镜像注册模型 使用自定义镜像+OBS的方式注册模型 使用订阅模型+OBS的方式注册模型
下图中有四个场景,其中场景四为正常训练作业失败场景,其他三个场景下可开启容错功能进行训练作业自动恢复。 场景一:环境预检测失败、硬件检测出现故障,系统隔离所有故障节点并重新下发训练作业。 图1 预检失败&硬件故障 场景二:环境预检测失败、硬件无故障,系统随机再分配节点并重新下发训练作业。 图2 预检失败&硬件正常