检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
远程连接处于retry状态如何解决? 问题现象 原因分析 之前下载VS Code server失败,有残留信息,导致本次无法下载。 解决方法 方法一(本地):打开命令面板(Windows: Ctrl+Shift+P,macOS:Cmd+Shift+P),搜索“Kill VS Code
功后推理一直显示“环境初始化。 原因分析 专属池网段和推理微服务dispatcher网段冲突,导致专属池上的VPCEP终端节点无法创建,该region无法使用此网段创建包含推理服务的资源池。 处理方法 选择其他网段的ModelArts网络重建资源池即可解决网段冲突问题。 父主题:
scripts/install.sh 直接下载安装资源,或通过 Dockerfile 下载安装资源并构建一个新的镜像。 若用户的机器或资源池无法连通网络,并无法git clone下载代码、安装python依赖包的情况下,用户则需要找到已联网的机器(本章节以Linux系统机器为例)提前下载资
离线训练安装包准备说明 申请的模型软件包一般依赖连通网络的环境。若用户的机器或资源池无法连通网络,并无法git clone下载代码、安装python依赖包的情况下,用户则需要找到已联网的机器(本章节以Linux系统机器为例)提前下载资源,以实现离线安装。用户可遵循以下步骤操作。 步骤一:资源下载
failed” 问题现象 VS Code连接远端Notebook时报错“XHR failed”。 原因分析 可能是所在环境的网络有问题,无法自动下载VS Code Server,请手动安装。 解决方法 打开VS Code,选择“Help>About”,并记下“Commit”的ID码。
大模型加载启动的时间一般大于普通的模型创建的服务,请配置合理的“部署超时时间”,避免尚未启动完成被认为超时而导致部署失败。 添加环境变量 部署服务时,增加如下环境变量,会将负载均衡的请求亲和策略配置为集群亲和,避免未就绪的服务实例影响预测成功率。 MODELARTS_SERVICE_TRAFFIC_POLICY:
JupyterLab中文件保存失败,如何解决? 问题现象 JupyterLab中保存文件时报错如下: 原因分析 浏览器安装了第三方插件proxy进行了拦截,导致无法进行保存。 在Notebook中的运行文件超过指定大小就会提示此报错。 jupyter页面打开时间太长。 网络环境原因,是否有连接网络代理。
当Pod状态为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。 通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败 当volcano的资源出现争抢时,会出现下图中的问题。
failed” 问题现象 VS Code连接远端Notebook时报错“XHR failed”。 原因分析 可能是所在环境的网络有问题,无法自动下载VS Code Server,请手动安装。 解决方法 打开VS Code,选择“Help>About”,并记下“Commit”的ID码。
当Pod状态为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。 通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败 当volcano的资源出现争抢时,会出现下图中的问题。
当Pod状态为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。 通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败 当volcano的资源出现争抢时,会出现下图中的问题。
JupyterLab中文件保存失败,如何解决? 问题现象 JupyterLab中保存文件时报错如下: 原因分析 浏览器安装了第三方插件proxy进行了拦截,导致无法进行保存。 在Notebook中的运行文件超过指定大小就会提示此报错。 jupyter页面打开时间太长。 网络环境原因,是否有连接网络代理。
数据集版本发布失败 出现此问题时,表示数据不满足数据管理模块的要求,导致数据集发布失败,无法执行自动学习的下一步流程。 请根据如下几个要求,检查您的数据,将不符合要求的数据排除后再重新启动自动学习的训练任务。 ModelArts.4710 OBS权限问题 ModelArts在跟O
目录下不符合模型包规范,将无法创建模型。 图1 从OBS中选择元模型 表2 元模型来源参数说明 参数 说明 “元模型来源” 选择“从对象存储服务(OBS)中选择”。 “选择元模型” 选择元模型存储的OBS路径。 OBS路径不能含有空格,否则创建模型会失败。 “AI引擎” 根据您选
is_success Boolean 请求是否成功。 error_message String 调用失败时的错误信息。 调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码。调用成功时无此字段。 model_total_count Integer
在ModelArts使用自定义镜像创建训练作业时如何激活conda环境? 由于训练作业运行时不是交互式的shell环境,因此无法直接使用“conda activate”命令激活指定的conda环境。但是,在自定义镜像中可参考以下命令激活conda环境: source /home/
打开Notebook实例提示token不存在或者token丢失如何处理? 问题现象 把已打开的Notebook url发送给他人使用,他人无法打开,报错“……lost token or incorrect token……”。 原因分析 原因是由于其他人没有此账号的令牌导致。 解决方案
IEF节点边缘服务部署失败 问题现象 部署边缘服务时,出现“异常”状态。 原因分析1 部署边缘服务时,使用到IEF纳管的边缘节点,就需要用户给ModelArts的委托赋予Tenant Administrator权限,否则将无法成功部署边缘服务。具体可参见IEF的权限说明。 处理方法1
自动学习训练作业失败 自动学习训练作业创建失败,一般是因为后台服务故障导致的,建议稍等片刻,然后重新创建训练作业。如果重试超过3次仍无法解决,请联系华为云技术支持。 自动学习训练作业创建成功,但是在运行过程中,由于一些故障导致作业运行失败,排查方式如下: 首次出现请检查您的账户是
ModelArts训练好后的模型如何获取? 使用自动学习产生的模型只能在ModelArts上部署上线,无法下载至本地使用。 使用自定义算法或者订阅算法训练生成的模型,会存储至用户指定的OBS路径中,供用户下载。 父主题: 功能咨询