检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开发环境 环境配置故障 实例故障 代码运行故障 JupyterLab插件故障 VS Code连接开发环境失败故障处理 自定义镜像故障 其他故障
defaultGateWay Boolean 默认路由开关。 phase String 网络的连接状态。可选值如下: Connecting:网络连接中 Active:网络连接正常 Abnormal:网络连接不正常 表18 sfsTurboStatus 参数 参数类型 描述 sfsId String
Cluster专属资源池,进入资源池详情页面。 图1 资源池详情-基本信息 单击基本信息列中对应的“CCE集群”,进入CCE集群详情页面,在“集群信息”找到“连接信息”。 图2 链接信息 使用kubectl工具。 如果通过内网使用kubectl工具,需要将kubectl工具安装在和集群在相同vpc下
dev_service String 支持的服务,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook SSH:可以通过SSH协议远程连接Notebook AI_FLOW MA_STUDIO TENSOR_BOARD WEB_IDE extensions Map<String
个节点上都没有被其他应用占用。 Kubernetes下Prometheus对接ModelArts 使用kubectl连接集群,详细操作请参考通过kubectl连接集群。 配置Kubernetes的访问授权。 使用任意文本编辑器创建prometheus-rbac-setup.yml,YAML文件内容如下:
ssh SSHResp object SSH连接信息。 jupyter_lab JupyterLab object JupyterLab连接信息。 tensorboard Tensorboard object Tensorboard连接信息。 mindstudio_insight
OBS操作相关故障 读取文件报错,如何正确读取文件 TensorFlow-1.8作业连接OBS时反复出现提示错误 TensorFlow在OBS写入TensorBoard到达5GB时停止 保存模型时出现Unable to connect to endpoint错误 OBS复制过程中提示“BrokenPipeError:
0:普通集群 1:安全集群 cluster_name 否 String MRS集群名称。可登录MRS控制台查看。 database_name 否 String 导入表格数据集,数据库名字。 input 否 String 表格数据集,HDFS路径。例如/datasets/demo。 ip 否
zxvf flower_photos.tgz 步骤1:通过VS Code插件连接云端Notebook 通过VS Code插件连接准备工作里创建的云端Notebook,详细操作请参考VS Code一键连接Notebook。 步骤2:安装Python插件以及配置入参 打开VS Cod
${node_ips[*]}" # 定义密码列表(如果只有一个密码,则所有节点使用该密码) # node_passwords=("xxx" "xxx") # 替换为实际密码 node_passwords=("") # 检查expect是否安装 if ! command -v expect &> /dev/null;
/var/run/screen/S-root. 连接“screen_id”为“2276”的screen终端。 screen -r 2276 按下“Ctrl”+“a”+“d”键离开screen终端。离开后,screen会话仍将是活跃的,之后可以随时重新连接。 更多Screen使用说明可参考Screen
否 String 支持的服务,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 key_pair_names 否 Array of strings SSH密钥对名称,可以在云服务器控制台(ECS)“密钥对”页面创建和查看。
由默认 transformers==4.45.0 修改为:transformers==4.44.2 执行以下命令制作训练镜像。安装过程需要连接互联网git clone,请确保ECS可以访问公网 docker build -t <镜像名称>:<版本名称> . 如果无法访问公网,则
由默认 transformers==4.45.0 修改为:transformers==4.44.2 执行以下命令制作训练镜像。安装过程需要连接互联网git clone,请确保ECS可以访问公网 docker build -t <镜像名称>:<版本名称> . 如果无法访问公网,则
数据处理过程中对数据进行解压,导致数据大小膨胀,将"/cache"目录空间用完。 数据未保存至/cache目录或者/home/ma-user/目录(/cache会软连接成/home/ma-user/),导致数据占满系统目录。系统目录仅支持系统功能基本运行,无法支持大数据存储。 部分训练任务会在训练过程中生
onfig-server会将参数no-auto-default=*是打开的状态,又因当前镜像无网卡配置文件导致ip获取不到,从而使得SSH连接失败。 处理方法 在Euler2.8操作系统,NetworkManagre-config-server是一个无用的软件包,无需安装 。执行
桶中的对象不存在,请检查OBS路径中的内容是否存在。具体错误码请参见OBS官方文档。 处理方法 检查OBS路径及内容格式是否正常。 必现的问题,使用本地Pycharm远程连接Notebook调试。 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接
Turbo的“云上挂载路径”为“/home/ma-user/work”,使得训练环境下SFS也在“/home/ma-user/work”路径下。 ln -s建立软连接 如果代码中涉及文件绝对路径,由于Notebook调试与训练作业环境不同,可能会导致文件绝对路径不一致,需要修改代码内容。推荐使用软链接的
dev_service String 支持的服务,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook SSH:可以通过SSH协议远程连接Notebook AI_FLOW MA_STUDIO TENSOR_BOARD WEB_IDE extensions Map<String
由默认 transformers==4.45.0 修改为:transformers==4.44.2 执行以下命令制作训练镜像。安装过程需要连接互联网git clone,请确保ECS可以访问公网 docker build -t <镜像名称>:<版本名称> . 如果无法访问公网,则