检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Backbone类型 ResNet/DarkNet/Transformer等。 例如: 5个模型使用ResNet Backbone,应用与监控。 3个模型使用Transformer,应用于自然语言处理xxx。 使用stable-diffusion的典型模型:TextEncoder
(可选)工作空间配置 模型训练 本地构建镜像及调试 上传镜像 上传数据和算法到OBS 使用Notebook进行代码调试 创建单机单卡训练作业 监控资源 本地构建镜像及调试 本节通过打包conda env来构建环境,也可以通过pip install、conda install等方式安装conda环境依赖。
用户执行huaweicloud.com相关API超时 问题现象 用户在Notebook里通过request请求接口时超时:GET pangu-xxx.cn-southwest-2.myhuaweicloud.com。 原因分析 在Notebook中访问公网需要通过代理,访问huawei
Backbone类型 ResNet/DarkNet/Transformer等。 例如: 5个模型使用ResNet Backbone,应用与监控。 3个模型使用Transformer,应用于自然语言处理xxx。 使用stable-diffusion的典型模型:TextEncoder
DockerFile构建镜像(可选) 本章节主要介绍通过DockerFile文件构建训练镜像,将训练过程中依赖包封装使用,过程中需要连接互联网git clone,请确保环境可以访问公网,详解操作如下: 进入代码包Dockerfile文件同级目录: cd /home/ma-user
DockerFile构建镜像(可选) 本章节主要介绍通过DockerFile文件构建训练镜像,将训练过程中依赖包封装使用,过程中需要连接互联网git clone,请确保环境可以访问公网,详解操作如下: 进入代码包Dockerfile文件同级目录: cd /home/ma-user
流、实例数、部署超时时间、环境变量、存储挂载等信息。专属资源池部署的服务,同时展示资源池信息。 “历史更新记录”:展示历史模型相关信息。 监控信息 展示当前服务的“资源统计信息”和“模型调用次数统计”。 “资源统计信息”:包括CPU、内存、GPU、NPU的可用和已用信息。 “模型
DockerFile构建镜像(可选) 本章节主要介绍通过DockerFile文件构建训练镜像,将训练过程中依赖包封装使用,过程中需要连接互联网git clone,请确保环境可以访问公网,详解操作如下: 进入代码包Dockerfile文件同级目录: cd /home/ma-user
附录:config.json文件 config.json文件用于推理服务启动时,需要修改以下参数,4台机器的每个容器中config.json文件内容一致。 ipAddress:主节点IP地址,即rank_table_file.json文件中的server_id。 manageme
高性能计算:主要是高带宽的需求,用于共享文件存储,比如基因测序、图片渲染这些。 如大数据分析、静态网站托管、在线视频点播、基因测序和智能视频监控等。 如高性能计算、企业核心集群应用、企业应用系统和开发测试等。 说明: 高性能计算:主要是高速率、高IOPS的需求,用于作为高性能存储,比如工业设计、能源勘探这些。
安装Gallery CLI配置工具 场景描述 Gallery CLI配置工具支持将AI Gallery仓库的资产下载到云服务端,便于在云服务本地进行训练、部署推理。 Gallery CLI配置工具支持将单个超过5GB的文件从本地上传至AI Gallery仓库中。 约束限制 Gallery
服务详情”,在弹窗中选择“指标效果”页签,可以查看推理效果。 支持设置时间区间,查看不同时间下的推理效果。 仅当推理服务处于“运行中”,才支持查看监控指标。 表2 推理效果的指标介绍 指标名称 指标说明 CPU使用率 在推理服务启动过程中,机器的CPU占用情况。 内存使用率 在推理服务启动过程中,机器的内存占用情况。
创建桶不收取费用,按实际使用的存储容量和时长收费 消息通知(不开启则不计费) 消息通知服务 订阅消息使用消息通知服务,在事件列表中选择需要监控的节点/Workflow状态,在事件发生时发送消息通知。 如果想使用消息通知,需要提前在自动学习、Workflow中开启消息通知功能。 具体计费可见消息通知服务价格详情。
启动该工作流。其中涉及手动确认的节点仍会在运行到时停止,不会自动执行。 服务配置 消息通知 订阅消息使用消息通知服务,在事件列表中选择需要监控的节点或者Workflow状态,在事件发生时发送消息通知。 说明: 打开开关后,需要先指定SMN主题名,如未创建主题名,需前往消息通知服务创建主题。
日志提示“Please upgrade numpy to >= xxx to use this pandas version” 重装的包与镜像装CUDA版本不匹配 创建训练作业提示错误码ModelArts.2763 训练作业日志中提示 “AttributeError: module '***'
报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决? 问题现象 原因分析 原因分析一:实例配置的白名单IP与本地网络访问IP不符。 解决方法:请修改白名单为本地网络访问IP或者去掉白名单配置。
附录:rank_table_file.json文件 rank_table_file.json文件样例如下,需要根据实际修改device_ip,server_id,container_ip参数,4台机器上的rank_table_file.json文件内容一致。在步骤四:创建rank_table_file
如何在ModelArts的Notebook的CodeLab上安装依赖? ModelArts CodeLab中已安装Jupyter、Python程序包等多种环境,您也可以使用pip install在Notebook或Terminal中安装依赖包。 在Notebook中安装 在总览页面进入CodeLab。
如果机器与容器镜像仓库在同一区域,则上传镜像走内网链路。 如果机器与容器镜像仓库不在同一区域,则上传镜像走公网链路,机器需要绑定弹性公网IP。 使用客户端上传镜像,镜像的每个layer大小不能大于10G。 上传镜像的容器引擎客户端版本必须为1.11.2及以上。 连接容器镜像服务。
Notebook中使用Conda安装Keras 2.3.1报错 问题现象 使用Conda安装Keras 2.3.1版本报错。 原因分析 可能是Conda网络不通,请使用pip install命令安装。 解决方法 执行 !pip install keras==2.3.1命令安装Keras。