检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
nccl_test的总线bandwidth是在假定是Ring算法的情况下计算出来的。 计算公式是有假设的: 总线带宽 = 算法带宽 * 2 ( N-1 ) / N ,算法带宽 = 数据量 / 时间 但是这个计算公式的前提是用Ring算法,Tree算法的总线带宽不可以这么计算。 如果Tree算法算出来的总线带宽相当
相关章节 创建单机多卡的分布式训练(DataParallel):介绍单机多卡数据并行分布式训练原理和代码改造点。 创建多机多卡的分布式训练(DistributedDataParallel):介绍多机多卡数据并行分布式训练原理和代码改造点。 示例:创建DDP分布式训练(PyTorch
windows。 原因分析 该报错说明预测使用的数据行数小于window超参值。 在使用订阅算法时序预测-time_series_v2训练时,超参:window设置为60。训练完成并创建模型后,部署在线服务,进行预测,当预测的数据行数小于window超参值时,日志中有报错信息:ERROR:
本文详细介绍如何在ModelArts的开发环境Notebook中使用基础镜像构建一个新的推理镜像,并完成模型的创建,部署为在线服务。本案例仅适用于华为云北京四和上海一站点。 操作流程如下: Step1 在Notebook中构建一个新镜像:在ModelArts的开发环境Notebook中制作
算法代码需要通过“输入”的“参数名称”去读取训练的输入数据。 建议设置为“data_url”。训练输入参数要与所选算法的“输入”参数匹配,请参见创建算法时的表4。 数据集 单击“数据集”,在ModelArts数据集列表中勾选目标数据集并选择对应的版本。 训练启动时,系统将自动下载输入路径中的数据到训练运行容器。 说明:
sh 所有数据保存在auto_log/avg_step_time.txt文本中 auto_log/log/目录下存放各个shapes的数据。 启动SDXL LoRA训练服务 使用ma-user用户执行如下命令运行训练脚本。 sh run_lora_sdxl.sh 所有数据保存在au
type 否 String 数据集类型。可选值有“obs”、“dataset”。obs与dataset不可同时出现。 data_url 否 String OBS的桶路径,不可与dataset_id/dataset_version同时出现。 表4 parameter属性列表 参数 是否必选
CommonOperations权限只能二选一,不能同时选。 OBS对象存储服务 授予子用户使用OBS服务的权限。ModelArts的数据集、开发环境、训练作业、模型推理部署均需要通过OBS进行数据中转。 OBS OperateAccess 必选 SWR容器镜像仓库 授予子用户使用SWR服务权限。Mode
创建模型不同方式的场景介绍 AI开发和调优往往需要大量的迭代和调试,数据集、训练代码或参数的变化都可能会影响模型的质量,如不能统一管理开发流程元数据,可能会出现无法重现最优模型的现象。 ModelArts的模型可导入所有训练生成的元模型、上传至对象存储服务(OBS)中的元模型和容
),可以在裸金属服务器中通过网络协议挂载使用,SFS支持NFS和CIFS的网络协议。在使用裸金属服务器时, 将数据放在SFS盘中, 并发建立多个NFS链接、并发的读写数据、做大模型训练。 但有时候会出现读取速度变慢的现象,并且SFS提示报错"rpc_check_timeout:939
Session() session.obs.upload_file(src_local_file='/home/ma-user/file1.txt', dst_obs_dir='obs://bucket-name/dir1/') 示例代码执行后,本地源文件“file1.txt”被上传至
部署或升级时出现该提示,可能原因是选择的计算节点规格内存太小,无法满足应用部署,请增大内存规格。 运行中服务告警中出现该提示,可能代码有问题导致内存溢出或者业务使用量太大导致内存需求增多。 处理方法 在部署或升级在线服务时,选择更大内存规格的计算节点。 图3 选择计算节点规格 运行中服务出现告
数据集迁移至SFS。 在本机机器上运行,通过obsutil工具将本地数据集传到OBS桶。 # 将本地数据传至OBS中 # ./obsutil cp ${数据集所在的本地文件夹路径} ${存放数据集的obs文件夹路径} -f -r # 例如 ./obsutil cp ./coco obs://your_bucket/
导入模型提示模型或镜像大小超过限制 问题现象 在导入模型时,提示模型或镜像大小超过限制。 原因分析 如果使用的是OBS导入或者训练导入,则是基础镜像、模型文件、代码、数据文件和下载安装软件包的大小总和超过了限制。 如果使用的是自定义镜像导入,则是解压后镜像和镜像下载文件的大小总和超过了限制。
在ModelArts中1个节点的专属资源池,能否部署多个服务? 支持。 在部署服务时,选择专属资源池,在选择“计算节点规格”时选择“自定义规格”,设置小一些或者选择小规格的服务节点规格,当资源池节点可以容纳多个服务节点规格时,就可以部署多个服务。如果使用此方式进行部署推理,选择的
因APIG(API网关)限制,平台每次请求预测的时间不超过40秒。数据从平台发送到服务,服务预测推理,再将结果返回的时间不超过限制,可以成功返回预测结果。当服务预测的时间过长或者频繁预测导致服务接收不过来请求,即会出现该报错。 可以通过以下方式解决问题: 服务预测请求内容过大时,会因数据处理慢导致请求超时,优化预测代码,缩短预测时间。
real-time代表在线服务,将模型部署为一个Web Service,并且提供在线的测试UI与监控能力,服务一直保持运行。 batch为批量服务,批量服务可对批量数据进行推理,完成数据处理后自动停止。 edge表示边缘服务,通过华为云智能边缘平台,在边缘节点将模型部署为一个Web Service,需提前在IEF(智能边缘服务)创建好节点。
镜像保存本质是通过在资源集群节点上的agent中进行了docker commit,再配合一系列自动化操作来上传和更新管理数据等。每次Commit都会带来额外的一些开销,层数越多镜像越大,如果多次保存后就会有存储显示没那么大,但是镜像已经很大。镜像超大会导致加载的各种问题,所以这里做了限制。这种场景下,建议找到原始镜像重新构建环境进行保存。
本地需要上传的文件夹路径。 当上传的文件夹下内容为空或者该文件夹下包含多个文件夹且有文件夹下内容有空时,OBS对应路径下不产生该空文件夹。 dst_obs_dir 是 String 上传的目标OBS桶地址,必须以“obs://”作为前缀,上传的目标文件夹后缀必须以“/”结尾。 表2 失败响应参数说明 参数
M项目,不支持企业项目,表示仅能在IAM中给用户组授权并生效,如果在企业管理中授权,则该自定义策略不生效。关于IAM项目与企业项目的区别,详情请参见:IAM与企业管理的区别。 “√”表示支持,“x”表示暂不支持。 父主题: 权限策略和授权项