检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如果使用的是AI Gallery订阅的算法,建议先检查数据的标签是否有问题。 如果使用的是物体检测类算法,建议检查数据的label框是否为非矩形。 物体检测类算法仅支持矩形label框。 查看训练作业的“日志”,出现报错“RuntimeError: The server socket
由于商用模型支持同时购买多种配额模式的资产,所以仅部署商用模型时需要进行配额选择。免费模型仅一种配额模式无需选择。 图2 修改配额 如果您选择部署的非商业模型,系统自动跳转至“部署”页面。 在部署页面中,无需再选择模型及其版本,参考部署模型的操作指导完成其他参数填写,即可部署为您需要的服务。
发起维修流程。 NT_GPU_SMI_RUNTIME GPU 其他 nvidia-smi执行错误,超时或者不存在。 执行nvidia-smi退出码非0。 发起维修流程。 NT_GPU_SMI_ECC_COUNT GPU 显存 ECC错误到达64次 通过nvidia-smi -a查询到Retired
0:普通集群 1:安全集群 cluster_name 否 String MRS集群名称。可登录MRS控制台查看。 database_name 否 String 导入表格数据集,数据库名字。 input 否 String 表格数据集,HDFS路径。例如/datasets/demo。 ip 否
TmsTagForDelete 参数 是否必选 参数类型 描述 key 是 String TMS标签的key。 value 否 String TMS标签的value,非必填。 响应参数 状态码:400 表5 响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码。
--dtype:模型推理的数据类型。支持FP16和BF16数据类型推理。float16表示FP16,bfloat16表示BF16。如果不指定,则根据输入数据自动匹配数据类型。使用不同的dtype会影响模型精度。如果使用开源权重,建议不指定dtype,使用开源权重默认的dtype。 --tensor-p
用率,如果模型出现oom报错,调小参数; tensor_parallel_size是使用的卡数; quantization是量化参数,使用非量化权重,去掉quantization参数;如果使用awq、smoothquant或者gptq加载的量化权重,根据量化方式选择对应参数,可选
zip的llm_tools/spec_decode/EAGLE目录下。 在目录下执行如下命令,即可安装Eagle。 bash build.sh 步骤二:非sharegpt格式数据集转换(可选) 如果数据集json文件不是sharegpt格式,而是常见的如下格式,则需要执行convert_to_sharegpt
zip的llm_tools/spec_decode/EAGLE目录下。 在目录下执行如下命令,即可安装Eagle。 bash build.sh 步骤二:非sharegpt格式数据集转换(可选) 如果数据集json文件不是sharegpt格式,而是常见的如下格式,则需要执行convert_to_sharegpt
zip的llm_tools/spec_decode/EAGLE目录下。 在目录下执行如下命令,即可安装Eagle。 bash build.sh 步骤二:非sharegpt格式数据集转换(可选) 如果数据集json文件不是sharegpt格式,而是常见的如下格式,则需要执行convert_to_sharegpt
CogVideoX-2b-sat wget https://cloud.tsinghua.edu.cn/f/fdba7608a49c463ba754/?dl=1 mv 'index.html?dl=1' vae.zip unzip vae.zip wget https://cloud.tsinghua.edu.
再关注OBS的相关操作。 可以直接把SFS的目录直接挂载到调试节点的"/mnt/sfs_turbo"目录,或者保证对应目录的内容和SFS盘匹配。 调试时建议使用接近的方式,即:启动容器实例时使用"-v"参数来指定挂载某个宿主机目录到容器环境。 docker run -ti -d -v
重启AI应用,使环境变量的新增、修改、删除生效。 当AI应用的状态为“运行中”时,则在“运行资源设置”处,单击“重启”。 当AI应用的状态为非“待启动”时,则环境变量的变更会随应用启动自动生效。 管理AI应用可见范围 创建AI应用时,默认“可见范围”是“私密”,且“仅自己可见”。创建完成后,支持修改可见范围。
创建AI应用,确保镜像可以正常启动,并可以在本地curl通返回预期内容。 镜像中配置的端口错误 模型可以正常启动,但是因为镜像中启用的端口非8080,或者镜像启用的端口与创建模型时配置的端口不一致,导致部署服务时register-agent无法与模型通信,超过一定时间后(最长20分钟)认为模型启动失败。
如果您的数据较多,推荐OBS Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。 在上传数据时,请选择非加密桶进行上传,否则会由于加密桶无法解密导致后期的训练失败。 用于训练的音频,至少有2种以上的分类,每种分类的音频数据数不少20条。 创建数据集
nd训练场景下,默认要求填写作业日志在OBS的存放路径,其他资源的训练场景下,永久保存日志开关需要用户手动开启。 仅专属资源池支持使用Cloud Shell登录训练容器,且训练作业必须处于“运行中”状态。 在训练管理的“创建算法”页面,来源于AI Gallery中订阅的算法不支持另存为新算法。
on/json” data 在线服务-非必选 批量服务-必选 String 请求体以json schema描述。参数说明请参考官方指导。 表5 response结构说明 参数 是否必选 参数类型 描述 Content-type 在线服务-非必选 批量服务-必选 String da
当前用户创建的该规格实例的数量。 duration Integer 启动后设置的自动停止时间,单位为秒。 store_time Integer 该规格实例处于非活跃状态,在数据库最长保存的时长。单位为小时。 默认为“-1”, 表示可以无限制保存。 billing_flavor String 计费规格。当该字段为空时,使用规格名称计费。
Gallery的“我的订阅”中,不会展示在AI云商店的“买家中心”中。 云商店当前付费商品默认发布后是隐藏商品,在Gallery首页将不可见,只有在云商店卖家中心改变商品为非隐藏,Gallery首页付费资产列表才对该商品可见。 更多关于商业售卖商品的使用指导请参见《云商店用户指南》,商业售卖商品在华为云云商店的使用流程如下:
release_to_gallery(title="资产名称")发布Workflow新资产,版本号为"1.0.0";如果Workflow包含非gallery的算法,则自动将依赖算法发布至gallery,版本号为"1.0.0"。 Workflow.release_to_gallery(content_id="**"