检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ma2系列和Qwen2系列模型。 步骤一:安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/spec_decode/EAGLE目录下。 在目录下执行如下命令,即可安装Eagle。 bash build.sh
ma2系列和Qwen2系列模型。 步骤一:安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/spec_decode/EAGLE目录下。 在目录下执行如下命令,即可安装Eagle。 bash build.sh
JOBSTAT_SUBMIT_MODEL_FAILED,提交模型失败。 17 JOBSTAT_DEPLOY_SERVICE_FAILED,部署服务失败。 18 JOBSTAT_CHECK_INIT,审核作业初始化。 19 JOBSTAT_CHECK_RUNNING,审核作业正在运行中。
执行以下命令,下载代码。 git clone https://github.com/facebookresearch/DiT.git cd Dit 执行以下命令,安装依赖项。 pip install diffusers==0.28.0 accelerate==0.30.1 timm==0.9.16 准备数据集。
服务管理权限 表1 服务管理细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 部署模型服务 POST /v1/{project_id}/services modelarts:service:create - √ √ 查询模型服务列表 GET /v1/
atch_size,优化代码,合理聚合、复制数据。 请注意,数据文件大小不等于内存占用大小,需仔细评估内存使用情况。 退出码139 请排查安装包的版本,可能存在包冲突的问题。 排查办法 根据错误信息判断,报错原因来源于用户代码。 您可以通过以下两种方式排查: 线上环境调试代码(仅适用于非分布式代码)
设置某一作业类型后,即可在此专属资源池中下发此种类型的作业,没有设置的作业类型不能下发。 为了支持不同的作业类型,后台需要在专属资源池上进行不同的初始化操作,例如安装插件、设置网络环境等。其中部分操作需要占据资源池的资源,导致用户实际可用资源减少。因此建议用户按需设置,避免不必要的资源浪费。 约束限制 专属资源池状态处于“运行中”。
“/home/ma-user/work”目录以及动态挂载在“/data”下的目录下的数据会保存,其余目录下内容会被清理。例如:用户在开发环境中的其他目录下安装的外部依赖包等,在Notebook停止后会被清理。您可以通过保存镜像的方式保留开发环境设置,具体操作请参考保存Notebook实例。 No
Integer 资源规格的弹性资源量。物理池中该值和count必须一致。 extendParams 否 extendParams object 自定义配置参数。 表9 extendParams 参数 是否必选 参数类型 描述 dockerBaseSize 否 String 指定资源池节点的容器引擎空间大小。
userdata机制拉取cce-agent,但是在服务器上查看没有拉cce-agent的动作,理论上该动作是cloudinit中的脚本在创建时自动执行的,可能是由于安装脚本没有注入userdata或者注入了但未执行。 经查看是由于userdata未执行,可能原因为服务器A制作镜像时没有清理残留目录导致,即:
解决方法:降低transformers版本到4.42:pip install transformers==4.42 --upgrade 问题6:部署在线服务报错starting container process caused "exec: \"/home/mind/model/run_vllm
在“删除资源池”页面,需在文本框中输入“DELETE”,单击“确定”,删除资源池。 可切换“训练作业”、“推理服务”、“开发环境”页签查看资源池上创建的训练作业、部署的推理服务、创建的Notebook实例。 图1 删除资源池 释放游离节点 如果您的资源中存在游离节点(即没有被纳管到资源池中的节点),您可在“AI专属资源池
本。如第一次训练版本号为“0.0.1”,下一个版本为“0.0.2”。基于训练版本可以对训练模型进行管理。当训练的模型达到目标后,再执行模型部署的操作。 父主题: 使用自动学习实现物体检测
原因:训练作业使用的镜像CUDA版本只支持sm_37、sm_50、sm_60和sm_70的加速卡,不支持sm_80。 处理建议:使用自定义镜像创建训练作业,并安装高版本的cuda以及对应的PyTorch版本。 查看训练作业的“日志”,出现报错“ERROR:root:label_map.pbtxt cannot
本。如第一次训练版本号为“0.0.1”,下一个版本为“0.0.2”。基于训练版本可以对训练模型进行管理。当训练的模型达到目标后,再执行模型部署的操作。 父主题: 使用自动学习实现声音分类
UTC'的毫秒数。 description String 模型描述信息。 source_type String 模型来源的类型,仅当模型为自动学习部署过来时有值,取值为“auto”。 父主题: 模型管理
/projects,其中{iam-endpoint}为IAM的终端节点,可以从地区和终端节点处获取。 响应示例如下,例如ModelArts部署的区域为"cn-north-4",响应消息体中查找“name”为"cn-north-4",其中projects下的“id”即为项目ID。 {
本。如第一次训练版本号为“0.0.1”,下一个版本为“0.0.2”。基于训练版本可以对训练模型进行管理。当训练的模型达到目标后,再执行模型部署的操作。 父主题: 使用自动学习实现文本分类
909) FLUX.1基于DevServer适配PyTorch NPU推理指导(6.3.909) Hunyuan-DiT基于DevServer部署适配PyTorch NPU推理指导(6.3.909) MiniCPM-V2.6基于DevServer适配PyTorch NPU训练指导(6
本。如第一次训练版本号为“0.0.1”,下一个版本为“0.0.2”。基于训练版本可以对训练模型进行管理。当训练的模型达到目标后,再执行模型部署的操作。 父主题: 使用自动学习实现图像分类