检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数设置大于1,表示后台的计算模式为分布式的。您可以根据实际需求进行选择。 推理速度与模型复杂度强相关,您可以尝试优化模型提高预测速度。 ModelArts中提供了模型版本管理的功能,方便溯源和模型反复调优。 图1 部署在线服务 父主题: 在线服务
2-1b llama3.2-3b LLM开源大模型基于DevServer适配ModelLinkPyTorch NPU训练指导 LLM开源大模型基于DevServer适配LLamaFactory PyTorch NPU训练指导 LLM开源大模型基于Standard+OBS适配PyTorch
ipynb”案例后运行即可。 ResNet50模型迁移到Ascend上进行推理:通过使用MindSpore Lite对ResNet50模型在Ascend执行推理为例,向大家介绍MindSpore Lite的基础功能和用法。 图6 ResNet50模型迁移到Ascend上进行推理 Stable
zip 大模型推理框架代码包 AscendCloud-OPP-6.3.905-20240611170314.zip 算子依赖包 支持的特性 表1 本版本支持的特性说明 分类 软件包特性说明 参考文档 三方大模型,包名:AscendCloud-3rdLLM 支持如下模型适配PyTorch-NPU的训练。
发布和管理AI Gallery模型 发布和管理AI Gallery数据集 发布和管理AI Gallery项目 发布和管理AI Gallery镜像 发布和管理AI Gallery中的AI应用 使用AI Gallery微调大师训练模型 使用AI Gallery在线推理服务部署模型 Gallery CLI配置工具指南
例如:Endpoint配置不正确也会导致认证失败。 错误示例:Endpoint参数前面带了https,正确的配置中不需要有https。 图1 配置ToolKit 二、未配置hosts文件或者hosts文件信息配置不正确 在本地PC的hosts文件中配置域名和IP地址的对应关系。 三、网络代理设置
push文件时会出现如下报错: 原因分析 原因为Github已取消密码授权方式,此时在git clone私有仓库和git push文件时需要在授权方式框中输入token。 解决方案 使用token替换原先的密码授权方式,在git clone私有仓库和git push文件时,需要在
软件包获取路径:Support-E网站。 发布包 软件包特性说明 配套说明 备注 昇腾云模型代码 三方大模型,包名:AscendCloud-3rdLLM PyTorch框架下支持如下模型训练: llama2-7b llama2-13b llama2-70b qwen-7b qwen-14b
执行如下命令,排查回收站占用内存(回收站文件默认在/home/ma-user/work/.Trash-1000/files下)。 cd /home/ma-user/work/.Trash-1000/ du -ah 根据实际删除回收站不需要的大文件。(注:请谨慎操作,文件删除后不可恢复) rm {文件路径} 如
只有任务节点大于等于3的训练任务才能成功执行动态路由。 如果执行失败可以参考故障排除:ranktable路由优化执行失败处理。 故障排除:ranktable路由优化执行失败 故障现象 容器日志有error信息。 可能原因 集群节点没有下发topo文件和ranktable文件。 操作步骤 在ModelArts
Standard自动学习 Standard Workflow Standard数据管理 Standard开发环境 Standard模型训练 Standard模型部署 Standard资源管理 Standard支持的AI框架 父主题: 功能介绍
Cann软件与Ascend驱动版本不匹配 问题现象 训练失败并提示“Cann软件与Ascend驱动版本不匹配”。 原因分析 当昇腾规格的训练作业在ModelArts训练平台上运行时,会自动对Cann软件与Ascend驱动的版本匹配情况进行检查。如果平台发现版本不匹配,则会立即训练失败,避免后续无意义的运行时长。
delArts中使用该镜像。 有两种方式来注册镜像。 方式一:使用ma-cli image register命令来注册镜像。注册命令会返回注册好的镜像信息,包括镜像id,name等,如下图所示。该命令的更多信息可参考镜像构建命令。 ma-cli image register --swr-path=swr
job 训练 labeling 标注 release_dataset 数据集发布 model 模型发布 service 服务部署 mrs_job MRS作业 dataset_import 数据集导入 create_dataset 创建数据集 inputs 否 Array of JobInput
obs:bucket:PutBucketAcl(设置桶ACL) obs:object:PutObjectAcl(设置对象ACL) 从OBS导入模型 模型转换指定OBS路径 表8 管理部署上线 业务场景 依赖的服务 依赖策略项 支持的功能 在线服务 LTS lts:logs:list(查询日志列表)
Notebook实例重新启动后,需要删除本地known_hosts才能连接 可以在本地的ssh config文件中对这个Notebook配置参数“StrictHostKeyChecking no”和“UserKnownHostsFile=/dev/null”,如下参考所示: Host
-r OBS支持多种文件上传方式,当文件少于100个时,可以在OBS Console中上传,当文件大于100个时,推荐使用工具,推荐OBS Browser+(win)、obsutil(linux)。上述例子为obsutil使用方法。 准备算法 main.py文件内容如下,并将其上传至OBS桶的demo文件夹中:
manifest路径,给训练、推理作为输入。 model_id String 模型ID。 model_name String 模型名称。 model_parameter String 模型参数。 model_version String 模型版本。 n_clusters Integer 聚类数。 name
储的是临时文件,不占用容器空间。 如果没有文件可以删除,或者不清楚哪些可以删除,那么可以使用相同的镜像重新创建一个Notebook,使用新建的Notebook时,注意减少软件包的安装或文件的下载等操作,也可以减少容器大小; 减少镜像文件的大小 如果无法确认哪些包或文件可以不安装,
name="model_registration", # 模型注册节点的名称,命名规范(只能包含英文字母、数字、下划线(_)、中划线(-),并且只能以英文字母开头,长度限制为64字符),一个Workflow里的两个step名称不能重复 title="模型注册", # 标题信息 inputs=wf