检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
自动化搜索作业的框架代码目录,需要提供一个OBS路径。如:“obs://bucket/files/”。 command String 自定义镜像训练作业的自定义镜像的容器的启动命令。例如python train.py。 parameters Array of Parameter objects
使用模型需要的数据集格式。 model_description_url String 模型描述链接。 parameter String 模型的运行参数。当为自定义镜像训练作业的时候,此参数为容器环境变量。该样例请参考请求示例。 create_time Long 模型的创建时间。 engine_id Long
可。 为什么专属资源池需要增加CCE、BMS、IMS、DEW相关授权? 专属资源池能力升级,新上线ModelArts Lite功能,这项功能需要用户授权允许ModelArts访问云容器引擎服务CCE、裸金属服务BMS、镜像服务IMS和密钥管理服务DEW。当用户未使用ModelArts
提供节点级、作业级、容器级,多级故障恢复,保障千卡作业稳定训练。 多种资源形态 集群模式,开箱即提供好Kubernetes集群,直接使用,方便高效。 节点模式,客户可采用开源或自研框架,自行构建集群,更强的掌控力和灵活性。 零改造迁移 提供业界通用的k8s接口使用资源,业务跨云迁移无压力。 SSH直达节点和容器,一致体验。
参数类型 说明 namespace String SWR组织名称,全局唯一。 image_name String 镜像名称。 image_tag String 镜像标签。 annotations Map<String,String> 注解信息,可扩展字段,缺省值为NULL。 表9
[ascend_context] precision_mode= preferred_fp32 模型转换 在ModelArts开发环境中,通过对应的转换预置镜像,直接执行对应的转换过程,对应的转换和评估工具都已经预置了最新版本,详细介绍请见使用说明。inputShape查看方法请见转换关键参数准备。
upyterLab。 图2 打开Notebook实例 进入JupyterLab页面后,自动打开Launcher页面,如下图所示。您可以使用开源支持的所有功能,详细操作指导可参见JupyterLab官网文档。 图3 JupyterLab主页 不同AI引擎的Notebook,打开后L
open("SimSun.ttf", "wb").write(ttf.content) 35 # FONT_PATH = "SimSun.ttf" FONT_PATH = os.path.join(os.getenv('DATA'), "SimSun.ttf") 父主题:
status String 服务状态,取值包含: running:运行中,服务正常运行。 deploying:部署中,服务正在部署,包含打镜像和调度资源部署。 concerning:告警,后端实例部分存在异常。 failed:失败,服务部署失败,失败原因可以看事件和日志标签页。 stopped:停止。
open("SimSun.ttf", "wb").write(ttf.content) 35 # FONT_PATH = "SimSun.ttf" FONT_PATH = os.path.join(os.getenv('DATA'), "SimSun.ttf" 父主题:
String batch服务类型必选。批量任务中调用的推理接口,即模型镜像中暴露的REST接口,需要从模型的config.json文件中选取一个api路径用于此次推理;如使用ModelArts提供的预置推理镜像,则此接口为/。 mapping_type 否 String batc
在ModelArts训练时如何安装C++的依赖库? 在训练作业的过程中,会使用到第三方库。以C++为例,请参考如下操作步骤进行安装: 将源码下载至本地并上传到OBS。使用OBS客户端上传文件的操作请参见上传文件。 将上传到OBS的源码使用Moxing复制到开发环境Notebook中。
parallel(pp)为4。训练过程中发现每个step耗时均显著增大,基于dynamic_profile方式采集profiling并上传至OBS。选择任意镜像如PyTorch,创建一个2U8GB CPU规格(如果CPU资源充足,建议创建8U32G的分析环境)的notebook开发环境。在notebook中使用performance
在“资产版本”填写新的版本号。 阅读并同意《华为云AI Gallery数字内容发布协议》和《华为云AI Gallery服务协议》。 单击“发布”。 发布使用容器镜像导入的资产时,后台会进行资产安全扫描,如果扫描发现资产有问题,则资产发布失败并邮件通知发布者。 编辑资产详情 资产发布成功后,发布者可以进
统。它不仅简化了打包应用的流程,也简化了打包应用的库和依赖,甚至整个操作系统的文件系统能被打包成一个简单的可移植的包,这个包可以被用来在任何其他运行Docker的机器上使用。 Kubernetes Kubernetes是一个开源的容器编排部署管理平台,用于管理云平台中多个主机上的
操作系统:可以指定实例的操作系统。 容器引擎:容器引擎是Kubernetes最重要的组件之一,负责管理镜像和容器的生命周期。Kubelet通过Container Runtime Interface (CRI) 与容器引擎交互,以管理镜像和容器。此处支持选择Docker和Containerd。Container
批量任务输出结果的OBS路径。 req_uri 是 String 批量任务中调用的推理接口,即模型镜像中暴露的REST接口,需要从模型的config.json文件中选取一个api路径用于此次推理;如使用ModelArts提供的预置推理镜像,则此接口为“/”。 mapping_type 是 String 输入
--insecure 模型服务的API与vLLM相同,表1仅介绍关键参数,详细参数解释请参见vLLM官网inference_params。使用昇腾云909镜像的模型,开启流式输出时,需要新增stream_options参数,值为{"include_usage":true},才会打印token数。
在模型转换阶段通过--configFile参数指定配置文件,并且在配置文件中配置input_shape及dynamic_dims动态参数。其中input_shape的-1表示动态shape所在的维度,dynamic_dims指定动态维度的取值范围,例如“[1~4],[8],[16]”表示该动态维度支持1、2、3、4、8、6共六种大小。
常见错误原因和解决方法 显存溢出错误 网卡名称错误 联网下载SimSun.ttf时可能会遇到网络问题 在运行finetune_ds.sh 时遇到报错 父主题: Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.912)