检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
515+CUDA 11.7 GP Ant8裸金属服务器Ubuntu 20.04安装NVIDIA 515+CUDA 11.7 安装NVIDIA驱动 打开NVIDIA官方网站。 以Ant8规格为例,根据Ant8的详细信息和您所需的cuda版本选择驱动。 图1 驱动选择 选择后会自动出现Driver版本并下载,或者直接。
"https://test-obs.obs.{ma_endpoint}.com:443/classify/input/cat-dog/36502.jpg......", "preview": "https://test-obs.obs.{ma_endpoint}
Standard后台交互的桥梁。 代码目录路径 您需要在OBS桶中指定代码目录,并将训练代码、依赖安装包或者预生成模型等训练所需文件上传至该代码目录下。训练作业创建完成后,ModelArts会将代码目录及其子目录下载至后台容器中。 例如:OBS路径“obs://obs-bucket/training-
Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI PUT /v2/{project_id}/training-jobs/{training_job_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。
数据传输周期,默认为30s。 表34 Remote 参数 参数类型 描述 obs RemoteObs object 数据实际输出到OBS。 表35 RemoteObs 参数 参数类型 描述 obs_url String 数据实际输出到OBS的路径。 表36 AlgorithmEngine 参数 参数类型
--queue TEXT Execute queue name. -obs, --obs-bucket TEXT DLI obs bucket to save logs. -sv, --spark-version TEXT
是否查询专属资源池支持的服务部署规格列表,默认为false。 infer_type 否 String 推理方式,枚举值如下: real-time:在线服务,默认值 batch:批量服务 edge: 边缘服务 limit 否 String 指定每一页返回的最大条目数,默认为1000。 offset
OBS path for training data. --log-url TEXT OBS path for training log. --code-dir TEXT OBS path for
__AUTO_ANNOTATION__:待确认 source_type_header 否 String 指定导出标注文件中的OBS路径前缀,默认为“obs://”,支持指定“s3://”。由于训练无法解析以“obs”开头图片路径,需要导出manifest中的路径前缀为“s3://”。 status 否 Integer
Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/training-jobs/{training_job_id}/events 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String
导入模型提示模型或镜像大小超过限制 问题现象 在导入模型时,提示模型或镜像大小超过限制。 原因分析 如果使用的是OBS导入或者训练导入,则是基础镜像、模型文件、代码、数据文件和下载安装软件包的大小总和超过了限制。 如果使用的是自定义镜像导入,则是解压后镜像和镜像下载文件的大小总和超过了限制。
Cluster中的RANK_TABLE_FILE实际名称为 jobstart_hccl.json job_start_file = "jobstart_hccl.json" # job_start_file_path 路径默认为 "/user/config/jobstart_hccl.json"
Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /v2/{project_id}/training-jobs/{training_job_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。
Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/training-jobs/autosearch/yaml-templates 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String
数据传输周期,默认为30s。 表35 Remote 参数 参数类型 描述 obs RemoteObs object 数据实际输出到OBS。 表36 RemoteObs 参数 参数类型 描述 obs_url String 数据实际输出到OBS的路径。 表37 AlgorithmEngine 参数 参数类型
获取训练作业日志的文件名 功能介绍 获取训练作业日志的文件名。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/log/file-names 参数说明如表1所示。 表1 参数说明 参数 是否必选
修改操作系统。在下拉列表中指定操作系统版本。 修改驱动版本。在“驱动版本”下拉列表中指定驱动版本。 指定节点计费模式。用户增加节点数量时,可以打开“节点计费模式”开关,为资源池新扩容的节点设置不同于资源池的计费模式、购买时长和开启自动续费功能。例如用户可以在包周期的资源池中创建按需的
查询训练作业日志 功能介绍 按行来查询训练作业日志详细信息。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/aom-log 参数说明如表1所示。 表1 路径参数 参数 是否必选 参数类型
复制数据集到本地主要是为了防止长时间访问OBS容易导致OBS连接中断使得作业卡住,所以一般先将数据复制到本地再进行操作。 数据集复制有两种方式,推荐使用OBS路径复制。 OBS路径(推荐) 直接使用moxing的copy_parallel接口,复制对应的OBS路径。 ModelArts数据
Step3 权重格式离线转换(可选) AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本: