检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本文原始数据集来源:https://github.com/aceimnorstuvwxz/toutiao-text-classfication-dataset 本文实验用数据集基于原始数据集处理而来,进行了简单的采样、清晰和prompt工程。 实验数据集获取地址:https://maas-operations
该指标用于统计测量对象的磁盘使用率。 百分比(Percent) 0~100% GPU/NPU碎片数 由于资源调度产生碎片,导致某些卡虽然空闲,但无法被多卡任务所使用。不同卡数的任务,根据已占用卡的分布不同,实际会有不同的碎片情况,且随时间变化,表格中仅表示当前时间的状态。 / / 管理资源池标签
th + 'train/') 参数解释: code_dir:必选参数,训练脚本所在的目录。在本地调试的情况下,必须是notebook目录,不能是OBS目录。 boot_file:必选参数,训练启动文件,在code_dir目录下。 obs_path:在多机分布式调测时必选参数,一个
生成模型name。 model_version 是 String 模型版本,格式需为“数值.数值.数值”,其中数值为1-2位正整数。版本不可以出现以0开头的版本号形式,如“01.01.01”等。 publish 否 Bool 是否发布模型。可选值: True: 发布模型。(默认值)
--device=/dev/davinci0:挂载NPU设备,单卡即可。 driver及npu-smi需同时挂载至容器。 不要将多个容器绑到同一个NPU上,会导致后续的容器无法正常使用NPU功能。 进入容器。默认使用ma-user用户,后续所有操作步骤都在ma-user用户下执行。 docker exec -it
表10 network 参数 参数类型 描述 name String 网络名称;用户接口通过指定网络名称创建网络,系统会自动创建子网,用户无法创建子网。默认将创建在第一个子网下。 表11 PoolDriver 参数 参数类型 描述 gpuVersion String GPU驱动版
在创建数据处理页面,填写相关算法参数。 填写基本信息。基本信息包括“名称”、“版本”和“描述”。其中“版本”信息由系统自动生成,按“V0001”、“V0002”规则命名,用户无法修改。 您可以根据实际情况填写“名称”和“描述”信息。 设置场景类别。场景类别当前支持“图像分类”和“物体检测”。 设置数据处理类型为“数
生成模型name。 model_version 是 String 模型版本,格式需为“数值.数值.数值”,其中数值为1-2位正整数。版本不可以出现以0开头的版本号形式,如“01.01.01”等。 publish 否 Bool 是否发布模型。可选值: True: 发布模型。(默认值)
),则模型文件必须满足自定义模型规范(训练)才支持模型自定义训练。 当使用自定义镜像进行模型微调时,要确认镜像是否满足自定义镜像规范,否则无法成功完成自定义训练。 进入模型微调 登录AI Gallery。 单击“模型”进入模型列表。 选择需要进行微调训练的模型,单击模型名称进入模型详情页。
5-large:https://huggingface.co/stabilityai/stable-diffusion-3.5-large/tree/main 如果无法手动下载,可以先在容器内命令行输入以下命令,然后使用个人huggingface token进行登录: huggingface-cli login
rename('obs://bucket_name/obs_file.txt', 'obs://bucket_name/obs_file_2.txt') 移动和复制操作不可以跨桶,必须在同一个桶内操作。 从OBS移动到本地,例如将“obs://bucket_name/obs_file.txt”移动到“/tmp/obs_file
容器时会用到,此处可以自己定义一个容器名称。 ${image_id}:镜像ID,通过docker images查看刚拉取的镜像ID。 容器不能挂载到/home/ma-user目录,此目录为ma-user用户家目录。如果容器挂载到/home/ma-user下,拉起容器时会与基础镜像冲突,导致基础镜像不可用。
是否必选 参数类型 描述 os.modelarts/description 否 String 资源池描述信息,用于说明资源池用于某种指定场景。不能包含特殊字符!<>=&"'。 os.modelarts/order.id 否 String 订单id,包周期创建和变更的时候需要传递该参数。
+ 'train/') 参数解释: code_dir:必选参数,训练脚本所在的目录。在训练任务调测的情况下,必须是notebook中的目录,不能是OBS目录。 boot_file:必选参数,训练启动文件路径,路径格式为基于code_dir目录的相对路径,如实例代码中boot_fil
ModelArts训练日志 只有MindSpore+Ascend训练场景下会产生单独的MindSpore日志。其他AI引擎的日志都包含在普通日志中,无法区分。 训练日志的时效性 从日志产生的时效性上可以分为以下3种情况: 实时日志:训练作业实时运行时产生,在ModelArts训练作业详情页面上可以查看。
上传镜像至SWR服务 Step6 在ModelArts上创建训练作业 前提条件 已注册华为账号并开通华为云,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。 Step1 创建OBS桶和文件夹 在OBS服务中创建桶和文件夹,用于存放样例数据集以及训练代码。需要创建的文件夹列表
上传镜像至SWR服务 Step7 在ModelArts上创建训练作业 前提条件 已注册华为账号并开通华为云,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。 Step1 创建OBS桶和文件夹 在OBS服务中创建桶和文件夹,用于存放样例数据集以及训练代码。需要创建的文件夹列表
pytorch:2.1.0-cann7.0.0 上传镜像至SWR服务 登录容器镜像服务控制台,选择区域,要和ModelArts区域保持一致,否则无法选择到镜像。 单击右上角“创建组织”,输入组织名称完成组织创建。请自定义组织名称,本示例使用“deep-learning”,下面的命令中涉
创建算法。设置算法名称为“TestModelArtsalgorithm”,描述为“This is a ModelArts algorithm”。 POST https://endpoint/v2/{project_id}/algorithms { "metadata" : { "name"
当推理方式为batch/edge时仅支持配置一个模型。 当推理方式为real-time时,可根据业务需要配置多个模型并分配权重,但多个模型的版本号不能相同 schedule 否 schedule结构数组 服务调度配置,仅在线服务可配置,默认不使用,服务长期运行。请参见表6。 cluster_id