检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
JupyterProcessKilled jupyter进程被killed掉了 紧急 CacheVolumeExceedQuota /cache目录文件大小超过最大限制 紧急 NotebookHealthy 实例从不健康恢复到了健康状态 重要 EVSSoldOut EVS存储售罄 紧急 表6
item(日志关键字) 执行条件 检测成功要求 域名检测 dns 无 volcano容器的域名都解析成功(/etc/volcano下的“.host”文件中的域名解析成功) 磁盘空间-容器根目录 disk-size root 无 大于32GB 磁盘空间-/dev/shm目录 disk-size
PyTorch Profiler 性能采集工具,在训练脚本中调用Ascend PyTorch Profiler接口,可在训练过程中采集性能数据文件,包括PyTorch层算子信息、CANN层算子信息、底层NPU算子信息、以及算子内存占用信息等。 包含在torch_npu包中。 Ascend
训练作业启动前下载数据、模型、代码。 训练作业运行中上传日志、模型。 建议配置。 操作步骤 本案例场景为单机单卡场景下创建训练作业,数据和代码存储在OBS服务的并行文件系统下,创建自定义镜像训练作业。 使用主用户账号登录管理控制台,单击右上角用户名,在下拉框中选择“统一身份认证”,进入统一身份认证(IAM)服务。
update service, rollback failed. 请联系技术支持。 正常 [model 0.0.1] OBS桶,OBS并行文件系统,SFS Turbo挂载成功。 [%s] %s volume successfully. - 服务部署和运行过程中,关键事件支持手动/自动刷新。
update service, rollback failed. 请联系技术支持。 正常 [model 0.0.1] OBS桶,OBS并行文件系统,SFS Turbo挂载成功。 [%s] %s volume successfully. - 服务部署和运行过程中,关键事件支持手动/自动刷新。
、minicpm、qwen-vl、internvl2、qwen2-vl、llava-onevision。 OUTPUT_NAME:输出结果文件名称, 默认llava。 ASCEND_RT_VISIBLE_DEVICES:表示支持多个模型服务实例,同时支持模型并行,如 0,1:2,3
当前固定随机性操作可分为工具固定和人工固定两种。 工具固定Seed 对于网络中随机性的固定,msprobe提供了固定Seed的方式,只需要在config.json文件中添加对应seed配置即可。 msprobe工具提供了seed_all接口用于固定网络中的随机数。如果客户使用了工具但取用了其他随机种子,则必须使用客户的随机种子固定随机性。
指标命名空间。可选值如下: PAAS.CONTAINER:组件指标、实例指标、进程指标和容器指标的命名空间 PAAS.NODE: 主机指标、网络指标、磁盘指标和文件系统指标的命名空间 PAAS.SLA:SLA指标的命名空间 PAAS.AGGR:集群指标的命名空间 CUSTOMMETRICS:默认的自定义指标的命名空间
指定metric的输出路径,相关指标信息由作业脚本代码根据指定的数据格式自行输出(示例中需要将metric信息输出到训练输出目录下的metrics.json文件中) ], spec=wf.steps.JobSpec( resource=wf.steps.JobResource(
、2_convert_mg_hf.sh中的具体python指令,并在Notebook环境中运行执行。用户可通过Notebook中创建.ipynb文件,并编辑以下代码可实现Notebook环境中的数据与OBS中的数据进行相互传递。 import moxing as mox # OBS存放数据路径
、2_convert_mg_hf.sh中的具体python指令,并在Notebook环境中运行执行。用户可通过Notebook中创建.ipynb文件,并编辑以下代码可实现Notebook环境中的数据与OBS中的数据进行相互传递。 import moxing as mox # OBS存放数据路径
Lite的Lite k8s Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。 支持的模型列表和权重文件 本方案支持vLLM的v0.6.0版本。不同vLLM版本支持的模型列表有差异,具体如表1所示。 表1 支持的模型列表和权重获取地址 序号 模型名称
、2_convert_mg_hf.sh中的具体python指令,并在Notebook环境中运行执行。用户可通过Notebook中创建.ipynb文件,并编辑以下代码可实现Notebook环境中的数据与OBS中的数据进行相互传递。 import moxing as mox # OBS存放数据路径
MiniCPM-v2 √ x x x x https://huggingface.co/HwwwH/MiniCPM-V-2 注意:需要修改源文件site-packages/timm/layers/pos_embed.py,在第46行上面新增一行代码,如下: posemb = posemb
/home/ma-user/ws/save_dir/llama2-70B_sft_lora_4096 【必改】。训练任务结束生成日志及权重文件目录。根据实际情况决定 SHELL_FOLDER $(dirname $(readlink -f "$0")) 表示执行脚本时的路径。 MODEL_NAME
/home/ma-user/ws/save_dir/llama2-70B_sft_lora_4096 【必改】。训练任务结束生成日志及权重文件目录。根据实际情况决定 SHELL_FOLDER $(dirname $(readlink -f "$0")) 表示执行脚本时的路径。 MODEL_NAME
训练作业的代码目录,是一个OBS路径,需要以"obs:/"开头,如"obs://xx/yy/"。 boot_file 是 String 训练作业的代码启动文件,需要在代码目录下,可填写相对路径,如"boot_file.py",也可填写绝对路径,如"obs://xx/yy/boot_file.py"。
已经准备好数据源,例如存放在OBS的“/test-obs/classify/input/cat-dog/”目录下。 已经准备好数据集的输出位置,用于存放输出的标注信息等文件,例如“/test-obs/classify/output/”。 操作步骤 调用认证鉴权接口获取用户的Token。 请求消息体: URI格式:POST
SEED 1234 随机种子数。每次数据采样时,保持一致。 SAVE_INTERVAL 10 表示训练间隔多少step,则会保存一次权重文件。 模型参数设置规定 TP张量并行 、PP流水线并行、CP context并行的参数设置:TP×PP×CP的值要被NPU数量(word_size)整除。