检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
间根据dockerBaseSize的配置来决定,可访问的存储空间比较小,因此建议通过挂载外部存储空间解决存储空间受限问题。 容器中挂载存储有多种方式,不同的场景下推荐的存储方式不一样,详情如表1所示。容器存储的基础知识了解请参见存储基础知识,有助您理解本章节内容。您可查看数据盘空
获取路径:Support-E 说明: 如果没有下载权限,请联系您所在企业的华为方技术支持下载获取。 支持的模型列表和权重文件 本方案支持vLLM的v0.4.2版本。不同vLLM版本支持的模型列表有差异,具体如表3所示。 表3 支持的模型列表和权重获取地址 序号 模型名称 是否支持fp16/bf16推理
客户端上传镜像,是指在安装了容器引擎客户端的机器上使用docker命令将镜像上传到容器镜像服务的镜像仓库。 如果容器引擎客户端机器为云上的ECS或CCE节点,根据机器所在区域有两种网络链路可以选择: 如果机器与容器镜像仓库在同一区域,则上传镜像走内网链路。 如果机器与容器镜像仓库不在同一区域,则上传镜像走公网链路,机器需要绑定弹性公网IP。
双击“数据标注”节点,单击实例详情按钮,打开数据标注页面。 文本分类的数据标注 在“标注对象列表”中选中待标注文本,然后单击“标签集”区域中不同标签进行标注。 一个文本对象只能添加一个标签。 确认文件标签后,单击右下方“保存当前页”,完成标注。 当“标注对象列表”内容较多时,其区域下方将呈现翻页,请务必在本页完
查看ModelArts模型事件 创建模型的(从用户可看见创建模型任务开始)过程中,每一个关键事件点在系统后台均有记录,用户可随时在对应模型的详情页面进行查看。 方便用户更清楚的了解创建模型过程,遇到任务异常时,更加准确的排查定位问题。可查看的事件点包括: 事件类型 事件信息(“XXX”表示占位符,以实际返回信息为准)
查看训练作业事件 训练作业的(从用户可看见训练作业开始)整个生命周期中,每一个关键事件点在系统后台均有记录,用户可随时在对应训练作业的详情页面进行查看。 方便用户更清楚的了解训练作业运行过程,遇到任务异常时,更加准确的排查定位问题。当前支持的作业事件如下所示: 训练作业创建成功 训练作业创建失败报错:
ath:tokenizer的存放路径,与HF权重存放在一个文件夹下。 --seq-length:要处理的最大seq length。 --workers:设置数据处理时,要执行的工作进程数。 --log-interval:是一个用于设置日志输出间隔的参数,表示输出日志的频率。在训练
tokenizer的存放路径,与HF权重存放在一个文件夹下。 --seq-length:要处理的最大seq length。 --workers:设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval:是一个用于设置日志输出间隔的参数,表示输出日志的频率。
数据集保存路径+数据集名称(例如:alpaca_gpt4_data)。 --tokenizer-type:tokenizer的类型,可选项有['BertWordPieceLowerCase','BertWordPieceCase','GPT2BPETokenizer','Pret
rain.sh # 华为侧提供的代码文件 ├── diffusers-train.patch # 华为侧提供的代码文件 ├── prepare.sh # 华为侧提供的代码文件 ├── Dockerfile
peline.sh,具体修改代码内容以及位置,如下所示。 训练作业中存在2个代码目录,一个是从OBS上传到ModelArts Standard训练容器中的代码目录OBS_CODE_DIR,一个是后续构建新镜像步骤ECS中构建新镜像(二选一)中镜像的代码目录CODE_DIR。修改代码如图1。
er_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。 容器不能挂载/home/ma-user目录,此目录为ma-user用户家目录。 driver及npu-smi需同时挂载至容器。 不要将多个容器绑到同一个NPU上,会导致后续的容器无法正常使用NPU功能。 ${image_name}
er_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。 容器不能挂载/home/ma-user目录,此目录为ma-user用户家目录。 driver及npu-smi需同时挂载至容器。 不要将多个容器绑到同一个NPU上,会导致后续的容器无法正常使用NPU功能。 ${image_name}
peline.sh,具体修改代码内容以及位置,如下所示。 训练作业中存在2个代码目录,一个是从OBS上传到ModelArts Standard训练容器中的代码目录OBS_CODE_DIR,一个是后续构建新镜像步骤ECS中构建新镜像中镜像的代码目录CODE_DIR。修改代码如图1。
创建文件越快,越容易触发(机制大概是:有一个缓存,这块大小和上面的1和2有关,目录下文件数量比较大时会启动,使用方式是边用边释放) 处理方法 可以参照日志提示"write line error"文档进行修复。 如果是分布式作业有的节点有错误,有的节点正常,建议提工单请求隔离有问题的节点。 如果是触
如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 支持的模型列表和权重文件 本方案支持vLLM的v0.5.0版本。不同vLLM版本支持的模型列表有差异,具体如表3所示。 表3 支持的模型列表和权重获取地址 序号 模型名称 是否支持fp16/bf16推理
型和资源标签查询指定区域的资源任务。 区域:使用华为云的具体Region,区域概念请参见什么是区域、可用区?。 资源类型:ModelArts支持查询的资源类型如表1所示。 资源标签:不填写标签时,表示查询所有资源,无论此资源是否有配置标签。选择相应标签查询资源,用户可以通过多个标签组合查询资源使用情况。
tokenizer的存放路径,与HF权重存放在一个文件夹下。 --seq-length:要处理的最大seq length。 --workers:设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval:是一个用于设置日志输出间隔的参数,表示输出日志的频率。
认证证书 合规证书 华为云服务及平台通过了多项国内外权威机构(ISO/SOC/PCI等)的安全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书
昇腾云服务6.3.911版本说明 本文档主要介绍昇腾云服务6.3.911版本配套的镜像地址、软件包获取方式和支持的特性能力。 当前版本仅适用于华为公有云。 配套的基础镜像 芯片 镜像地址 获取方式 镜像软件说明 Snt9B PyTorch2.1.0: swr.cn-southwest-2