检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ChatGLMv3-6B 在训练开始前,针对ChatGLMv3-6B模型中的tokenizer文件,需要修改代码。修改文件chatglm3-6b/tokenization_chatglm.py 。 文件最后几处代码中需要修改,具体位置可根据上下文代码信息进行查找,修改后如图2所示。 图2
zer目录下,参考路径上传代码和权重文件到工作环境中的步骤3。 cp -f config.json {work_dir}/tokenizers/falcon-11B/ glm4-9b模型 在训练开始前,需要修改glm4-9b模型中的tokenizer文件modeling_chatglm
ChatGLMv3-6B 在训练开始前,针对ChatGLMv3-6B模型中的tokenizer文件,需要修改代码。修改文件chatglm3-6b/tokenization_chatglm.py 。 文件最后几处代码中需要修改,具体位置可根据上下文代码信息进行查找,修改后如图2所示。 图2
通过不同模型中的xxx_install.sh脚本一键适配。在用户通过Dockerfile构建模型的环境镜像时会执行该脚本,这会从github上拉取模型的官方源码,并通过git apply qwen-vl.patch的方式进行NPU适配,最后将以上源码和环境打包至镜像中。 AscendCloud-AIGC-6
获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-3rdAIGC-6.3.905-xxx.zip 文件名中的xxx表示具体的时间戳,以包名的实际时间为准。 获取路径:Support-E 如果没有软件下载权限,请联系您所在企业的华为方技术支持下载获取。
打开Python运行环境 使用MoXing将目标文件从Notebook上传到OBS中。 上传txt、压缩后文件夹的Python示例代码如下。代码中的“/home/ma-user/work/xxx”为文件在Notebook中的存储路径,“obs://bucket_name/xxx”为该文件上传
下载或读取文件报错,提示超时、无剩余空间 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50GB,只有默认的10GB,导致作业训练失败。
校验csv文件,将多出字段的行删除。 在代码中忽略错误行,参考如下: import pandas as pd pd.read_csv(filePath,error_bad_lines=False) 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接
当前任务是否是该版本的同类型任务中的最新任务。 name String 数据处理任务名称。 result Object 数据处理任务输出的结果,status为2时会出现该字段,用于特征分析任务。 status Integer 数据处理的状态。可选值如下: 0:初始化 1:运行中 2:已完成 3:失败
获取支持的超参搜索算法 功能介绍 获取支持的超参搜索算法。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/search-algorithms
据处理”两大类任务,仅支持更新任务的描述。可通过指定路径参数“task_id”来更新某个具体任务。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI PUT /v2/{
kubectl describe pod ${pod_name} volcano资源调度失败 当volcano的资源出现争抢时,会出现下图中的问题。 解决方法: 通过打印所有Pod的信息,并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide
--modelFile=diffusers/scripts/mindir_models/text_encoder.mindir --device=Ascend 上述命令中:modelFile指定生成的mindir模型文件;device指定运行推理的设备。其他用法请参考benchmark文档。 测试结果如下所示:
需要先联系您所在企业的华为方技术支持。 本文档适用于OBS+SFS Turbo的数据存储方案,不适用于仅OBS存储方案。通过OBS对象存储服务(Object Storage Service)与SFS Turbo文件系统联动,可以实现灵活数据管理、高性能读取等。 约束限制 适配的CANN版本是cann_8
了自助Lite Cluster资源池升级节点GPU/Ascend驱动的能力。 约束限制 Lite Cluster资源池节点驱动状态处于运行中,且专属池中的节点需要含有GPU/Ascend资源。 节点驱动升级操作 登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池
eter server(简称ps)和worker两种角色,ps和worker会被调度到相同的机器上。由于训练数据对于ps没有用,因此在代码中ps相关的逻辑不需要下载训练数据。如果ps也下载数据到“/cache”,实际下载的数据会翻倍。例如只下载了2.5TB的数据,程序就显示空间不
训练作业详情界面“规格信息”为“--”。 原因分析 调用接口传入了CPU规格的专属资源池不支持的参数。 处理步骤 检查API请求的请求体中是否存在“flavor_id”参数,CPU规格的专属资源池不支持使用“flavor_id”参数。 父主题: API/SDK
获取训练作业支持的公共规格 功能介绍 获取训练作业支持的公共规格。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/training-job-flavors
同步数据集 功能介绍 从数据集输入位置同步数据至数据集,包含样本及标注信息。文本类数据集不支持此操作。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v2/
更新数据集 功能介绍 修改数据集的基本信息,如数据集名称、描述、当前版本或标签等信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI PUT /v2/{projec