检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
json等tokenizer文件或者其他json文件。如果缺少则需要直接复制至权重转换后的文件夹中,否则不能直接用于推理。 用户自定义执行权重转换参数修改说明 同样以 llama2 为例,用户可直接编辑 scripts/llama2/2_convert_mg_hf.sh 脚本,自定义环境变量
要的算力资源、AI框架、昇腾开发套件以及迁移调优工具链,最大程度减少客户自行配置环境的复杂度。 范围 本文涉及PyTorch训练的单卡和分布式业务迁移到昇腾的业务范围。当前针对常见的开源LLM/AIGC等领域的开源模型,ModelArts已经提供了迁移好的开箱即用模型,且保证了较
试自动续费,如果扣款失败,每天凌晨3:00尝试一次,直至专属资源池到期或者续费成功。到期前7日自动续费扣款是系统默认配置,您也可以根据需要修改此扣款日。 父主题: 续费
参数类型 说明 id 是 String SFS Turbo 文件系统 ID。 src_path 是 String SFS Turbo 文件系统地址。 dest_path 是 String 训练作业的本地路径。 read_only 否 Boolean dest_path 是否为只读权限,默认为读写权限。
用内存,导致磁盘空间不足。 磁盘配额不足。 处理方法 查看虚拟机所使用的存储空间,再查看回收站文件占用内存,根据实际删除回收站里不需要的大文件。 在Notebook实例详情页,查看实例的存储容量。 执行如下命令,排查虚拟机所使用的存储空间,一般接近存储容量,请排查回收站占用内存。
训练故障识别 ModelArts Standard会对部分常见训练错误给出分析建议,目前还不能识别所有错误,提供的失败可能原因仅供参考。针对分布式作业,只会显示当前节点的一个分析结果,作业的失败需要综合各个节点的失败原因做一个综合判断。 常见训练问题定位思路如下: 根据日志界面提示中提供的分析建议解决。
表格数据集,HDFS路径。例如/datasets/demo。 ip 否 String 用户GaussDB(DWS)集群的IP地址。 port 否 String 用户GaussDB(DWS)集群的端口。 queue_name 否 String 表格数据集,DLI队列名。 subnet_id 否 String MRS集群的子网ID。
Long 样本时间,OBS最后修改时间。 sample_type Integer 样本类型。可选值如下: 0:图像 1:文本 2:语音 4:表格 6:视频 9:自由格式 score String 综合评分,用于团队标注。 source String 样本数据源地址。 sub_sample_url
在标注任务复制的弹窗中,填写作业描述,作业名称task-xxxx-copy-xxxx,其中xxxx为系统生成的随机码,用来区分新作业与被复制作业。也可以修改新生成的作业名称。单击“确定”。 复制完成后,在标注作业列表页即可查询新的标注任务,复制标注作业信息包含标注任务的样本、标签、团队标注信息。
ReadOnlyAccess权限。 在ModelArts管理控制台,单击“权限管理 ”,在对应委托的操作列,单击“查看权限 > 去IAM修改委托权限”。 在新页面中,单击“授权记录 > 授权”,搜索“IAM ReadOnlyAccess”,勾选后单击“下一步”并单击“确认”。 验证权限是否配置成功。
Long 样本时间,OBS最后修改时间。 sample_type Integer 样本类型。可选值如下: 0:图像 1:文本 2:语音 4:表格 6:视频 9:自由格式 score String 综合评分,用于团队标注。 source String 样本数据源地址。 sub_sample_url
Long 样本时间,OBS最后修改时间。 sample_type Integer 样本类型。可选值如下: 0:图像 1:文本 2:语音 4:表格 6:视频 9:自由格式 score String 综合评分,用于团队标注。 source String 样本数据源地址。 sub_sample_url
ts参数配合使用。 enterprise_project_id String 企业项目ID。 update_time Integer 最后修改时间,UTC。 create_time Integer 创建时间,UTC。 enterprise_project_name String 企业项目名称。
训练容器的“${MA_JOB_DIR}/demo-code”目录中,demo-code为OBS存放代码路径的最后一级目录,用户可以根据实际修改。 请注意不要将训练数据放在代码目录路径下。训练数据比较大,训练代码目录在训练作业启动后会下载至后台,可能会有下载失败的风险。建议训练代码目录大小小于或等于50MB。
Abnormal:节点不正常 Checking: 节点自检中 az String 节点所在的可用区。 privateIp String 节点的IP地址。 resources NodeResource object 节点资源量信息。 availableResources NodeResource
Abnormal:节点不正常 Checking: 节点自检中 az String 节点所在的可用区。 privateIp String 节点的IP地址。 resources NodeResource object 节点资源量信息。 availableResources NodeResource
cron表达式需要使用linux系统下支持的格式,其他的cron表达式会报错。表达式可能会包含问号,要兼容linux的cron表达式,需将“?”替换为“*”。 设置定时任务后,修改文件名称以及文件内容,已经创建好的任务不受影响。 立即运行后,在Notebook Jobs页签可以看到任务运行记录,右上角Reload刷新。
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
parameters=[] ), # 训练使用的算法对象,示例中使用AIGallery订阅的算法;部分算法超参的值如果无需修改,则在parameters字段中可以不填写,系统自动填充相关超参值 inputs=wf.steps.JobInput(name="data_url"