检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
模型来源选择“从对象存储服务(OBS)中选择”,元模型选择转换后模型的存储路径,AI引擎选择“Custom”,引擎包选择准备镜像中上传的推理镜像。 系统运行架构选择“ARM”。 图2 设置AI应用 单击“立即创建”开始AI应用创建,待应用状态显示“正常”即完成AI应用创建。 首次创建AI应
Glob os.listdir mox.file.list_directory(..., recursive=False) tf.gfile.ListDirectory os.makedirs mox.file.make_dirs tf.gfile.MakeDirs os.mkdir
env | grep RANK 在训练作业中,您可以在训练启动脚本的首行加入如下代码,把RANK_TABLE_FILE的值打印出来: 1 os.system('env | grep RANK') 父主题: Standard模型训练
境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 __AK = os.environ["HUAWEICLOUD_SDK_AK"] __SK = os.environ["HUAWEICLOUD_SDK_SK"] # 如果进行了加密还需要进行解密操作
--tensor-parallel-size:并行卡数。 --gpu-memory-utilization:0~1之间的float,实际使用的显存是系统读取的最大显存*gpu-memory-utilization。 --max-model-len:最大数据输入+输出长度,不能超过模型配置文件config
5 表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。可根据自己要求适配 cutoff_len 4096 文本处理时的最大长度,此处为4096,用户可根据自己要求适配 dataset 指令监督微调/ppo:alpaca_en_demo rm/dpo:dpo_en_demo
5 表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。可根据自己要求适配 cutoff_len 4096 文本处理时的最大长度,此处为4096,用户可根据自己要求适配 dataset 指令监督微调/ppo:alpaca_en_demo rm/dpo:dpo_en_demo
5 表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。可根据自己要求适配 cutoff_len 4096 文本处理时的最大长度,此处为4096,用户可根据自己要求适配 dataset 指令监督微调/ppo:alpaca_en_demo rm/dpo:dpo_en_demo
String 模型名称,名称只能字母,中文开头,为字母、数字、下划线、中文或者中划线组成的合法字符,支持1-64个字符。如果未输入该参数,系统会自动生成模型name。 model_version 是 String 模型版本,格式需为“数值.数值.数值”,其中数值为1-2位正整数。
"nodeNames" : [ "os-node-created-vrvrq", "os-node-created-4jczv" ] } 响应示例 状态码:200 OK。 { "nodeNames" : [ "os-node-created-vrvrq", "os-node-created-4jczv"
placeholder_type=wf.PlaceholderType.STR, default="True", description="是否使用jpeg预处理加速算子(仅支持jpeg格式数据),可加速数据读取,提升性能,默认启用。如果数据格式不是jpeg格式,开启数据清洗功能即可使用"))
5 表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。可根据自己要求适配 cutoff_len 4096 文本处理时的最大长度,此处为4096,用户可根据自己要求适配 dataset 指令监督微调/ppo:alpaca_en_demo rm/dpo:dpo_en_demo
参数类型 描述 os.modelarts/billing.mode 否 String 计费模式,可选值如下: 0:按需计费 1:包周期计费 os.modelarts/period.num 否 String 包周期订购周期,比如2。当计费模式为包周期时该参数必传。 os.modelarts/period
ci7。 ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统,work_dir为宿主机中工作目录,目录下存放着训练所需代码、数据等文件。container_dir为要挂载到的容器中的目录。为方便两个地址可以相同。
自如何获取ModelArts训练容器中的文件实际路径? 如果容器中的文件实际路径不清楚,可以使用Python获取当前文件路径的方法获取。 os.getcwd() #获取文件当前工作目录路径(绝对路径) os.path.realpath(__ file __) #获得文件所在的路径(绝对路径) 也可在搜索引擎寻找
write(ttf.content) 35 # FONT_PATH = "SimSun.ttf" FONT_PATH = os.path.join(os.getenv('DATA'), "SimSun.ttf") 父主题: 训练脚本说明
write(ttf.content) 35 # FONT_PATH = "SimSun.ttf" FONT_PATH = os.path.join(os.getenv('DATA'), "SimSun.ttf" 父主题: 训练脚本说明
'/cache/hdf_tmp' file_name = os.path.basename(path_or_buf) mox.file.make_dirs(tmp_dir) local_file = os.path.join(tmp_dir, file_name)
进入地址,单击“Download”,选择“Archive Versions”,“Version”选择“4.3-1.0.1.0”,“OS Distribution”选择“Ubuntu”,“OS Distribution Version”选择“Ubuntu 16.04”,“Architecture”选择
set_default_dtype(torch.bfloat16) os.makedirs(bf16_path, exist_ok=True) model_index_file = os.path.join(fp8_path, "model.safetensors