检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
endpoint: obs.xxxx.com” 问题现象 训练作业中使用Tensorboard直接写入到OBS路径,在日志中出现报错信息“ValueError: Invalid endpoint: obs. xxxx.com”。 原因分析 出现该问题的可能原因: 直接在OBS上写tensorboard文件,存在不稳定的风险。
在ModelArts中如何查看OBS目录下的所有文件? 在使用Notebook或训练作业时,需要查看目录下的所有文件,您可以通过如下方式实现: 通过OBS管理控制台进行查看。 使用当前账户登录OBS管理控制台,去查找对应的OBS桶、文件夹、文件。 通过接口判断路径是否存在。在已有
MoXing如何访问文件夹并使用get_size读取文件夹大小? 问题现象 使用MoXing无法访问文件夹。 使用MoXing的“get_size”读取文件夹大小,显示为0。 原因分析 使用MoXing访问文件夹,需添加参数:“recursive=True”,默认为False。 处理方法
msprobe -f pytorch run_ut -api_info ./dump.json 这里-api_info指定的是步骤2导出的dump.json文件,表示整网计算过程中API的输入输出情况。执行完成run_ut命令之后将输出api_precision_compare_result_{timestamp}
数据集。 在创建OBS桶创建的桶下创建文件夹用以存放数据,例如在桶standard-llama2-13b中创建文件夹training_data。 利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构: obs://<bucke
一个桶的文件,导致OBS桶限流。 OBS Client连接数过多,进程/线程之间的轮询,导致一个OBS Client与服务端连接30S内无响应,超过超时时间,服务端断开了连接。 处理方法 如果是限流问题,日志中还会出现如下报错,OBS相关的错误码解释请参见OBS官方文档,这种情况建议提工单。
部署服务 功能介绍 将模型部署为服务。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v1/{project_id}/services 表1 路径参数 参数
EST API进行的Python封装,以简化用户的开发工作。 SDK文档 SDK下载 Session鉴权 OBS管理 作业管理 模型管理 服务管理 02 价格 ModelArts服务的计费方式简单、灵活,您既可以选择按实际使用时长计费。也可以选择更经济的按包周期计费方式。 计费项
--target-tensor-parallel-size:任务不同调整参数target-tensor-parallel-size,默认为1。 --target-pipeline-parallel-size :任务不同调整参数target-pipeline-parallel-size,默认为1。
否 String 存储路径。 如果type为“obs”类型,该值必须填写,该值需为有效的OBS桶路径,且以“/”结束。不能指定为OBS桶的根目录,需指定为OBS桶下的具体目录。 如果type为“obsfs”类型,该值需为有效的OBS并行文件系统的桶名(当前CCE不支持挂载子目录)。
key does not exist. 原因分析 出现该问题的可能原因如下: 桶中的对象不存在,请检查OBS路径中的内容是否存在。具体错误码请参见OBS官方文档。 处理方法 检查OBS路径及内容格式是否正常。 必现的问题,使用本地Pycharm远程连接Notebook调试。 建议与总结
及版本均不同,图2仅作为示例,请以实际控制台为准。 单击Launcher页面的“Performance Advisor”图标,界面将如下图所示 图3 Performance Adviso主页面 提交性能诊断任务 如果您的NPU性能数据存放在OBS上,Source选择OBS,Pat
path String 工作路径。可选值如下: 如果type是OBS,source为OBS路径。 如果type是DATASET,source为数据集ID。 type String 工作路径的类型。可选值如下: OBS:OBS路径 DATASET:数据集 version_id String
本案例仅支持在专属资源池上运行,确保专属资源池可以访问公网。 文档更新内容 6.3.912版本相对于6.3.911版本新增如下内容: 代码结构发生变化,统一了modellink和llama-factory的启动方式。 继承911版本启动方式以外增加新的启动方式: ascendfactory-cli
数据集。 在创建OBS桶创建的桶下创建文件夹用以存放数据,例如在桶standard-llama2-13b中创建文件夹training_data。 利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构: obs://<bucke
预训练 前提条件 已上传训练代码、训练权重文件和数据集到OBS中,具体参考代码上传至OBS。 Step1 创建训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的llm_train/AscendSpeed代码目录。
Files按钮,打开文件上传窗口,选择左侧的进入OBS文件上传界面。 图1 上传文件图标 图2 OBS文件上传界面 需要提供OBS文件路径,可以通过以下两种方式提供: 方式一:在输入框中直接输入有效的OBS文件路径,然后单击“上传”开始传文件。 图3 输入有效的OBS文件路径 此处输入的是具体的OBS文件路径,不是文件夹的路径,否则会导致上传失败。
--target-tensor-parallel-size:任务不同调整参数target-tensor-parallel-size,默认为1。 --target-pipeline-parallel-size :任务不同调整参数target-pipeline-parallel-size,默认为1。
--target-tensor-parallel-size:任务不同调整参数target-tensor-parallel-size,默认为1。 --target-pipeline-parallel-size :任务不同调整参数target-pipeline-parallel-size,默认为1。
--target-tensor-parallel-size:任务不同调整参数target-tensor-parallel-size,默认为1。 --target-pipeline-parallel-size :任务不同调整参数target-pipeline-parallel-size,默认为1。