检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
附录:rank_table_file.json文件 rank_table_file.json文件样例如下,需要根据实际修改device_ip,server_id,container_ip参数,4台机器上的rank_table_file.json文件内容一致。在步骤四:创建rank_table_file
下载OBS文件? 在Notebook中可以通过调用ModelArts的Moxing接口或者SDK接口与OBS交互,将Notebook中的文件上传至OBS,或者下载OBS中的文件至Notebook中。 图1 Notebook中上传下载OBS文件 使用OBS客户端上传文件的操作指导:上传文件
何对OBS的文件重命名? 由于OBS管理控制台不支持对OBS的文件重命名,当您需要对OBS文件进行重命名时需要通过调用MoXing API实现,在已有的或者新创建的Notebook中,执行如下命令,通过接口对OBS中的文件进行重命名。 具体操作如下: 如下示例为将文件“obs_file
自如何获取ModelArts训练容器中的文件实际路径? 如果容器中的文件实际路径不清楚,可以使用Python获取当前文件路径的方法获取。 os.getcwd() #获取文件当前工作目录路径(绝对路径) os.path.realpath(__ file __) #获得文件所在的路径(绝对路径) 也
在ModelArts训练代码中,如何获取依赖文件所在的路径? 由于用户本地开发的代码需要上传至ModelArts后台,训练代码中涉及到依赖文件的路径时,用户设置有误的场景较多。因此推荐通用的解决方案:使用os接口得到依赖文件的绝对路径,避免报错。 以下示例展示如何通过os接口获得其他文件夹下的依赖文件路径。 文件目录结构:
JupyterLab中文件保存失败,如何解决? 问题现象 JupyterLab中保存文件时报错如下: 原因分析 浏览器安装了第三方插件proxy进行了拦截,导致无法进行保存。 在Notebook中的运行文件超过指定大小就会提示此报错。 jupyter页面打开时间太长。 网络环境原因,是否有连接网络代理。
用户创建模型时构建镜像或导入文件失败 问题现象 用户创建模型时,构建镜像失败,失败日志中提示下载obs文件失败(Get object size from OBS failed!)。 图1 下载obs文件失败 用户创建模型时,事件提示:复制模型文件失败,请检查OBS权限是否正常(Failed
导入模型提示单个模型文件超过5G限制 问题现象 在导入模型时,提示单个模型文件大小超过5G限制。 原因分析 在不使用动态加载的情况下,系统对单个模型文件的限制大小为5G,超过时无法进行导入。 处理方法 精简模型文件后,重新导入。 使用动态加载功能进行导入。 图1 使用动态加载 父主题:
recursive=True) 其中,“get_size”为获取文件或文件夹的大小。“recursive=True”表示类型为文件夹,“True”表示是文件夹,“False”为文件。 如果输出结果为一致,表示文件夹复制已完毕。如果输出结果不一致,表示复制未结束。 父主题: Standard模型训练
在业务执行前加如下命令,检查是否能找到so文件。如果已经找到so文件,执行2;如果没有找到,执行3。 import os; os.system(find /usr -name *libcudart.so*); 设置环境变量LD_LIBRARY_PATH,设置完成后,重新下发作业即可。 例如so文件的存放路径为
使用moxing适配OBS路径,pandas读取文件报错 问题现象 使用moxing适配OBS路径,然后用较高版本的pandas读取OBS文件报出如下错误: 1.‘can't decode byte xxx in position xxx’ 2.‘OSError:File isn't
复制完整资产名称 获取待上传的文件名 获取待上传的文件在服务器的绝对路径。 上传单个文件 在服务器执行如下命令,可以将服务器上的文件上传到AI Gallery仓库里面。 gallery-cli upload {repo_id} {文件名} 如下所示,表示将服务器上的文件“D:\workpl
on device”。 同一目录下创建较多文件,为了加快文件检索速度,内核会创建一个索引表,短时间内创建较多文件时,会导致索引表达到上限,进而报错。 触发条件和下面的因素有关: 文件名越长,文件数量的上限越小 blocksize越小,文件数量的上限越小。( blocksize,系统默认
字段。 log_file_list String 训练作业的日志文件名。单机作业日志仅有一个文件,分布式作业日志有多个文件。 请求示例 如下以获取“job_id”为10,“version_id”为10的作业日志文件为例。 GET https://endpoint/v1/{p
建议用户新建一个文件夹(例如:tb_logs),将tensorboard的日志文件(例如:tb.events)放到新建的文件夹下,然后执行tensorboard命令。示例命令如下: mkdir -p ./tb_logs mv tb.events ./tb_logs tensorboard
设置本地挂载目录,在“/data/”目录下输入一个文件夹名称,例如:demo。挂载时,后台自动会在Notebook容器的“/data/”目录下创建该文件夹,用来挂载OBS文件系统。 选择存放OBS并行文件系统下的文件夹,单击“确定”。 图1 动态挂载OBS并行文件系统 挂载成功后,可以在Notebook实例详情页查看到挂载结果。
Yaml配置文件参数配置说明 本小节主要详细描述demo_yaml配置文件、配置参数说明,用户可根据实际自行选择其需要的参数。 表1 模型训练脚本参数 参数 示例值 参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B
在ModelArts的Notebook中如何打开VS Code的配置文件settings.json? 在VS Code环境中执行Ctrl+Shift+P 搜Open User Settings (JSON) 父主题: Standard Notebook
ModelArts通过OBS的API访问OBS中的文件,属于内网还是公网访问? 在同一区域,ModelArts通过OBS的API访问OBS中的文件属于内网通信,不消耗公网流量费。 如果是通过互联网从OBS下载数据到本地,这时候会产生OBS公网流量费。OBS的详细计费说明可以参见计费项。
Yaml配置文件参数配置说明 本小节主要详细描述demo_yaml配置文件、配置参数说明,用户可根据实际自行选择其需要的参数。 表1 模型训练脚本参数 参数 示例值 参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B