检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
nal的文件和OBS的文件之间的关系是什么? JupyterLab目录的文件与Terminal中work目录下的文件相同。即用户在Notebook中新建的,或者是从OBS目录中同步的文件。 挂载OBS存储的Notebook,JupyterLab目录的文件可以与OBS的文件进行同步
否则可能存在导入失败的情况。 导入已标注的文件,导入完成后,请检查您导入的数据是否为已标注状态。 表格数据集从OBS导入操作 ModelArts支持从OBS导入表格数据,即csv文件。 表格数据集导入说明: 导入成功的前提是,数据源的schema需要与创建数据集指定的schema
name/dir1/') 示例代码执行后,本地源文件“file1.txt”被上传至“bucket-name”桶的“dir1”文件夹下,路径为“obs://bucket-name/dir1/file1.txt”。其中,桶名称和文件夹的名称均可以按照业务需求自定义。 参数说明 表1
解析Pascal VOC文件 解析xml文件支持本地和OBS,如果是OBS,需要Session信息。 PascalVoc.parse_xml(xml_file_path, session=None) 示例代码 指定xml路径,通过调用parse_xml来解析获取xml文件的信息。 from
从本地上传数据到ModelArts数据集 文件型数据来源 文件型数据集支持从两种数据源导入数据:“OBS”和“本地上传”。导入后,导入目录下的数据会复制至数据集的数据源路径下。 OBS:又分为从OBS目录或从Manifest文件两种导入方式,需要将导入的数据或Manifest文件提前存储至OBS目录中。
查询导入任务状态 根据任务ID查询数据集导入任务的状态和详情。 dataset.get_import_task_info(task_id) 示例代码 查询数据集导入任务的详情 from modelarts.session import Session from modelarts
查询导入任务列表 查询数据集导入任务列表。 dataset.list_import_tasks() 示例代码 查询数据集导入任务列表 from modelarts.session import Session from modelarts.dataset import Dataset
true:导入样本(默认值) false:不导入样本 import_type 否 String 导入方式。可选值如下: dir:目录导入 manifest:按manifest文件导入 included_labels 否 Array of Label objects 导入包含指定标签的样本。
附录:config.json文件 config.json文件用于推理服务启动时,需要修改以下参数,4台机器的每个容器中config.json文件内容一致。 ipAddress:主节点IP地址,即rank_table_file.json文件中的server_id。 manageme
从OBS导入数据到ModelArts数据集 从OBS导入数据到数据集场景介绍 从OBS目录导入数据到数据集 从Manifest文件导入数据到数据集 从OBS目录导入数据规范说明 从Manifest文件导入规范说明 父主题: 导入数据到ModelArts数据集
Files按钮,打开文件上传窗口,选择左侧的进入远端文件上传界面。 图1 上传文件图标 图2 进入远端文件上传界面 输入有效的远端文件URL后,系统会自动识别上传文件名称,单击“上传”,开始上传文件。 图3 输入有效的远端文件URL 图4 远端文件上传成功 异常处理 远端文件上传失败。可
上传本地文件至JupyterLab Notebook的JupyterLab中提供了多种方式上传文件。 上传文件要求 对于大小不超过100MB的文件直接上传,并展示文件大小、上传进度及速度等详细信息。 对于大小超过100MB不超过50GB的文件可以使用OBS中转,系统先将文件上传OB
示例代码执行后,OBS源文件“file1.txt”被下载至“/home/ma-user/file1.txt”。 参数说明 表1 请求参数说明 参数 是否必选 参数类型 描述 session 是 Object 会话对象。 src_obs_file 是 String 下载的源OBS文件,必须以“obs://”作为前缀。
创建和保存Manifest文件 需要先创建包含Manifest信息的对象,然后保存。Manifest信息请见表2。路径支持本地和OBS,如果是OBS,需要Session信息。 manifest_info.save(path, session=None, save_mode="w")
Files按钮,打开文件上传窗口,选择左侧的进入OBS文件上传界面。 图1 上传文件图标 图2 OBS文件上传界面 需要提供OBS文件路径,可以通过以下两种方式提供: 方式一:在输入框中直接输入有效的OBS文件路径,然后单击“上传”开始传文件。 图3 输入有效的OBS文件路径 此处输入
上传文件至JupyterLab 上传本地文件至JupyterLab 克隆GitHub开源仓库文件到JupyterLab 上传OBS文件到JupyterLab 上传远端文件至JupyterLab 父主题: 通过JupyterLab在线使用Notebook实例进行AI开发
sh-4.3$du -sh * 4.0K core-js-banners 0 npm-19-41ed4c62 6.7M v8-compile-cache-1000 请删除不用的大文件。 删除示例文件“test.txt”:rm -f /home/ma-user/work/data/test
module_file.py 训练作业导入模块时日志出现“ImportError: No module named xxx”的报错,可以判断是环境中没有包含用户依赖的python包。 处理方法 训练作业导入模块时日志出现前两条报错信息,处理方法如下: 首先保证被导入的module中有“__init__
训练tokenizer文件说明 在训练开始前,需要针对模型的tokenizer文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 ChatGLMv3-6B 在训练开始前,针对ChatGLMv3-6B模型中的
训练tokenizer文件说明 在训练开始前,需要针对模型的tokenizer文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 ChatGLMv3-6B 在训练开始前,针对ChatGLMv3-6B模型中的