检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
且测试集训练集都要有视频。 支持视频的格式包括常见的mp4/avi格式文件,每个视频时长要大于128s,FPS>=10,用annotation.json对文件进行标注。 单个文件大小不超过50GB,文件数量最多1000个,示例如下所示: 具体的json标注文件参考: { 'version':
预训练文本 jsonl jsonl格式:text表示预训练所使用的文本数据,具体格式示例如下: {"text":"盘古大模型,是华为推出的盘古系列AI大模型,包括NLP大模型、多模态大模型、CV大模型、科学计算大模型、预测大模型。"} 单个文件大小不超过50GB,文件数量最多1000个。。
低代码构建多语言文本翻译工作流 方案设计 构建流程 效果评估与优化 典型问题 附录 父主题: Agent应用实践
出翻译后的内容。 图1 试运行工作流-1 其他意图:用户其他的请求(除翻译请求外)将执行大模型节点分支,并根据用户的提问进行回答。 如图2,当用户输入对话类问题时(如“你好”),“意图识别”节点对用户的意图分类为“其他”,此时工作流将运行“大模型”节点分支,输出“大模型”节点的回答。
请检查创建数据集时使用的数据,与平台要求的文件内容格式是否一致。 content type [%s] not support, only [%s] support. 数据集中的内容不支持,请保证上传的数据格式与平台要求的一致。 get obs bucket folders error. 请检查OBS服务是否正常,是否可以访问OBS桶数据。
其他类数据集格式要求 除文本、图片、视频、气象、预测类数据集外,平台还支持导入其他类数据集,即用户训练模型时使用的自定义数据集。 其他类数据集支持发布其他类数据集操作,不支持数据加工操作。 其他类数据集要求单个文件大小不超过50GB,单个压缩包大小不超过50GB,文件数量最多1000个。
加工视频类数据集 清洗视频类数据集 标注视频类数据集 父主题: 加工数据集
加工气象类数据集 清洗气象类数据集 父主题: 加工数据集
问题二:文本翻译失败,如图2,工作流不输出翻译后的内容,始终处于提问状态。 图2 文本翻译失效 可能原因:如图3,提问器节点的Prompt指令配置有误,指令中的参数与节点配置的输出参数不对应。 图3 提问器节点配置错误示例 解决方法:按照图4,正确配置提问器节点的指令,配置正确后的试运行效果如图5。 图4
数据流通是将单个数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。 视频类数据集当前仅支持发布为“默认格式”。 创建视频类数据集流通任务 创建视频类数据集流通任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程
要支持对接盘古大模型或三方大模型,为了使这些数据集能够被这些大模型正常训练,平台支持发布不同格式的数据集。 当前支持默认格式、盘古格式: 默认格式:数据工程功能支持的原始格式。 盘古格式:使用盘古大模型训练时所需要使用的数据格式。 如果使用该数据集训练盘古大模型,请将选择格式配置为盘古格式。
数据集清洗算子介绍 文本类清洗算子能力清单 视频类清洗算子能力清单 图片类清洗算子能力清单 气象类清洗算子能力清单 父主题: 加工数据集
发布文本类数据集 评估文本类数据集 配比文本类数据集 流通文本类数据集 父主题: 发布数据集
发布视频类数据集 评估视频类数据集 流通视频类数据集 父主题: 发布数据集
加工文本类数据集 清洗文本类数据集 合成文本类数据集 标注文本类数据集 父主题: 加工数据集
创建文本类数据集清洗任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据加工 > 数据清洗”,单击界面右上角“创建清洗任务”。 在“创建清洗任务”页面,选择需要清洗的文本类数据集,单击“下一步”。 进入“清洗步骤编
合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至流通文本类数据集。 创建文本类数据集配比任务 创建文本类数据集配比任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
数据流通是将单个数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。 单个图片类数据集支持发布的格式为: 默认格式:平台默认的格式。 盘古格式:训练盘古大模型时,需要将数据集格式发布为“盘古格式”。 创建文本类数据集流通任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
创建气象类数据集清洗任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据加工 > 数据清洗”,单击界面右上角“创建清洗任务”。 在“创建清洗任务”页面,选择需要清洗的气象类数据集,单击“下一步”。 进入“清洗步骤编
平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种预测因子(特征),用于预测连续变量的值,与时序数据不同,回归分类数据不要求数据具有时间顺序。 具体格式要求详见表1。