检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
评估图片类数据集 创建图片类数据集评估标准 创建图片类数据集评估任务 获取图片类数据集评估报告 父主题: 评估数据集
批量评估提示词效果 创建提示词评估数据集 创建提示词评估任务 查看提示词评估结果 父主题: 开发盘古大模型提示词工程
创建与管理工作流 工作流简介 创建工作流 管理工作流 父主题: 开发盘古大模型Agent应用
训练NLP大模型 NLP大模型训练流程与选择建议 创建NLP大模型训练任务 查看NLP大模型训练状态与指标 发布训练后的NLP大模型 管理NLP大模型训练任务 NLP大模型训练常见报错与解决方案 父主题: 开发盘古NLP大模型
标注数据集 数据集标注场景介绍 标注文本类数据集 标注视频类数据集 标注图片类数据集 父主题: 使用数据工程准备与处理数据集
附录 状态码 错误码 获取项目ID 获取模型调用API地址
图2 标注管理 在“创建标注任务”页面选择需要标注的加工后的文本类数据集,并设置标注项。 设置标注项时,不同类型的数据文件对应的标注项也有所差异,可基于页面提示进行设置。 图3 创建标注任务 单击“下一步”设置标注人员及信息,单击“完成创建”。 分配标注任务时,可以选择是否启用多人标
后的视频类数据集,并设置标注项。 当选择“视频Caption”标注项时,可以设置使用AI大模型对数据集进行预标注。启动预标注将会借助AI模型生成标注内容,这些内容不会覆盖原始数据集,仅作为标注人员的参考,以提高标注效率。 图3 创建标注任务 单击“下一步”设置标注人员及信息,单击“完成创建”。
后的图片类数据集,并设置标注项。 当选择“图片Caption”标注项时,可以设置使用AI大模型对数据集进行预标注。启动预标注将会借助AI模型生成标注内容,这些内容不会覆盖原始数据集,仅作为标注人员的参考,以提高标注效率。 图3 创建标注任务 单击“下一步”设置标注人员及信息,单击“完成创建”。
创建盘古多语言文本翻译工作流 场景描述 该示例演示了如何创建多语言文本翻译工作流,示例将调用华为云文本翻译API,详见文本翻译。 准备工作 提前开通“文本翻译”服务。登录自然语言处理控制台,在总览页面下方开通“文本翻译”服务,单击“开通服务”。 图1 开通文本翻译服务 提前获取文
操作流程 登录ModelArts Studio大模型开发平台,进入所需空间。 单击左侧“能力调测”,进入“文本对话”页签,选择服务与人设,参数设置为默认参数,在输入框输入问题,单击“生成”,模型将基于问题进行回答。 图1 使用预置服务进行文本对话 可以尝试修改参数以查看模型效果,示例如下:
段,很可能是因为用户使用的jackson版本太老导致。 建议客户本地将jackson版本升级到和华为云java sdk一致,jackson版本要求请见pom.xml。 引用华为云java sdk的bundle包来解决jackson版本冲突的问题。 <dependency>
d,可获取任务ID参数值。 在Postman中新建一个GET请求,填入域名(将步骤2中获取的URL去除末尾的“/tasks”即为该域名),设置请求Header参数和任务ID参数。单击Postman界面的“Send”发送请求,以获取科学计算大模型的调用结果。 查询科学计算大模型调用详情API
单击“下一步”。在“已选择数据集配比”中,用户可以设置从数据集中抽取指定数量的数据用于训练。进行数据配比的目的是为了确保模型能够更全面地学习和理解数据的多样性,提升模型的泛化能力和性能。 图4 发布方式2 图5 数据集配比 设置发布格式。由于数据工程需要支持对接盘古大模型或三方大
单击“下一步”。在“已选择数据集配比”中,用户可以设置从数据集中抽取指定数量的数据用于训练。进行数据配比的目的是为了确保模型能够更全面地学习和理解数据的多样性,提升模型的泛化能力和性能。 图4 发布方式2 图5 数据集配比 设置发布格式。由于数据工程需要支持对接盘古大模型或三方大
数据过滤阶段可以设置多种过滤属性,对视频数据集进行筛选。例如,过滤掉数据集中低于360分辨率的视频。 如不需要进行数据过滤可直接单击“下一步”跳过该操作。 图3 数据过滤 当前视频类数据集仅支持发布默认格式,选择好数据集的发布格式后,单击“下一步”。 设置数据集的“资产可见性
图2 创建其他类数据集发布任务 当前其他类数据集仅支持发布默认格式,选择好数据集的发布格式后,单击“下一步”。 设置数据集的“资产可见性”,填写数据集名称、描述,设置扩展信息后,单击“确认发布”进行数据集发布操作。发布后的数据集支持重新发布和删除操作。 发布后的数据集会作为当前空间的数据资产同步显示在“空间资产
在“来源数据集”分页,选择“文件内容”为“单轮问答”的数据集,填写数据集名称和描述,单击“下一步”。 图2 选择数据集 在加工步骤编排页面展示了预先设置好的开始、结束步骤。在左侧“添加算子”分页可选择合适的算子,如个人数据脱敏、文本长度过滤等。 导入的数据集格式为“JSONL”,因此默认添加了JSON内容提取算子。
图2 创建气象类数据集发布任务 当前气象类数据集仅支持发布默认格式,选择好数据集的发布格式后,单击“下一步”。 设置数据集的“资产可见性”,填写数据集名称、描述,设置扩展信息后,单击“确认发布”进行数据集发布操作。发布后的数据集支持重新发布和删除操作。 发布后的数据集会作为当前空间的数据资产同步显示在“空间资产
图2 创建预测类数据集发布任务 当前预测类数据集仅支持发布默认格式,选择好数据集的发布格式后,单击“下一步”。 设置数据集的“资产可见性”,填写数据集名称、描述,设置扩展信息后,单击“确认发布”进行数据集发布操作。发布后的数据集支持重新发布和删除操作。 发布后的数据集会作为当前空间的数据资产同步显示在“空间资产