检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
视频类清洗算子能力清单 数据清洗算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签和评分等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持视频类数据集的清洗操作,分为数据提取、数据过滤、数据打标三类,视频类加工算子能力清单见表1。
创建多语言文本翻译插件 准备工作 提前开通“文本翻译”服务。登录自然语言处理控制台,切换区域至华北-北京四,在“总览”页面下方开通“文本翻译”服务。 图1 开通文本翻译服务 操作流程 创建多语言文本翻译插件的流程见表1。 表1 创建多语言文本翻译插件流程 操作步骤 说明 步骤1:获取文本翻译服务Token与调用地址
型消除语义歧义性,识别用户查询意图,并直接生成支持下游操作的结构化JSON信息。大模型的NL2JSON能力可以从自然语言输入抽取关键信息并转换为JSON格式输出,以供下游操作,从而满足该场景下客户需求。 金融场景下,NL2JSON能力可以有效消除用户语义歧义性,提高数据处理的灵活
包年/包月和按需计费模式有什么区别 包年/包月和按需计费模式哪个更划算 同一资源是否同时支持包年/包月和按需计费两种模式 包年/包月和按需计费模式是否支持互相切换 资源到期了如何续费
按需计费是一种后付费模式,即先使用再付费,按照实际使用时长计费。 在购买后,如果发现当前计费模式无法满足业务需求,您还可以变更计费模式。详细介绍请参见变更计费模式。 计费项 盘古大模型的计费项由模型订阅、数据资源、训练资源和推理资源费用组成。了解每种计费项的详细信息,请参考计费项。
单击操作列的“评估”,进入评估页面。 在评估页面,可参考评估项对当前数据的问题进行标注,且满足则单击“通过”,不满足则单击“不通过”。 全部数据评估完成后,在“人工评估”页面可查看评估进展为“100%”。 单击操作列“报告”,可查看数据集质量评估报告。 父主题: 发布视频类数据集
且满足则单击“通过”,不满足则单击“不通过”。 如图2,对于文本类数据集而言,可选中问题内容后,右键标记数据问题。 图2 标记数据集问题 全部数据评估完成后,在“人工评估”页面可查看评估进展为“100%”。 单击操作列“报告”,可查看数据集质量评估报告。 父主题: 发布文本类数据集
单击操作列的“评估”,进入评估页面。 在评估页面,可参考评估项对当前数据的问题进行标注,且满足则单击“通过”,不满足则单击“不通过”。 全部数据评估完成后,在“人工评估”页面可查看评估进展为“100%”。 单击操作列“报告”,可查看数据集质量评估报告。 父主题: 发布图片类数据集
功能总览 功能总览 全部 数据工程工具链 模型开发工具链 应用开发工具链 能力调测 应用百宝箱 数据工程工具链 数据是大模型训练的基础,为大模型提供了必要的知识和信息。数据工程工具链作为盘古大模型服务的重要组成部分,具备数据获取、清洗、数据合成、数据标注、数据评估、数据配比、数据流通和管理等功能。
通过这些格式的转换,用户可以确保数据与特定模型(如盘古大模型)兼容,并优化训练效果。 提高训练效率 发布符合标准的数据集可以大幅提升数据处理效率,减少后续调整工作,帮助用户快速进入模型训练阶段。 数据集发布是数据工程中的关键环节,通过科学的数据比例调整和格式转换,确保数据集符合
结构化数据,包括:xlsx、xls、csv格式。 无论是文本文档、演示文稿,还是电子表格文件,用户都可以轻松地将数据导入知识库,无需额外的转换或格式处理。 父主题: 创建与管理知识库
自动:自动保存训练过程中的所有checkpoints。 自定义:根据设置保存指定数量的checkpoints。 训练参数 训练轮数 表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。 数据批量大小 数据集进行分批读取训练,设定每个批次数据的大小。 通常情况下,较大的
这个临时响应用来通知客户端,它的部分请求已经被服务器接收,且仍未被拒绝。 101 Switching Protocols 切换协议。只能切换到更高级的协议。 例如,切换到HTTPS的新版本协议。 200 OK 服务器已成功处理了请求。 201 Created 创建类的请求完全成功。 202
选择合适的模型,从而提高模型的整体效果,详见表1。 此外,不同类型的NLP大模型在训练过程中,读取中文、英文内容时,字符长度转换为Token长度的转换比有所不同,详见表2。 表1 不同系列NLP大模型对处理文本的长度差异 模型名称 可处理最大Token长度 说明 Pangu-N
INT4:该压缩策略与INT8相比,可以进一步减少模型的存储空间和计算复杂度。 配置资源。选择计费模式并设置训练单元。 可选择开启订阅提醒。开启后,系统将在本次压缩任务状态变更时,向用户发送短信/邮件提醒。 填写基本信息,包括任务名称、压缩后模型名称与描述,单击“立即创建”。 当压缩任务状态为“已完成”时,表示模型已完成压缩操作。
“模型评测 > 人工评测”页面。 当状态为“待评测”时,可以单击操作列“在线评测”进入评测页面。 依据页面提示对评估效果区域进行评测打分,全部数据评测完成后单击“提交”。 图1 人工评测示例 在“人工测评”页面,评测任务的状态将显示为“已完成”,单击操作列“评测报告”查看模型评测结果。
保不同业务场景下的数据获取需求得到满足。 数据清洗:平台提供强大的数据清洗功能,可以对文本、视频、图片、气象类型的数据进行数据提取、过滤、转换、打标签和评分等加工处理。针对不同类型的数据集,平台提供了专用的清洗算子以及支持用户创建自定义算子实现个性化的数据清洗诉求。确保生成高质量
插件节点 101741 插件组件初始化失败。 检查插件组件配置,可能为校验报错。 101742 工作流插件节点参数类型转换时出错。 根据error message确定具体转换出错的参数名称,并确认类型是否正确。 101743 工作流插件节点的input在插件定义中不存在。 检查插件定义和对应的组件定义是否匹配。
默认值:1.0 最大口令限制 用于控制聊天回复的长度和质量。 默认值:2048 话题重复度控制 用于控制生成文本中的重复程度。调高参数模型会更频繁地切换话题,从而避免生成重复内容。 默认值:0 词汇重复度控制 用于调整模型对频繁出现的词汇的处理方式。调高参数会使模型减少相同词汇的重复使用,促使模型使用更多样化的词汇进行表达。
不同语言对的翻译:如图3,针对不同的语言对(如中文到法语、俄语到西班牙语),评估翻译效果是否稳定。 图3 多场景测试-不同语言对 复杂对话场景:如图4,当用户在对话中频繁切换意图时,测试意图识别节点的应答能力,确保其能够理解并适应多变的对话上下文。 图4 多场景测试-复杂对话场景 优化Prompt设计:从pro