检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
言,机器翻译虽然在速度和成本上具备优势,但在准确性和语境理解上仍存在一定的不足,例如,处理复杂、专业的内容时。 为了解决这些问题,构建一个自动化的多语言翻译工作流显得尤为重要。通过集成翻译工具(如机器翻译API、大型语言模型等),可以在保证翻译效率的同时,提升翻译质量,并根据实际场景和用户需求进行灵活调整。
列“下载”,可将评测报告下载到本地。 NLP大模型评测指标说明 NLP大模型支持自动评测与人工评测,各指标说明如表1、表2、表3。 表1 NLP大模型自动评测指标说明-不使用评测模板 评测指标(自动评测-不使用评测模板) 指标说明 F1_SCORE 精准率和召回率的调和平均数,数值越高,表明模型性能越好。
删除符合自定义正则表达式的数据。 自定义关键词过滤 剔除包含关键词的数据。 敏感词过滤 对文本中涉及黄色、暴力、政治等敏感数据进行自动检测和过滤。 文本长度过滤 按照设置的文本长度,保留长度范围内的数据进行。 冗余信息过滤 按照段落粒度,删除文本中的冗余信息,不改变数据条目。 例如目录封面、图注表注、标注说明、尾部信息、冗余段落和参考文献等。
通过自动化的评测机制,用户可以在训练过程中持续监控模型的精度、召回率等关键指标,及时发现潜在问题并优化调整。评测功能能够帮助用户在多种应用场景下验证模型的准确性与可靠性。 模型压缩:在模型部署前,进行模型压缩是提升推理性能的关键步骤。通过压缩模型,能够有效减少推理过程中的显存占
撰写提示词 撰写完成后,单击“确定”,平台会自动识别插入的变量。提示词中识别的变量将展示在变量定义区域。 变量名称可以进行修改,如添加备注信息以便更好理解变量的作用。 图3 变量定义 变量定义区域展示的是整个工程任务下定义的变量信息,候选提示词中关联的变量也会进行展示,候选提示词相关操作请参见设置候选提示词。
可部分标注”,则可在标注部分数据后,单击右上角的“提交全部标注数据”,让AI大模型自动标注剩余数据。 在完成数据标注后,如果无需进行标注审核,可直接在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。 审核标注后的图片类数据集 如果在创建
的结果,即回答中反复出现某一句话或某几句话。这种情况可能是由于以下几个原因导致的,建议您依次排查: 推理参数设置:请检查推理参数中的“话题重复度控制”或“温度”或“核采样”等参数的设置,适当增大其中一个参数的值,可以提升模型回答的多样性。 数据质量:请检查训练数据中是否存在文本重复的异常数据,可以通过规则进行清洗。
提示词的效果通常与训练数据的相似度密切相关。当提示词的内容与模型在训练过程中接触过的样本数据相似时,模型更容易理解提示词并生成相关的输出。这是因为模型通过学习大量的训练数据,逐渐建立起对特定模式、结构和语言的理解,因此,提示词中包含的关键词、句式和语境如果与训练数据中的模式接近,模型能够“回忆”并运用已学习的知识和指令。
型”中进行选择。 高级设置 checkpoints:在模型训练过程中,用于保存模型权重和状态的机制。 关闭:关闭后不保存checkpoints,无法基于checkpoints执行续训操作。 自动:自动保存训练过程中的所有checkpoints。 自定义:根据设置保存指定数量的checkpoints。
先标注视频中的“大类别”(如“动物”),然后根据该大类别进一步细分为多个子类。这种方式可以更精细地表示视频中涉及的不同对象或情境。 图2 多层级分类示例-声音分类 文本描述:如图3,文本描述允许标注者以文字的形式为视频片段提供更详细的说明或描述。该描述不仅可以包含视频中的内容信息
低您使用SDK的难度,推荐使用。 您可以在API Explorer中具体API页面的“代码示例”页签查看对应编程语言类型的SDK代码。 图1 获取SDK代码示例 当您在中间填充栏填入对应内容时, 右侧代码示例会自动完成参数的组装。 图2 设置输入参数 填写输入参数时,deploy
数据保护技术 盘古大模型服务通过多种数据保护手段和特性,保障存储在服务中的数据安全可靠。 表1 盘古大模型的数据保护手段和特性 数据保护手段 简要说明 传输加密(HTTPS) 盘古服务使用HTTPS传输协议保证数据传输的安全性。 基于OBS提供的数据保护 基于OBS服务对用户的数
提示词开发”。 在工程任务列表页面,找到所需要操作的工程任务,单击该工程任务右侧“撰写”。 图1 提示词工程 在“撰写”页面,选择左侧导航栏中的“候选”。在候选列表中,勾选需要进行横向比对的提示词,并单击“横向比较”。 图2 横向比较 进入到横向比较页面,下拉页面至“提示词效果比较”模块,比较
默认格式:平台默认的格式。 在默认格式中,context和target是键值对。示例如下: {"context": "你好,请介绍自己", "target": "我是盘古大模型"} 盘古格式:训练盘古大模型时,需要将数据集格式发布为“盘古格式”。 在盘古格式中,context和target
景),帮助模型理解并捕捉预期风格。 可以在提示词中,明确描述回复风格的要求。例如,若希望模型回答更精炼,可以提示: 你的回复“需要简洁精炼”、“仅包括最重要的信息”或“专注于主要结论”。 若希望模型输出遵循特定格式,可以在提示词中明确格式要求,或使用占位符和模板结构,让模型填充内容。例如:
概述 盘古大模型整合华为云强大的计算和数据资源,将先进的AI算法集成在预训练大模型中,打造出具有深度语义理解与生成能力的人工智能大语言模型。可进行对话互动、回答问题、协助创作。 盘古大模型在ModelArts Studio大模型开发平台部署后,可以通过API调用推理接口。 表1 API清单
集的详细信息,如数据格式、大小、配比比例等,同时平台会自动记录每个数据集的操作历史,例如创建、发布及上线等过程。为了进一步简化管理,平台还支持数据集的删除功能,使用户能够对数据集进行灵活管理和调整。在模型训练和数据分析过程中,用户可以根据需求调用这些数据集,确保数据的准确性与安全
查看NLP大模型训练状态与指标 模型启动训练后,可以在模型训练列表中查看训练任务的状态,单击任务名称可以进入详情页查看训练结果、训练任务详情和训练日志。 查看模型训练状态 在模型训练列表中查看训练任务的状态,各状态说明详见表1。 表1 训练状态说明 训练状态 训练状态含义 初始化
Studio大模型开发平台提供数据加工功能,涵盖了数据清洗、数据合成和数据标注关键操作,旨在确保原始数据符合业务需求和模型训练的标准,是数据工程中的核心环节。 数据清洗 通过专用的清洗算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。
NET、NodeJs、PHP 给定一个提示和一些参数,模型会根据这些信息生成一个或多个预测的补全,还可以返回每个位置上不同词语的概率。它可以用来做文本生成、自动写作、代码补全等任务。 开发环境要求 华为云盘古大模型推理SDK要求: Java SDK适用于JDK 1.8及其以上版本。 Python SDK适用于Python3及以上版本。