检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
详见通过控制台快速使用OBS。 操作流程 登录ModelArts Studio大模型开发平台,进入所需空间。 选择左侧“数据工程 > 数据获取”,单击右上角“创建原始数据集”。 在“创建原始数据集”页面,选择“图片 > 图片+Caption”,选择文件格式、文件来源,填写数据集名称及描述,单击“立即创建”。
Explorer中具体API页面的“代码示例”页签查看对应编程语言类型的SDK代码。 图1 获取SDK代码示例 当您在中间填充栏填入对应内容时, 右侧代码示例会自动完成参数的组装。 图2 设置输入参数 填写输入参数时,deployment_id为模型部署ID,获取方式如下: 若调用部署后的模型,可在左侧导航栏中选择“模型开发
进行统一管理。 上线原始数据集 在正式发布数据集前,需要执行上线操作。 加工数据集(可选) 创建数据集加工任务 当数据集中存在异常数据、噪声数据、或不符合分析需求的数据时,可以通过加工数据集进行处理,包括但不限于数据提取、过滤、转换、打标签等操作。 上线加工后的数据集 对加工后的数据集执行上线操作。
创建文本类数据集评估任务 创建数据集质量评估任务,基于评估标注对数据逐一评估其质量。 创建文本类数据集评估任务 获取数据集质量评估报告 查看数据集评估任务的进展和数据集质量。 获取文本类数据集评估报告 发布数据集 创建文本类数据集发布任务 创建发布数据集,并进行正式的发布操作,用于后续的训练任务。
的重要组成部分,具备数据获取、清洗、配比和管理等功能。 该工具链能够高效收集和处理各种格式的数据,满足不同训练和评测任务的需求。通过提供自动化的质量检测和数据清洗能力,对原始数据进行优化,确保其质量和一致性。同时,数据工程工具链还提供强大的数据存储和管理能力,为大模型训练提供高质量的数据支撑。
验证。 登录“我的凭证”页面,获取“IAM用户名”、“账号名”以及待使用区域的“项目ID”。调用服务时会用到这些信息,请提前保存。 由于盘古大模型当前部署在“西南-贵阳一”区域,需要获取与“西南-贵阳一”区域对应的project id。 图1 获取user name、domain
户,并设置该用户在盘古平台中的角色,控制对资源的使用范围。 IAM权限 默认情况下,管理员创建的IAM用户(子用户)没有任何权限,需要将其加入用户组,并对用户组授权,才能使得用户组中的用户获得对应的权限。授权后,用户就可以基于被授予的权限对云服务进行操作。 服务使用OBS存储训练
评估数据集质量 在评估页面,可参考评估项对当前数据的问题进行标注,且不满足时需要单击“不通过”,满足则单击“通过”。 全部数据评估完成后,评估状态显示为“100%”,表示当前数据集已经评估完成,可以回退到“评估任务”页面,查看,单击操作列“报告”,获取数据集质量评估报告。 父主题: 评估视频类数据集
路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见获取项目ID。 deployment_id 是 String 模型的部署ID,获取方法请参见获取模型调用API地址。 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述
路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见获取项目ID。 deployment_id 是 String 模型的部署ID,获取方法请参见获取模型调用API地址。 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述
found:未找到x-auth-token参数。 token解析失败,请检查获取token的方法,请求体信息是否填写正确,token是否正确;检查获取token的环境与调用的环境是否一致。 token超时(token expires) ,请重新获取token,使用不过期的token。 请检查AK/SK
query改写模块:针对多轮对话中经常出现的指代和信息省略问题,对用户输入的query做改写,将指示代词替换为实体词,并补充省略的context信息。基于改写后的query,再去调用中控模块以及检索模块,以便能够更好地检索出相关文档。 中控模块:对(经过改写后的)用户输入query,进行意图识别
Loss(损失函数值)的变化趋势。损失函数是一种衡量模型预测结果和真实结果之间的差距的指标,正常情况下越小越好。 您可以从平台的训练日志中获取到每一步的Loss,并绘制成Loss曲线,来观察其变化趋势。一般来说,一个正常的Loss曲线应该是单调递减的,即随着训练的进行,Loss值不断减小,直到收敛到一个较小的值。
识和信息。数据工程工具链作为盘古大模型服务的重要组成部分,具备数据获取、清洗、配比和管理等功能。 该工具链能够高效收集和处理各种格式的数据,满足不同训练和评测任务的需求。通过提供自动化的质量检测和数据清洗能力,对原始数据进行优化,确保其质量和一致性。同时,数据工程工具链还提供强大
Studio大模型开发平台,进入所需空间。 获取调用路径及部署ID。单击左侧“模型开发 > 模型部署”,选择所需调用的NLP大模型,单击“调用路径”,在“调用路径”弹窗获取调用路径及部署ID。 图1 获取调用路径和部署ID 获取项目ID。在页面右上角“我的凭证”,在“API凭证”页面可获取项目ID。 图2 获取项目ID
在评估页面,可参考评估项对当前数据的问题进行标注,且不满足时需要单击“不通过”,满足则单击“通过”。 图7 标记数据集问题 全部数据评估完成后,评估状态显示为“100%”,表示当前数据集已经评估完成,可以回退到“评估任务”页面,查看,单击操作列“报告”,获取数据集质量评估报告。 父主题:
调用科学计算大模型 使用“能力调测”调用科学计算大模型 使用该功能调用部署后的预置服务对区域海洋要素等场景进行预测。 使用“能力调测”调用科学计算大模型 使用API调用科学计算大模型 可调用科学计算API接口对区域海洋要素等场景进行预测。 使用API调用科学计算大模型 数据工程使用流程 ModelArts
建成功后状态将显示为“已创建”状态。 评估任务创建成功后,单击操作列“评估”进入评估页面。 图6 评估数据集质量 在评估页面,可参考评估项对当前数据的问题进行标注,且不满足时需要单击“不通过”,满足则单击“通过”。对于文本类数据集而言,可选择问题内容后,单击鼠标右键进行数据问题的标注。
数据工程常见报错与解决方案 数据工程常见报错及解决方案请详见表1。 表1 数据工程常见报错与解决方案 功能模块 常见报错 解决方案 数据获取 File format mismatch, require [{0}]. 请检查创建数据集时使用的数据,与平台要求的文件内容格式是否一致。
本样例场景实现NLP大模型的部署操作。 步骤1:导入数据至盘古平台 登录ModelArts Studio大模型开发平台,进入所需空间。 选择左侧“数据工程 > 数据获取”,单击右上角“创建原始数据集”。 在“创建原始数据集”页面,选择“文本 > 单轮问答”,选择文件格式、文件来源,填写数据集名称及描述,单击“立即创建”。