检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
高质量的数据是训练好模型的基础。数据加工不仅仅是对数据的简单处理,更是根据不同数据类型和业务需求进行有针对性的优化,使数据更符合训练标准,提高训练效率和精度。 确保业务需求对接 不同业务场景和模型应用对数据有不同的要求。数据加工能够根据特定业务需求进行定制化处理,确保数据满足应用场景
Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 单击左侧导航栏“调用统计”,选择“NLP”页签。 选择当前调用的NLP大模型,可以按照不同时间跨度查看当前模型的调用总数、调用失败的次数、调用的总Tokens数、以及输入输出的Tokens数等基本信息。 此外,该功能还提供了可视
速度有提升,用于天气基础要素预测,时间分辨率为24小时,1个训练单元起训及1个实例部署。 在选择和使用盘古大模型时,了解不同模型所支持的操作行为至关重要。不同模型在预训练、微调、模型评测、模型压缩、在线推理和能力调测等方面的支持程度各不相同,开发者应根据自身需求选择合适的模型。以下是盘古科学计算大模型支持的具体操作:
Pangu-CV-ObjectDetection-N-2.1.0 2024年12月发布的版本,支持全量微调、在线推理。 在选择和使用盘古大模型时,了解不同模型所支持的操作行为至关重要。不同模型在预训练、微调、模型评测、模型压缩、在线推理和能力调测等方面的支持程度各不相同,开发者应根据自身需求选择合适的模型。以下是盘古CV大模型支持的具体操作:
平台支持用户根据不同的使用场景、项目类别或团队需求,自定义创建多个工作空间。每个工作空间都是完全独立的,确保了工作空间内的资产不受其他空间的影响,从而保障数据和资源的隔离性与安全性。用户可以根据需求灵活划分工作空间,实现资源的有序管理与优化配置,确保各类资源在不同场景中的最大化利
模型评估:使用平台的“模型评估”功能,“模型评估”将对您之前上传的测试集进行评估。通过查看测试集样本的PPL、BLEU和ROUGE等指标,进行横向(相同训练数据+不同规格的通用模型)或纵向(不同训练数据训练的多个模型版本)对比来判断训练过程是否出现了问题。 人工评测:您可以采用人工评测的方式,参照目标任务构造评测集,
数据配比”,单击界面右上角“创建配比任务”。 在“数据集选择”页签选择需要配比的文本类数据集(至少选择两个),单击“下一步”。 在“数据配比”页面,可以设置不同数据集的配比数量,单击“确定”。 页面将返回至“数据配比”页面,配比任务运行成功后,状态将显示为“运行成功”。 单击操作列“生成”,将生成“发布数据集”。
发布气象类数据集 气象类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“气象
流通数据集 数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。 平台支持发布的数据集格式为默认格式、盘古格式。 默认格式:平台默认的格式。 盘古格式:训练盘古大模型时,需要发布为该格式。当前仅文本类、图片类数据集支持发布为盘古格式。 NLP大模型开发流程
通过阅读本文,您可以快速了解盘古大模型的计费模式、计费项、续费、欠费等主要计费信息。 计费模式 盘古大模型提供包周期计费、按需计费两种计费模式,以满足不同场景下的用户需求。关于计费模式的详细介绍请参见计费模式。 包周期计费是一种预付费模式,即先付费再使用,按照订单的购买周期进行结算,因此在购买之前,您必须确保账户余额充足。
用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种预测因子(特征),用于预测连续变量的值,与时序数据不同,回归分类数据不要求数据具有时间顺序。 具体格式要求详见表1。 表1 预测类数据集格式要求 文件内容 文件格式 文件样例 时序 csv 数
空间。 每个工作空间在资产层面完全隔离,确保资产的安全性和操作的独立性,有效避免交叉干扰或权限错配带来的风险。用户可以结合实际使用场景,如不同的项目管理、部门运营或特定的研发需求,划分出多个工作空间,实现资产的精细化管理与有序调配,帮助用户高效地规划和分配任务,使团队协作更加高效。
工作流的基本单元。平台支持多种节点,包括开始、结束、大模型、意图识别、提问器、插件、判断、代码和消息节点。 创建工作流时,每个节点需要配置不同的参数,如输入和输出参数等,开发者可通过拖、拉、拽可视化编排更多的节点,实现复杂业务流程的编排,从而快速构建应用。 工作流方式主要面向目标
参见科学计算大模型训练常见报错与解决方案。 训练日志可以按照不同的节点(训练阶段)进行筛选查看。分布式训练时,任务被分配到多个工作节点上进行并行处理,每个工作节点负责处理一部分数据或执行特定的计算任务。日志也可以按照不同的工作节点(如worker-0表示第一个工作节点)进行筛选查看。
发布预测类数据集 预测类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“预测
发布其他类数据集 其他类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“其他
预览提示词效果 提示词撰写完成后,可以通过输入具体的变量值,组成完整的提示词,查看不同提示词在模型中的使用效果。 在撰写提示词页面,找到页面右侧变量输入区域,在输入框中输入具体的变量值信息。 输入变量值后预览区域会自动组装展示提示词。也可以直接选择已创建的变量集填入变量值信息,变
提供灵活的数据接入方式以及支持多种文件格式导入,确保不同业务场景下的数据获取需求得到满足。 数据清洗:平台提供强大的数据清洗功能,可以对文本、视频、图片、气象类型的数据进行数据提取、过滤、转换、打标签和评分等加工处理。针对不同类型的数据集,平台提供了专用的清洗算子以及支持用户创建
流通视频类数据集 数据流通是将单个数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。 视频类数据集当前仅支持发布为“默认格式”。 创建视频类数据集流通任务 创建视频类数据集流通任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
在“数据集选择”页签选择需要配比的文本类数据集(至少选择两个),单击“下一步”。 在“数据配比”页面,支持两种配比方式,“按数据集”和“按标签”。 按数据集:可以设置不同数据集的配比数量,单击“确定”。 按标签:该场景适用于通过数据打标类清洗算子进行加工的文本类数据集,具体标签名称与标签值可在完成清洗文本类数据集操作后,进入数据集详情页面获取。