检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
具体格式要求详见表1。 表1 预测类数据集格式要求 文件内容 文件格式 文件样例 时序 csv 数据为结构化数据,包含列和行,每一行表示一条数据,每一列表示一个特征,并且必须包含预测目标列,预测目标列要求为连续型数据。 目录下只有1个数据文件时,文件无命名要求。 目录下有多个数据文件时,需要通
流通视频类数据集 数据流通是将单个数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。 视频类数据集当前仅支持发布为“默认格式”。 创建视频类数据集流通任务 创建视频类数据集流通任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
支持选择用于存放作为初始场数据的文件路径。 预报天数 支持选择以起报时间点为开始,对天气要素或降水进行预报的天数,范围为1~14天。 起报时间 支持选择多个起报时间作为推理作业的开始时间,每个起报时间需为输入数据中存在的时间点。 表面变量 支持选择推理结果输出的表面变量,包括10m u风、10m
数据加工意义 数据加工在大模型开发中具有至关重要的作用,具体体现在以下几个方面: 提高数据质量 原始数据往往包含噪声、缺失值或不一致性,这会直接影响模型训练效果。通过数据清洗操作,可以有效去除无效信息、填补缺失数据,确保数据的准确性与一致性,从而提高数据质量,为模型训练提供可靠的输入。 扩展数据集的多样性和泛化能力
盘古-CV-基础模型 包年/包月(1~9个月,包年为1年) 预测大模型 盘古-预测-模型 包年/包月(1~9个月,包年为1年) 科学计算大模型 盘古-天气气象-基础版 包年/包月(1~9个月,包年为1年) 盘古-天气气象-专业版 包年/包月(1~9个月,包年为1年) 专业大模型 盘古-NLP-N2-BI专业大模型
署到云端或本地环境中。平台支持多种部署模式,能够满足不同场景的需求。通过灵活的API接口,模型可以无缝集成到各类应用中。 模型调用:在模型部署后,用户可以通过模型调用功能快速访问模型的服务。平台提供了高效的API接口,确保用户能够方便地将模型嵌入到自己的应用中,实现智能对话、文本生成等功能。
先标注视频中的“大类别”(如“动物”),然后根据该大类别进一步细分为多个子类。这种方式可以更精细地表示视频中涉及的不同对象或情境。 图2 多层级分类示例-声音分类 文本描述:如图3,文本描述允许标注者以文字的形式为视频片段提供更详细的说明或描述。该描述不仅可以包含视频中的内容信息
式或行为的数据点。 Pangu-Predict-Table-TimSeries-2.0.0 2024年12月发布的版本,支持根据历史时间序列数据来预测未来的值,广泛应用于金融、销售预测、天气预报、能源消耗预测等领域。 在选择和使用盘古大模型时,了解不同模型所支持的操作行为至关重要
型”中进行选择。 高级设置 checkpoints:在模型训练过程中,用于保存模型权重和状态的机制。 关闭:关闭后不保存checkpoints,无法基于checkpoints执行续训操作。 自动:自动保存训练过程中的所有checkpoints。 自定义:根据设置保存指定数量的checkpoints。
据版权并避免版权纠纷。 单击页面右下角“立即创建”,回退至“数据导入”页面,在该页面可以查看数据集的任务状态,若状态为“运行成功”,则数据导入成功。 如果任务状态为“运行失败”,可能由以下原因导致: 文件后缀校验不通过,需要检查文件后缀是否一致。例如,选择创建csv格式的数据集时,文件后缀应为“
数据配比是将多个数据集按特定比例组合并发布为“发布数据集”的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。 流通数据集 数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。 平台支持发布的数据集格式为默认格式、盘古格式。 默认格式:平台默认的格式。
数据配比是将多个数据集按特定比例组合并发布为“发布数据集”的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。 配比图片类数据集 流通图片、视频类数据集 数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。 平台支持发布的数据集格式为默认格式、盘古格式。
当状态为“已创建”时,表示该标注任务创建完成。 进入“标注作业”页签,单击当前标注任务的“标注”。 如果需要将该标注任务移交给其他人员,可以单击“移交”,并设置移交人员以及移交数量,单击“确定”。 进入标注页面后,逐一对数据进行标注。 如图1,以标注图片Caption数据为例,逐
您可以在API Explorer中具体API页面的“代码示例”页签查看对应编程语言类型的SDK代码。 图1 获取SDK代码示例 当您在中间填充栏填入对应内容时, 右侧代码示例会自动完成参数的组装。 图2 设置输入参数 填写输入参数时,deployment_id为模型部署ID,获取方式如下:
填写数据集名称、描述,设置数据集“资产可见性”,设置扩展信息后,单击“确定”执行数据集流通操作。 当任务状态显示为“运行成功”时,说明数据流通任务执行成功,生成的“发布数据集”可在“数据工程 > 数据发布 > 发布数据集”中查看。 父主题: 发布数据集
填写数据集名称、描述,设置数据集“资产可见性”,设置扩展信息后,单击“确定”执行数据集流通操作。 当任务状态显示为“运行成功”时,说明数据流通任务执行成功,生成的“发布数据集”可在“数据工程 > 数据发布 > 发布数据集”中查看。 父主题: 发布数据集
态。当状态为“已创建”时,表示该标注任务创建完成。 进入“标注作业”页签,单击当前标注任务的“标注”。 如果需要将该标注任务移交给其他人员,可以单击“移交”,并设置移交人员以及移交数量,单击“确定”。 进入标注页面后,逐一对数据进行标注。 如图1,以标注单轮问答数据为例,需要逐一
管理科学计算大模型训练任务 在训练任务列表中,任务创建者可以对创建好的任务进行编辑、启动、克隆(复制训练任务)、重试(重新训练任务)和删除操作。 登录ModelArts Studio大模型开发平台,进入所需空间。 在左侧导航栏中选择“模型开发 > 模型训练”,进入模型训练页面,可进行如下操作:
填写数据集名称、描述,设置数据集“资产可见性”,设置扩展信息后,单击“确定”执行数据集流通操作。 当任务状态显示为“运行成功”时,说明数据流通任务执行成功,生成的“发布数据集”可在“数据工程 > 数据发布 > 发布数据集”中查看。 父主题: 发布数据集
好地适应多种尺寸和形状的物体。 锚框大小 指锚框的初始尺寸。锚框是物体检测中的一个关键概念,通过合理设置,可以帮助模型检测出多种尺寸的目标。 框重叠比例阈值 用于判定模型预测的边界框与真实边界框之间是否为同一物体。该阈值用于计算IoU(交并比),影响模型的精确度。 热身轮次 表示