检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
“智能标注”又包含“主动学习”和“预标注”两类。 “主动学习”表示系统将自动使用半监督学习、难例筛选等多种手段进行智能标注,降低人工标注量,帮助用户找到难例。 “预标注”表示选择用户模型管理里面的模型进行智能标注。 “自动分组”是指先使用聚类算法对未标注图片进行聚类,再根据聚类
删除分为逻辑删除(基于条件的remove删除)和快速删除(dropCollection,dropDatabase)。 用户做了大量删除操作后,实际数据量可能没有多大变化,但磁盘空间使用量增加了。是因为无论是写入、更新还是删除,以及索引插入和删除等操作,在后台实际上都会转成写入。因为底层的存储引擎(
提交特征工程作业 功能介绍 该接口用于特征工程处理,包含数据预处理,特征提取和排序训练样本生成等。 URI POST /v1/{project_id}/etl-job 参数说明请参见表1。 表1 URI参数说明 名称 是否必选 类型 说明 project_id 是 String
按需实例不支持手动进行磁盘扩容。按需实例不存在磁盘容量的限制,会根据实际使用情况进行自动扩缩容。 针对包年/包月实例,您在购买实例时选择了多大的磁盘容量,系统就会分配多大的磁盘容量。如果后期存储需求超过当前的磁盘容量,TaurusDB会自动扩容,扩容的部分将按需计费。如果后面存储需求下降,则优先会将自动扩容的磁盘容量进行缩容。
考自定义数据。 自定义数据 Qwen-VL指令微调数据:Qwen-VL-Chat微调的数据需要用户自行制作,需要准备一个JSON文件存放训练样本,每个样本需包含id和对话内容。对话内容按user和assistant轮流发言记录。具体的格式需要参考Qwen-VL官方指导资料,示例如下所示:
考自定义数据。 自定义数据 Qwen-VL指令微调数据:Qwen-VL-Chat微调的数据需要用户自行制作,需要准备一个JSON文件存放训练样本,每个样本需包含id和对话内容。对话内容按user和assistant轮流发言记录。具体的格式需要参考Qwen-VL官方指导资料,示例如下所示:
写入/更新命令 用户做了大量写入/更新操作后,实际数据量可能没有多大变化,但磁盘空间使用量增加了。是因为无论是写入、更新还是删除,以及索引插入和删除等操作,在后台实际上都会转成写入。因为底层的存储引擎(WiredTiger和RocksDB)采用都是appendOnly机制。只有当
保证图片质量:不能有损坏的图片;目前支持的格式包括jpg、jpeg、bmp、png。 不要把明显不同的多个任务数据放在同一个数据集内。 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。 为保证模型的泛化能力,数据集尽量覆盖可能出现的各种场景。 物体检测数据集中,如果标注框坐标超过图片,将无法识别该图片为已标注图片。
单击对应的“采集样本数量”、“AI训练样本数”或“学习案例样本数”列的数值,“可以进入到样本清单明细页面,查看当前的样本明细 标识AI训练/取消AI训练样本:在“样本库”、“AI训练样本”或“学习案例样本”页签,单击样本下方的/ 标记学习案例/取消学习案例样本:在“样本库”、“AI训练样本”或“学习案例样本”页签,单击样本下方的/。
建议根据业务情况及使用习惯,选择OBS使用方法。 如果您的数据量较小(小于100MB)或数据文件较少(少于100个),建议您使用控制台上传数据。控制台上传无需工具下载或多余配置,在少量数据上传时,更加便捷高效。 如果您的数据量较大或数据文件较多,建议选择OBS Browser+或obsutil工具上传。OBS
、状态、拓扑和体验等类型的数据,通过提供5w多属性的数据字典,降低开发者理解和使用数据的知识门槛。 价值样本多 已发布经过专业数据治理的训练样本,包含专家经验和专业工具标注的样本,覆盖无线、固网、核心网和数据中心等领域业务场景,满足不同开发者的数据需要。 样本质量高 基于华为在电
Redis应用场景 很多大型电商网站、视频直播和游戏应用等,存在大规模数据访问,对数据查询效率要求高,且数据结构简单,不涉及太多关联查询。这种场景使用Redis,在速度上对传统磁盘数据库有很大优势,能够有效减少数据库磁盘IO,提高数据查询效率,减轻管理维护工作量,降低数据库存储成本
ModelArts自动学习,为资深级用户提供模板化开发能力 提供“自动学习白盒化”能力,开放模型参数、自动生成模型,实现模板化开发,提高开发效率 采用自动深度学习技术,通过迁移学习(只通过少量数据生成高质量的模型),多维度下的模型架构自动设计(神经网络搜索和自适应模型调优),和更快、更准的训练参数自动调优自动训练
训练模型 特征和算法确定后,可以开始训练模型。 训练模型 单击“模型选择”左下方的“训练模型”。 新增“训练模型”内容,如图1所示。 图1 训练模型 单击“训练模型”代码框左侧的图标,进行模型训练。 模型训练完成后,界面下方展示模型的评估效果。 第一列内容的含义如下所示: 0:标注为0的所有样本。可以理解为标签。
建议根据业务情况及使用习惯,选择OBS使用方法。 如果您的数据量较小(小于100MB)或数据文件较少(少于100个),建议您使用控制台上传数据。控制台上传无需工具下载或多余配置,在少量数据上传时,更加便捷高效。 如果您的数据量较大或数据文件较多,建议选择OBS Browser+或obsutil工具上传。OBS
测试集质量:请检查测试集的目标任务和分布与实际场景是否一致,质量较差的测试集无法反映模型的真实结果。 数据质量:请检查训练数据的质量,若训练样本和目标任务不一致或者分布差异较大,则会加剧该现象。此外,若可预见实际场景会不断发生变化,建议您定期更新训练数据,对模型进行微调更新。 父主题:
为什么微调后的盘古大模型只能回答训练样本中的问题 为什么在微调后的盘古大模型中输入训练样本问题,回答完全不同 为什么微调后的盘古大模型评估结果很好,但实际场景表现很差 为什么多轮问答场景的盘古大模型微调效果不好 数据量足够,为什么盘古大模型微调效果仍然不好 数据量和质量均满足要求,为什么盘古大模型微调效果不好
数据质量:请检查训练数据的质量,若训练样本出现了大量重复数据,或者数据多样性很差,则会加剧该现象。 为什么微调后的模型,输入与训练样本相似的问题,回答与训练样本完全不同? 当您将微调的模型部署以后,输入一个已经出现在训练样本中,或虽未出现但和训练样本差异很小的问题,回答完全错误。这
创建训练服务 新建训练服务 训练任务需要基于已经成功打包的训练模型去创建,并选择新的训练数据集、测试数据集和标签列进行模型训练。 单击“创建”,弹出“创建训练”对话框。 配置训练服务参数,如新建算法参数说明所示。 表1 参数说明 参数名称 参数说明 请选择模型训练方式 模型训练方式,包含如下选项:
job_id",或从查询训练作业列表的响应中获得。 表2 get_job_log请求参数说明 参数 是否必选 参数类型 描述 task_id 否 String 要查看哪个工作节点的日志,默认值为"worker-0";如果在创建训练作业时参数train_instance_count选择了2,则可选值为"worker-0"