检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
这是因为模型通过学习大量的训练数据,逐渐建立起对特定模式、结构和语言的理解,因此,提示词中包含的关键词、句式和语境如果与训练数据中的模式接近,模型能够“回忆”并运用已学习的知识和指令。 不同模型间效果差异。
打造政务智能问答助手 场景介绍 大模型(LLM)通过对海量公开数据(如互联网和书籍等语料)进行大规模无监督预训练,具备了强大的语言理解、生成、意图识别和逻辑推理能力。
语种过滤 通过语种识别模型得到文档的语言类型,筛选所需语种的文档。 全局文本去重 检测并去除数据中重复或高度相似的文本,防止模型过拟合或泛化性降低。 数据打标 预训练文本分类 针对预训练文本进行内容分类,例如新闻、教育、健康等类别,支持分析语种包括:中文、英文。
盘古大模型能够深入理解语言的内在逻辑与语义关系,因此在处理复杂语言任务时展现出更高的精准度和效率。这不仅提高了任务的成功率,也大幅提升了用户体验,使盘古大模型成为企业和开发者构建智能应用的首选。
锚框的长边和短边的比例 定义检测物体锚框的长宽比。通过设置不同的长短比例,模型可以更好地适应多种尺寸和形状的物体。 锚框大小 指锚框的初始尺寸。锚框是物体检测中的一个关键概念,通过合理设置,可以帮助模型检测出多种尺寸的目标。
数值越高,表明模型在检测正类样本时的准确性越高。 召回率 召回率是指在所有实际为正类的样本中,被模型正确预测为正类的比例。数值越高,表明模型在检测正类样本时的全面性越高。 获取训练日志 单击训练任务名称,可以在“日志”页面查看训练过程中产生的日志。
Pangu-Predict-Table-Anom-2.0.0 该模型属于异常检测模型,用于识别数据集中的异常或离群点,常应用于安全、质量控制等领域。 矿山行业:进行设备故障检测,例如监控设备运行数据,识别异常行为,防止设备故障。
Agent应用实践 低代码构建多语言文本翻译工作流
思维链 思维链 (Chain-of-Thought)是一种模拟人类解决问题的方法,通过一系列自然语言形式的推理过程,从输入问题开始,逐步推导至最终输出结论。
数值越高,表明模型在检测正类样本时的准确性越高。 召回率 召回率是指在所有实际为正类的样本中,被模型正确预测为正类的比例。数值越高,表明模型在检测正类样本时的全面性越高。 获取训练日志 单击训练任务名称,可以在“日志”页面查看训练过程中产生的日志。
QA对格式支持:jsonl 物体检测 图片格式支持:jpg、jpeg、png、bmp 标注格式支持:xml 图像分类 图片格式支持:jpg、jpeg、png、bmp 标注格式支持:txt 异常检测 图片格式支持:jpg、jpeg、png、bmp 标注格式支持:txt 语义分割 jpg
表1 训练CV大模型数据集类型要求 基模型 训练场景 文件内容 文件格式 盘古-CV-物体检测-N 微调 图片+检测标注 图片+xml 训练CV大模型所需数据量 初期启动训练时,每种模型类别先提供1000张已标注的图片数据进行训练,后续根据验证结果再动态提供数据迭代。
表1 推理SDK清单 SDK分类 SDK功能 支持语言 使用场景 推理SDK 对话问答(/chat/completions) Java、Python、Go、.NET、NodeJs 基于对话问答功能,用户可以与模型进行自然而流畅的对话和交流。
表1 预测大模型与数据集类型对应关系 基模型 模型分类 数据集内容 文件格式 预测大模型 时序预测模型 时序数据 csv 回归模型 异常检测模型 分类模型 回归分类数据 csv 训练预测大模型所需数据量 训练预测大模型时,所需的数据通常为表格格式,即由行和列组成的扁平化数据。
他身处一座繁华的城市,人们穿着古代的服饰,用着他听不懂的语言交谈。他意识到自己真的穿越了。李晓在宋朝的生活充满了挑战。他必须学习如何使用新的语言,适应新的生活方式。他开始学习宋朝的礼仪,尝试理解这个时代的文化。在宋朝,李晓遇到了许多有趣的人。
事件检测 视频+json 数据源样本为avi、mp4格式,标注文件为json格式。必须包含两个及以上后缀名字为avi或者mp4的文件。 每个视频时长要大于128s,FPS>=10,且测试集训练集都要有视频。
通过提供自动化的质量检测和数据清洗能力,对原始数据进行优化,确保其质量和一致性。同时,数据工程工具链还提供强大的数据存储和管理能力,为大模型训练提供高质量的数据支撑。 模型开发工具链 模型开发工具链是盘古大模型服务的核心组件,提供从模型创建到部署的一站式解决方案。
图文文本语言过滤 通过语种识别模型得到图文对的文本语种类型,“待保留语种”之外的图文对数据将被过滤。 图文去重 基于结构化图片去重 判断相同文本对应不同的图片数据是否超过阈值,如果超过则去重。 图片去重 通过把图片结构化处理后,过滤重复的图片/图文对数据。
表1 NLP大模型能力调测参数说明 参数 说明 搜索增强 搜索增强通过结合大语言模型与传统搜索引擎技术,提升了搜索结果的相关性、准确性和智能化。
什么是好的提示词 好的提示词内容明确且具体,能够指导语言模型稳定输出有效、无害的文本,帮助业务高效完成任务和达成任务目标。 接下来介绍几种常用的提示词写作常用方法论。