检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
需要在训练开始前,修改llm_train/AscendFactory/yi/3_training.sh文件,并添加--tokenizer-not-use-fast参数。修改后如图1所示。 图1 修改Yi 模型3_training.sh文件 ChatGLMv3-6B 在训练开始前,针对ChatGLMv3-
(修改点:增加第37行)。 torch_npu.npu.set_compile_mode(jit_compile=False) AICPU算子调优 ,Double类型输入切换成为Float减少cast算子调用耗时,修改diffusion/gaussian_diffusion.py (修改点:注释第871行,增加第872行)。
Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。 在上传数据时,请选择非加密桶进行上传,否则会由于加密桶无法解密导致后期的训练失败。 创建数据集 数据准备完成后,需要创建相应项目支持的类型的数据集,具体操作请参考创建ModelArts数据集。 父主题:
模型。 评估模型 训练得到模型之后,整个开发过程还不算结束,需要对模型进行评估和考察。经常不能一次性获得一个满意的模型,需要反复的调整算法参数、数据,不断评估训练生成的模型。 一些常用的指标,如准确率、召回率、AUC等,能帮助您有效的评估,最终获得一个满意的模型。 部署模型 模型
打通VPC 在打通VPC弹框中,打开“打通VPC”开关,在下拉框中选择可用的VPC和子网。 需要打通的对端网络不能和当前网段重叠。 图2 打通VPC参数选择 如果没有VPC可选,可以单击右侧的“创建虚拟私有云”,跳转到网络控制台,申请创建虚拟私有云。 如果没有子网可选,可以单击右侧的“创建
源池的驱动版本不适配时,可以参考升级Standard专属资源池驱动升级驱动。 公共资源池:公共资源池提供公共的大规模计算集群,根据用户作业参数分配使用,资源按作业隔离。MaaS服务可以使用ModelArts Standard形态下提供的公共资源池完成模型训推,按照使用量计费,方便
ModelArts针对以下主流的LLM大模型进行了基于昇腾NPU的适配工作,可以直接使用适配过的模型在NPU上进行推理训练。 表2 LLM模型推理能力 支持模型 支持模型参数量 应用场景 软件技术栈 指导文档 Llama Llama-7b Llama-13b Llama-65b 推理 Ascend-vLLM 主流开源大模型基于Lite
该对象是InputStorage和OutputStorage的基类,包含了两者的所有能力,可以供用户灵活使用。 属性 描述 是否必填 数据类型 name 名称。 是 str title 不填默认使用name的值。 否 str description 描述信息。 否 str create_dir
应用在工业、零售安防等领域。 图像分类:识别图片中物体的类别。 物体检测:识别出图片中每个物体的位置和类别。 预测分析:对结构化数据做出分类或数值预测。 声音分类:对环境中不同声音进行分类识别。 文本分类:识别一段文本的类别。 使用自动学习功能构建模型的端到端示例,请参见“快速入门>使用自动学习构建模型”。
打开,SFS Turbo所需要入方向的端口号为111、445、2049、2051、2052、20048,具体请参见创建文件系统的“安全组”参数。Cloud Shell功能的操作指导请参见使用CloudShell登录训练容器。 是,则修改安全组的配置,具体操作请参见修改安全组规则。
Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。 在上传数据时,请选择非加密桶进行上传,否则会由于加密桶无法解密导致后期的训练失败。 用于训练的文本,至少有2种以上的分类,每种分类样本数据数不少20行。 创建数据集 数据准备完成后,需要创建相应项目支持的类型的数据集,具体操作请参考创建ModelArts数据集。
港、亚太-新加坡、亚太-曼谷。 团队标注功能当前仅支持“图像分类”、“物体检测”、“文本分类”、“命名实体”、“文本三元组”、“语音分割”类型的数据集。 针对启用团队标注功能的数据标注任务,支持创建团队标注任务,将标注任务指派给不同的团队,由多人完成标注任务。同时,在成员进行数据
弹出“发布AI Gallery Notebook”页面。 图1 单击“创建分享” 在“发布AI Gallery Notebook”页面填写参数,单击“创建”将Notebook代码样例分享至AI Gallery。 填写“发布标题”,标题长度为3~64个字符,不能包含以下字符“\ /
择左上角的区域,例如“华南-广州”。 在左侧导航栏单击“权限管理”,进入“权限管理”页面。 单击“添加授权”。在“授权”页面,在“授权对象类型”下面选择“所有用户”,选择“新增委托 ”,为该主用户下面的所有子账号配置委托访问授权。 普通用户:普通用户的委托权限包括了用户使用Mod
PUBLIC:租户(主账号和所有子账号)内部公开访问。 PRIVATE:仅创建者和主账号可访问。 INTERNAL:创建者、主账号、指定IAM子账号可访问当授权类型为INTERNAL时需要指定可访问的子账号的账号名,可选择多个。 每个账号每个IAM项目都会分配1个默认工作空间,默认工作空间的访问控制为PUBLIC。
从而起到预警作用。 设置ModelArts服务和模型的告警规则包括设置告警规则名称、监控对象、监控指标、告警阈值、监控周期和是否发送通知等参数。本节介绍了设置ModelArts服务和模型告警规则的具体方法。 只有“运行中”的在线服务,支持对接CES监控。 前提条件: 已创建ModelArts在线服务。
MindInsight界面(2) Step4 查看训练看板中的可视化数据 训练看板是MindInsight的可视化组件的重要组成部分,而训练看板的标签包含:标量可视化、参数分布图可视化、计算图可视化、数据图可视化、图像可视化和张量可视化等。 更多功能介绍请参见MindSpore官网资料:查看训练看板中可视的数据。
parquet #预训练数据 |──{output_dir} #{OUTPUT_SAVE_DIR}或yaml文件{output_dir}参数设置值 # 自动生成数据目录结构 |── preprocessed_data |──co
数据清洗是在数据校验的基础上,对数据进行一致性检查,处理一些无效值。例如在深度学习领域,可以根据用户输入的正样本和负样本,对数据进行清洗,保留用户想要的类别,去除用户不想要的类别。 数据选择:数据选择一般是指从全量数据中选择数据子集的过程。 数据可以通过相似度或者深度学习算法进行选择。数据选择可以避免人工
希望提升训练效率,同时减少与对象存储OBS的交互。可通过如下方式进行调整优化。 优化原理 对于ModelArts提供的GPU资源池,每个训练节点会挂载500GB的NVMe类型SSD提供给用户免费使用。此SSD挂载到“/cache”目录,“/cache”目录下的数据生命周期与训练作业生命周期相同,当训练作业运行结