华为云用户手册

  • 操作流程 图1 训练流程图 表2 操作任务流程说明 阶段 任务 说明 准备工作 准备环境 本教程案例是基于ModelArts Lite Server运行的,需要购买并开通Server资源。 准备代码 准备AscendFactory训练代码、分词器Tokenizer和推理代码。 准备数据 准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备镜像 准备训练模型适用的容器镜像。 执行训练任务(预训练/微调) 执行训练任务(推荐) 介绍如何进行训练,包括训练数据处理、超参配置、训练任务、性能查看。 查看训练结果 查看日志和性能 查看训练后的日志,训练的性能结果。 训练评测 训练性能测试 训练精度测试 使用ModelLink开发的测试工具benchmark, 开展训练、性能对比、下游任务评测、loss和下游任务对比。
  • 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址 1 llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf 2 llama2-13b https://huggingface.co/meta-llama/Llama-2-13b-chat-hf 3 llama2-70b https://huggingface.co/meta-llama/Llama-2-70b-hf https://huggingface.co/meta-llama/Llama-2-70b-chat-hf (推荐) 4 llama3 llama3-8b https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct 5 llama3-70b https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct 6 Qwen qwen-7b https://huggingface.co/Qwen/Qwen-7B-Chat 7 qwen-14b https://huggingface.co/Qwen/Qwen-14B-Chat 8 qwen-72b https://huggingface.co/Qwen/Qwen-72B-Chat 9 Qwen1.5 qwen1.5-7b https://huggingface.co/Qwen/Qwen1.5-7B-Chat 10 qwen1.5-14b https://huggingface.co/Qwen/Qwen1.5-14B-Chat 11 qwen1.5-32b https://huggingface.co/Qwen/Qwen1.5-32B-Chat 12 qwen1.5-72b https://huggingface.co/Qwen/Qwen1.5-72B-Chat 13 Yi yi-6b https://huggingface.co/01-ai/Yi-6B-Chat 14 yi-34b https://huggingface.co/01-ai/Yi-34B-Chat 15 ChatGLMv3 glm3-6b https://huggingface.co/THUDM/chatglm3-6b 16 Baichuan2 baichuan2-13b https://huggingface.co/baichuan-inc/Baichuan2-13B-Chat baichuan2-7b https://huggingface.co/baichuan-inc/Baichuan2-7B-Base/tree/main 17 Qwen2 qwen2-0.5b https://huggingface.co/Qwen/Qwen2-0.5B-Instruct 18 qwen2-1.5b https://huggingface.co/Qwen/Qwen2-1.5B-Instruct 19 qwen2-7b https://huggingface.co/Qwen/Qwen2-7B-Instruct 20 qwen2-72b https://huggingface.co/Qwen/Qwen2-72B-Instruct 21 GLMv4 glm4-9b https://huggingface.co/THUDM/glm-4-9b-chat 说明: glm4-9b模型必须使用版本4b556ad4d70c38924cb8c120adbf21a0012de6ce 22 mistral mistral-7b https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2 23 mixtral mixtral-8x7b https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1 24 llama3.1 llama3.1-8b https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct 25 llama3.1-70b https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct 26 Qwen2.5 qwen2.5-0.5b https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct 27 qwen2.5-7b https://huggingface.co/Qwen/Qwen2.5-7B-Instruct 28 qwen2.5-14b https://huggingface.co/Qwen/Qwen2.5-14B-Instruct 29 qwen2.5-32b https://huggingface.co/Qwen/Qwen2.5-32B-Instruct 30 qwen2.5-72b https://huggingface.co/Qwen/Qwen2.5-72B-Instruct 31 llama3.2 llama3.2-1b https://huggingface.co/meta-llama/Llama-3.2-1B-Instruct 32 llama3.2-3b https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct
  • 操作流程 流程图 图1 训练流程图 表2 操作任务流程说明 阶段 任务 说明 准备工作 准备资源 本教程案例是基于ModelArts Standard运行的,需要购买并开通ModelArts专属资源池和OBS桶。 准备数据 准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备权重 准备所需的权重文件。 准备代码 准备AscendFactory训练代码。 准备镜像 准备训练模型适用的容器镜像。 准备Notebook(可选) 如果用户有自定义开发的需要,比如查看和编辑代码、数据预处理、权重转换等操作,可通过Notebook环境进行,并且Notebook环境具有一定的存储空间,可与OBS中的数据相互传递。 训练 预训练/微调 介绍如何进行预训练,包括训练数据处理、超参配置、创建训练任务及性能查看。
  • 支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址 1 llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf 2 llama2-13b https://huggingface.co/meta-llama/Llama-2-13b-chat-hf 3 llama2-70b https://huggingface.co/meta-llama/Llama-2-70b-hf https://huggingface.co/meta-llama/Llama-2-70b-chat-hf (推荐) 4 llama3 llama3-8b https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct 5 llama3-70b https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct 6 Qwen qwen-7b https://huggingface.co/Qwen/Qwen-7B-Chat 7 qwen-14b https://huggingface.co/Qwen/Qwen-14B-Chat 8 qwen-72b https://huggingface.co/Qwen/Qwen-72B-Chat 9 Qwen1.5 qwen1.5-7b https://huggingface.co/Qwen/Qwen1.5-7B-Chat 10 qwen1.5-14b https://huggingface.co/Qwen/Qwen1.5-14B-Chat 11 qwen1.5-32b https://huggingface.co/Qwen/Qwen1.5-32B-Chat 12 qwen1.5-72b https://huggingface.co/Qwen/Qwen1.5-72B-Chat 13 Yi yi-6b https://huggingface.co/01-ai/Yi-6B-Chat 14 yi-34b https://huggingface.co/01-ai/Yi-34B-Chat 15 ChatGLMv3 glm3-6b https://huggingface.co/THUDM/chatglm3-6b 16 Baichuan2 baichuan2-13b https://huggingface.co/baichuan-inc/Baichuan2-13B-Chat baichuan2-7b https://huggingface.co/baichuan-inc/Baichuan2-7B-Base/tree/main 17 Qwen2 qwen2-0.5b https://huggingface.co/Qwen/Qwen2-0.5B-Instruct 18 qwen2-1.5b https://huggingface.co/Qwen/Qwen2-1.5B-Instruct 19 qwen2-7b https://huggingface.co/Qwen/Qwen2-7B-Instruct 20 qwen2-72b https://huggingface.co/Qwen/Qwen2-72B-Instruct 21 GLMv4 glm4-9b https://huggingface.co/THUDM/glm-4-9b-chat 说明: glm4-9b模型必须使用版本4b556ad4d70c38924cb8c120adbf21a0012de6ce 22 mistral mistral-7b https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2 23 mixtral mixtral-8x7b https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1 24 llama3.1 llama3.1-8b https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct 25 llama3.1-70b https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct 26 Qwen2.5 qwen2.5-0.5b https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct 27 qwen2.5-7b https://huggingface.co/Qwen/Qwen2.5-7B-Instruct 28 qwen2.5-14b https://huggingface.co/Qwen/Qwen2.5-14B-Instruct 29 qwen2.5-32b https://huggingface.co/Qwen/Qwen2.5-32B-Instruct 30 qwen2.5-72b https://huggingface.co/Qwen/Qwen2.5-72B-Instruct 31 llama3.2 llama3.2-1b https://huggingface.co/meta-llama/Llama-3.2-1B-Instruct 32 llama3.2-3b https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct
  • 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。 提示:本文档适用于仅使用OBS 对象存储服务 (Object Storage Service)作为存储的方案,OBS用于存储模型文件、训练数据、代码、日志等,提供了高可靠性的数据存储解决方案。
  • 下线模型 以下模型不再跟随版本演进,如训练以下模型可参考6.5.901版本训练文档。 Llama2/3:llama2-7b/13b/70b、llama3-8b/70b Qwen/Qwen1.5:qwen-7b/14b/72b、qwen1.5-7b/14b/32b/72b Yi:yi-6b、yi-32b BaiChuan2:baichuan2-7b、baichuan2-13b mistral-7b、falcon-11B、MiniCPM-2B、MiniCPM3-4B、glm3-6b
  • 查看性能 训练性能主要通过训练日志中的2个指标查看,吞吐量和loss收敛情况。 吞吐量(tokens/s/p):global batch size*seq_length/(总卡数*elapsed time per iteration)*1000,其global batch size(GBS)、seq_len(SEQ_LEN)为训练时设置的参数,具体参数查看表1。 loss收敛情况:日志里存在lm loss参数 ,lm loss参数随着训练迭代周期持续性减小,并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况,如图2所示。 单节点训练:训练过程中的loss直接打印在窗口上。 多节点训练:训练过程中的loss打印在最后一个节点上。 图2 Loss收敛情况(示意图)
  • 操作流程 图1 操作原理图 表2 操作任务流程说明 阶段 任务 说明 准备工作 准备资源 本教程案例是基于ModelArts Standard运行的,需要购买并开通ModelArts专属资源池和OBS桶。 准备数据 准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备权重 准备所需的权重文件。 准备代码 准备AscendFactory训练代码。 准备镜像 准备训练模型适用的容器镜像。 准备Notebook 本案例需要创建一个Notebook,以便能够通过它访问SFS Turbo服务。随后,通过Notebook将OBS中的数据上传至SFS Turbo,并对存储在SFS Turbo中的数据执行编辑操作。 训练 预训练/微调 介绍如何进行预训练,包括训练数据处理、超参配置、创建训练任务及性能查看。
  • 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。 提示:本文档适用于OBS+SFS Turbo的数据存储方案,不适用于仅OBS存储方案。通过OBS对象存储服务(Object Storage Service)与SFS Turbo文件系统联动,可以实现灵活数据管理、高性能读取等。
  • 支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址 1 llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf 2 llama2-13b https://huggingface.co/meta-llama/Llama-2-13b-chat-hf 3 llama2-70b https://huggingface.co/meta-llama/Llama-2-70b-hf https://huggingface.co/meta-llama/Llama-2-70b-chat-hf (推荐) 4 llama3 llama3-8b https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct 5 llama3-70b https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct 6 Qwen qwen-7b https://huggingface.co/Qwen/Qwen-7B-Chat 7 qwen-14b https://huggingface.co/Qwen/Qwen-14B-Chat 8 qwen-72b https://huggingface.co/Qwen/Qwen-72B-Chat 9 Qwen1.5 qwen1.5-7b https://huggingface.co/Qwen/Qwen1.5-7B-Chat 10 qwen1.5-14b https://huggingface.co/Qwen/Qwen1.5-14B-Chat 11 qwen1.5-32b https://huggingface.co/Qwen/Qwen1.5-32B-Chat 12 qwen1.5-72b https://huggingface.co/Qwen/Qwen1.5-72B-Chat 13 Yi yi-6b https://huggingface.co/01-ai/Yi-6B-Chat 14 yi-34b https://huggingface.co/01-ai/Yi-34B-Chat 15 ChatGLMv3 glm3-6b https://huggingface.co/THUDM/chatglm3-6b 16 Baichuan2 baichuan2-13b https://huggingface.co/baichuan-inc/Baichuan2-13B-Chat baichuan2-7b https://huggingface.co/baichuan-inc/Baichuan2-7B-Base/tree/main 17 Qwen2 qwen2-0.5b https://huggingface.co/Qwen/Qwen2-0.5B-Instruct 18 qwen2-1.5b https://huggingface.co/Qwen/Qwen2-1.5B-Instruct 19 qwen2-7b https://huggingface.co/Qwen/Qwen2-7B-Instruct 20 qwen2-72b https://huggingface.co/Qwen/Qwen2-72B-Instruct 21 GLMv4 glm4-9b https://huggingface.co/THUDM/glm-4-9b-chat 说明: glm4-9b模型必须使用版本4b556ad4d70c38924cb8c120adbf21a0012de6ce 22 mistral mistral-7b https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2 23 mixtral mixtral-8x7b https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1 24 llama3.1 llama3.1-8b https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct 25 llama3.1-70b https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct 26 Qwen2.5 qwen2.5-0.5b https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct 27 qwen2.5-7b https://huggingface.co/Qwen/Qwen2.5-7B-Instruct 28 qwen2.5-14b https://huggingface.co/Qwen/Qwen2.5-14B-Instruct 29 qwen2.5-32b https://huggingface.co/Qwen/Qwen2.5-32B-Instruct 30 qwen2.5-72b https://huggingface.co/Qwen/Qwen2.5-72B-Instruct 31 llama3.2 llama3.2-1b https://huggingface.co/meta-llama/Llama-3.2-1B-Instruct 32 llama3.2-3b https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct
  • 应用场景 对于访问量较大的业务,可以通过ELB设置相应的分配策略,将访问量均匀的分配到多个后端服务器处理。同时您还可以开启会话保持功能,保证同一个客户请求转发到同一个后端服务器,消除单点故障,从而提升访问效率。 此章节为您介绍对接ELB访问ClickHouse集群。将ClickHouse集群的Server节点IP添加到ELB后端服务器中,通过公网访问ClickHouse集群。 了解ELB请参见ELB产品介绍。
  • 语法 CREATE CATA LOG [IF NOT EXISTS] catalog_name PROPERTIES ("key"="value", ...); 表1 参数说明 参数 必须 默认值 说明 user 是 - 对应数据库的用户名。 password 是 - 对应数据库的密码。 jdbc_url 是 - JDBC连接串。 driver_url 是 - JDBC Driver Jar包名称。 driver_class 是 - JDBC Driver Class名称。 lower_case_table_names 否 "false" 是否以小写的形式同步jdbc外部数据源的库名和表名。 only_specified_database 否 "false" 指定是否只同步指定的database。 include_database_list 否 "" 当only_specified_database=true时,指定同步多个database,以‘,’分隔。db名称是大小写敏感的。 exclude_database_list 否 "" 当only_specified_database=true时,指定不需要同步的多个database,以‘,’分隔。db名称是大小写敏感的。 driver_url可以通过以下三种方式指定: 文件名。如mysql-connector-java-5.1.47.jar。需将Jar包预先存放在FE和BE部署目录的jdbc_drivers/目录下。系统会自动在这个目录下寻找。 本地绝对路径。如file:///path/to/mysql-connector-java-5.1.47.jar。需将Jar包预先存放在所有FE/BE节点指定的路径下。 Http地址。如:https://doris-community-test-1308700295.cos.ap-hongkong.myqcloud.com/jdbc_driver/mysql-connector-java-5.1.47.jar。系统会从这个http地址下载Driver文件。仅支持无认证的http服务。 only_specified_database: 在jdbc连接时可以指定链接到哪个database/schema,如:mysql中jdbc_url中可以指定database, pg的jdbc_url中可以指定currentSchema。 include_database_list: 仅在only_specified_database=true时生效,指定需要同步的database,以‘,’分隔,db名称是大小写敏感的。 exclude_database_list: 仅在only_specified_database=true时生效,指定不需要同步的多个database,以‘,’分隔,db名称是大小写敏感的。 当include_database_list和exclude_database_list有重合的database配置时,exclude_database_list会优先生效。 如果使用该参数时连接oracle数据库,要求使用jdbc8.jar以上版本jar包。
  • 查看步骤 创建Catalog。 CREATE CATALOG jdbc_mysql PROPERTIES ( "type"="jdbc", "user"="root", "password"="******", "jdbc_url" = "JDBC连接串", "driver_url" = "mysql-connector-java-8.0.25.jar", "driver_class" = "com.mysql.cj.jdbc.Driver" ); 查看Catalog。 show catalogs; 图1 查看Catalog 切换到创建的Catalog:switch Catalog名称。 图2 切换到创建的Catalog 查看映射过来的数据库。 show databases; 图3 查看数据库 使用数据库。 use 数据库名; 图4 使用数据库 查看数据库表。 show tables; 图5 查看数据库表
  • 续费说明 目前CloudTable 集群模式提供按需计费和包年包月计费方式。 对于按需计费方式,系统会按小时扣减费用,只要您账户上有足够余额,就可以一直使用服务。 对于包年/包月模式,您在购买时一次性付费,使用过程中不会再额外计费。包周期到期后,资源会依次进入宽限期、保留期,如果需要继续使用,请及时续费。详情请参见资源到期说明。 当您的账户余额不足导致系统扣费失败时,您的服务资源将会进入保留期,保留期内服务资源将被冻结而无法使用,但资源和数据会为您保留。 保留期内如您仍未给账户充值,则保留期到期后服务资源和数据会被删除,且无法恢复。 在保留期到期之前,您可进行账户充值操作。充值成功后,会优先扣减欠款,并同时解冻服务资源,您可以继续正常使用服务。 请参见以下指导完成自助续费,以确保服务正常使用。
  • 方式一 登录 AOM 华为云官网。 在AOM产品简介下方单击“AOM2.0控制台”,即可进入AOM 2.0服务页面。 图1 登录AOM官网 在弹出的“通知”对话框中仔细阅读从AOM 1.0切换到AOM 2.0计费方式变化的说明。 单击“授权”,然后在“云服务授权”页面中仔细阅读授权声明后,勾选“我已阅读并同意授权声明”。 单击“免费开通服务并授权”,即可免费开通AOM 2.0服务。 在页面左侧导航栏单击任意一个功能名称,如“仪表盘”,可进入该功能的操作界面。
  • GPU实例故障处理流程 GPU实例故障处理流程如图1所示,对应的操作方法如下: CES 监控事件通知:配置GPU的CES监控后会产生故障事件通知。 故障信息收集:可使用GPU故障信息收集脚本一键收集,也可参考故障信息收集执行命令行收集。 GPU实例故障分类列表:根据错误信息在故障分类列表中识别故障类型。 非硬件故障自恢复处理方法:这类问题可以根据指导自行排查恢复。 显卡故障诊断及处理方法:这类问题可以根据指导确认后联系技术支持。 联系技术支持人员:无法自恢复请提交工单联系技术支持人员获取帮助。 图1 GPU实例故障处理流程 父主题: GPU实例故障自诊断
  • 防火墙添加例外端口 CentOS 6添加防火墙例外端口。 以添加23端口为例,执行以下命令,添加防火墙例外端口:tcp协议23端口。 iptables -A INPUT -m state --state NEW -m tcp -p tcp --dport 23 -j ACCEPT 保存新配置。 service iptables save (可选)设置防火墙开机自启动。 chkconfig iptables on 可执行以下命令关闭防火墙开机自启动。 chkconfig iptables off CentOS 6启动防火墙时可能会出现"iptables"no config file"错误 ,原因是未找到配置文件iptables。解决方法如下: 新建一条规则。 iptables -P OUTPUT ACCEPT 保存配置。 service iptables save 再次启动防火墙。 service iptables start 以CentOS 7添加防火墙例外端口及防火墙常用操作。 查看防火墙状态。 systemctl status firewalld 或 firewall-cmd --state 如果防火墙关闭可以执行以下命令开启。 systemctl start firewalld 如果开启命令执行后提示“Failed to start firewalld.service: Unit is masked.”请执行以下命令后再重新执行开启防火墙的命令。systemctl unmask firewalld 重新检查防火墙状态是否打开。 firewall-cmd --state 回显信息: [root@ecs-centos7 ~]# firewall-cmd --state running 以添加23端口为例,执行以下命令,添加防火墙例外端口:tcp协议23端口。 firewall-cmd --zone=public --add-port=23/tcp --permanent 回显信息如下说明设置成功: [root@ecs-centos7 ~]# firewall-cmd --zone=public --add-port=23/tcp --permanent success 重新加载策略配置,使新配置生效。 firewall-cmd --reload 可以执行以下命令查看开启的所有端口。 firewall-cmd --list-ports [root@ecs-centos7 ~]# firewall-cmd --list-ports 23/tcp (可选)设置防火墙开机自启动。 systemctl enable firewalld.service 查看防火墙设置开机自启是否成功。 systemctl is-enabled firewalld.service;echo $? 回显信息如下说明已设置成功: [root@ecs-centos7 ~]# systemctl is-enabled firewalld.service;echo $? enabled 0 可执行以下命令关闭防火墙开机自启动。 systemctl disable firewalld.service
  • 开启或关闭防火墙 根据操作系统不同,分别执行以下命令开启或关闭防火墙。 操作系统 开启 关闭 云运维中心 CentOS 6 service iptables start service iptables stop 登录管理控制台。 打开HWC.E CS .OSOps-switch-linux-firewall.sh脚本,获取脚本内容。 说明: 也可在云运维中心HWC.ECS.OSOps-switch-windows-firewall.bat的执行脚本页面设置参数后,直接运行。 CentOS 7 systemctl start firewalld.service systemctl stop firewalld.service Ubuntu ufw enable ufw disable Debian /etc/init.d/iptables start /etc/init.d/iptables stop
  • Ubuntu 16、Debian8系列操作系统配置atop 执行以下命令,安装atop。 apt-get install -y atop 编辑配置文件,修改采样周期。 vi /etc/default/atop 修改如下配置参数,修改后保存并退出。 LOGINTERVAL默认是600,可以修改成15,单位秒。 默认atop日志保存周期为28天,不支持修改。 LOGINTERVAL=15 启动atop服务。 systemctl start atop 检查是否启动成功,active(running) 表示运行正常。 systemctl status atop atop.service - Atop advanced performance monitor Loaded: loaded (/etc/init.d/atop; bad; vendor preset: disabled) Active: active (running) atop运行会占用额外的系统和磁盘资源,您可在问题排查完成后,执行以下命令停止atop。 systemctl stop atop
  • Ubuntu 20、Debian 10系列操作系统配置atop 执行以下命令,安装atop。 apt-get install -y atop 编辑配置文件,修改采样周期。 vi /etc/default/atop 修改如下配置参数,修改后保存并退出。 LOGINTERVAL默认是600,可以修改成15,单位秒。 默认atop日志保存周期为28天,可以根据实际修改LOGGENERATIONS的值为3,单位为天。 LOGINTERVAL=15 LOGGENERATIONS=3 atop是默认启动,需重启atop服务使配置生效。 systemctl restart atop atopacct 检查是否启动成功,active(running) 表示运行正常。 systemctl status atop atopacct atop.service - Atop advanced performance monitor Loaded: loaded (/etc/init.d/atop; enable; vendor preset: enabled) Active: active (running) atopacct.service - Atop process accounting daemon Loaded: loaded (/usr/lib/systemd/system/atopacct.service; enabled; vendor preset: enabled) Active: active (running) atop运行会占用额外的系统和磁盘资源,您可在问题排查完成后,执行以下命令停止atop。 systemctl disable atop atopacct systemctl stop atop atopacct
  • Ubuntu 22/24系列操作系统配置atop 执行以下命令,安装atop。 apt-get install -y atop 编辑配置文件,修改采样周期。 vi /etc/default/atop 修改如下配置参数,修改后保存并退出。 LOGINTERVAL默认是600,可以修改成15,单位秒。 默认atop日志保存周期为28天,可以根据实际修改LOGGENERATIONS的值为3,单位为天。 LOGINTERVAL=15 LOGGENERATIONS=3 atop是默认启动,需重启atop服务使配置生效。 systemctl restart atop atopacct atop-rotate.timer 检查是否启动成功,atop atopacct是 active(running)表示运行正常,atop-rotate.timer是active(waiting) 表示运行正常。 systemctl status atop atopacct atop-rotate.timer atop.service - Atop advanced performance monitor Loaded: loaded (/usr/lib/systemd/system/atop.service; enabled; vendor preset: enabled) Active: active (running) atopacct.service - Atop process accounting daemon Loaded: loaded (/usr/lib/systemd/system/atopacct.service; enabled; vendor preset: enabled) Active: active (running) atop-rotate.timer - Daily atop restart Loaded: loaded (/usr/lib/systemd/system/atop-rotate.timer; enabled; vendor preset: enabled) Active: active (waiting) atop运行会占用额外的系统和磁盘资源,您可在问题排查完成后,执行以下命令停止atop。 systemctl disable atop atopacct atop-rotate.timer systemctl stop atop atopacct atop-rotate.timer
  • Debian 11/12系列操作系统配置atop 执行以下命令,安装atop。 apt-get install -y atop 编辑配置文件,修改采样周期。 vi /etc/default/atop 修改如下配置参数,修改后保存并退出。 LOGINTERVAL默认是600,可以修改成15,单位秒。 默认atop日志保存周期为28天,可以根据实际修改LOGGENERATIONS的值为3,单位为天。 LOGINTERVAL=15 LOGGENERATIONS=3 atop是默认启动,需重启atop服务使配置生效。 systemctl restart atop atopacct atop-rotate.timer 检查是否启动成功,atop atopacct是 active(running)表示运行正常,atop-rotate.timer是active(waiting) 表示运行正常。 systemctl status atop atopacct atop-rotate.timer atop.service - Atop advanced performance monitor Loaded: loaded (/usr/lib/systemd/system/atop.service; enabled; vendor preset: enabled) Active: active (running) atopacct.service - Atop process accounting daemon Loaded: loaded (/usr/lib/systemd/system/atopacct.service; enabled; vendor preset: enabled) Active: active (running) atop-rotate.timer - Daily atop restart Loaded: loaded (/usr/lib/systemd/system/atop-rotate.timer; enabled; vendor preset: enabled) Active: active (waiting) atop运行会占用额外的系统和磁盘资源,您可在问题排查完成后,执行以下命令停止atop。 systemctl disable atop atopacct atop-rotate.timer systemctl stop atop atopacct atop-rotate.timer
  • SUSE 15、SUSE 12系列操作系统配置atop 下载atop源码安装包。 wget https://www.atoptool.nl/download/atop-2.6.0-1.src.rpm 执行以下命令安装源码atop。 rpm -ivh atop-2.6.0-1.src.rpm 安装编译atop依赖软件包 zypper -n install rpm-build ncurses-devel zlib-devel 执行以下命令编译atop cd /usr/src/packages/SPECS rpmbuild -bb atop-2.6.0.spec 执行以下命令安装atop cd /usr/src/packages/RPMS/x86_64 rpm -ivh atop-2.6.0-1.x86_64.rpm 编辑配置文件,修改采样周期。 vi /etc/default/atop 修改如下配置参数,修改后保存并退出。 LOGINTERVAL默认是600,可以修改成15,单位秒。 默认atop日志保存周期为28天,可以根据实际修改LOGGENERATIONS的值为3,单位为天。 LOGINTERVAL=15 LOGGENERATIONS=3 atop是默认启动,需重启atop服务使配置生效。 systemctl restart atop atopacct atop-rotate.timer 检查是否启动成功,atop atopacct是 active(running)表示运行正常,atop-rotate.timer是active(waiting) 表示运行正常。 systemctl status atop atopacct atop-rotate.timer atop.service - Atop advanced performance monitor Loaded: loaded (/usr/lib/systemd/system/atop.service; enabled; vendor preset: enabled) Active: active (running) atopacct.service - Atop process accounting daemon Loaded: loaded (/usr/lib/systemd/system/atopacct.service; enabled; vendor preset: enabled) Active: active (running) atop-rotate.timer - Daily atop restart Loaded: loaded (/usr/lib/systemd/system/atop-rotate.timer; enabled; vendor preset: enabled) Active: active (waiting) atop运行会占用额外的系统和磁盘资源,您可在问题排查完成后,执行以下命令停止atop。 systemctl disable atop atopacct atop-rotate.timer systemctl stop atop atopacct atop-rotate.timer
  • Ubuntu 18、Debian 9系列操作系统配置atop 执行以下命令,安装atop。 apt-get install -y atop 编辑配置文件,修改采样周期。 vi /usr/share/atop/atop.daily 修改如下配置参数,修改后保存并退出。 LOGINTERVAL默认是600,可以修改成15,单位秒。 默认atop日志保存周期为28天,可以根据实际修改“-mtime”的值为3,单位为天。 LOGINTERVAL=15 …… ( (sleep 3; find $LOGPATH -name 'atop_*' -mtime +3 -exec rm {} \;)& ) atop是默认启动,需重启atop服务使配置生效。 systemctl restart atop atopacct 检查是否启动成功,active(running) 表示运行正常。 systemctl status atop atopacct atop.service - Atop advanced performance monitor Loaded: loaded (/etc/init.d/atop; enable; vendor preset: enabled) Active: active (running) atopacct.service - Atop process accounting daemon Loaded: loaded (/usr/lib/systemd/system/atopacct.service; enabled; vendor preset: enabled) Active: active (running) atop运行会占用额外的系统和磁盘资源,您可在问题排查完成后,执行以下命令停止atop。 systemctl disable atop atopacct systemctl stop atop atopacct
  • 分析atop日志 atop启动后,会将采集记录存放在/var/log/atop目录下的日志文件中。 执行如下命令,查看日志文件。 atop -r /var/log/atop/atop_2024XXXX atop常用命令 打开日志文件后,您可以使用以下命令筛选数据。 c:按照进程CPU使用率进行降序筛选。 m:按照进程内存使用率进行降序筛选。 d:按照进程磁盘使用率进行降序筛选。 a:按照进程资源综合使用率进行降序筛选。 n:按照进程网络使用率进行降序筛选。 t:跳转到下一个监控采集点。 T:跳转到上一个监控采集点。 b:指定时间点,格式为YYYYMMDDhhmm。 系统资源监控字段含义 下图为部分监控字段以及数值,具体数值根据采样周期和atop版本有所不同。下图仅供参考,具体数据以您实际数据为准。 图1 系统资源监控字段 主要参数说明如下: ATOP 行:主机名、信息采样日期和时间点。 PRC 行:进程整体运行情况。 #sys 及 user:内核态和用户态所占 CPU 的时间值。 #proc:进程总数。 #zombie:僵死进程的数量。 #exit:采样周期期间退出的进程数量。 CPU 行:CPU 整体(即多核 CPU 作为一个整体 CPU 资源)的使用情况。CPU 行的各字段数值相加结果为 N*100%,N 为 CPU 核数。 #sys 及 user:内核态和用户态所占 CPU 的时间比例。 #irq:CPU 被用于处理中断的时间比例。 #idle:CPU 处在完全空闲状态的时间比例。 #wait:CPU 处在进程等待磁盘 IO ,导致 CPU 空闲状态的时间比例。 CPL 行:CPU 负载情况。 #avg1、avg5 和 avg15:过去1分钟、5分钟和15分钟内运行队列中的平均进程数量。 #csw:指示上下文交换次数。 #intr:指示中断发生次数。 MEM 行:内存的使用情况。 #tot:物理内存大小。 #free:空闲的物理内存大小 #cache :用于页缓存的内存大小。 #buff:用于文件缓存的内存大小。 #slab:系统内核占用的内存大小。 SWP 行:交换空间的使用情况。 #tot:交换区总量。 #free:空闲交换空间大小。 DSK 行:磁盘使用情况,每一个磁盘设备对应一列。如果有 sdb 设备,那么增加一行 DSK 信息。 #sda:磁盘设备标识。 #busy:磁盘忙时比例。 #read 及 write:读、写请求数量。 NET 行:多列 NET 展示了网络状况,包括传输层(TCP 和 UDP)、IP 层以及各活动的网口信息。 #xxxxxi:各层或活动网口收包数目。 #xxxxxo:各层或活动网口发包数目。
  • 配置kdump操作步骤 查看是否已经安装kexec-tools。 rpm -q kexec-tools 如果没有安装,则执行下面命令安装。 yum install -y kexec-tools 开启kdump默认启动。 systemctl enable kdump 设置crashkernel参数,设置这个参数的目的是预留内存给capture kernel。 首先查看参数是否已经设置。 grep crashkernel /proc/cmdline 如果有显示,则表示已经设置,如果没有显示,则需要重新设置。 设置crashkernel,编辑/etc/default/grub文件。 GRUB_TIMEOUT=5 GRUB_DEFAULT=saved GRUB_DISABLE_SUBMENU=true GRUB_TERMINAL_OUTPUT="console" GRUB_CM DLI NE_LINUX="crashkernel=auto rd.lvm.lv=rhel00/root rd.lvm.lv=rhel00/swap rhgb quiet" GRUB_DISABLE_RECOVERY="true" 找到GRUB_CMDLINE_LINUX参数,添加crashkernel=auto,其他内容不变。 执行grub命令,使以上配置生效。 grub2-mkconfig -o /boot/grub2/grub.cfg 打开/etc/kdump.conf文件中找到“path”参数,添加以下内容。 path /var/crash 默认是保存在/var/crash目录下,如果要保存到其他目录,则改成对应的目录, 例如保存在/home/kdump下,则改成: path /home/kdump 要确保指定的路径有足够的空间保存vmcore,建议剩余空间不小于 RAM 大小;也可以保存在SAN,nfs等共享设备上。 设置转存vmcore级别。 修改/etc/kdump.conf文件,添加如下参数,如果存在则无需添加。 core_collector makedumpfile -d 31 -c -c表示压缩vmcore文件, -d表示过滤掉部分无效的内存数据,可以根据需要调整,一般31即可,31是由如下的值与计算而成。 zero pages = 1 cache pages = 2 cache private = 4 user pages = 8 free pages = 16 执行如下命令重启系统,使以上配置生效。 reboot
  • 操作场景 本节操作介绍atop和kdump的配置方法。 不同的Linux版本使用的atop工具版本不同,因此配置方法稍微有所不同。 配置atop: atop简介 atop安装前准备 CentOS 6系列操作系统配置atop CentOS 7/8、AlmaLinux、 Rocky Linux系列操作系统配置atop Ubuntu 16、Debian8系列操作系统配置atop Ubuntu 18、Debian 9系列操作系统配置atop Ubuntu 20、Debian 10系列操作系统配置atop Ubuntu 22/24系列操作系统配置atop Debian 11/12系列操作系统配置atop SUSE 15、SUSE 12系列操作系统配置atop 使用源码方式安装(适用于CentOS Stream 8/9、openEuler、EulerOS等系列操作系统) 分析atop日志 配置kdump: 配置kdump使用须知 kdump简介 配置kdump操作步骤 检查kdump配置是否生效
  • CentOS 7/8、AlmaLinux、 Rocky Linux系列操作系统配置atop 执行以下命令,安装atop。 yum install -y atop 编辑配置文件,修改采样周期。 vi /etc/default/atop 修改如下配置参数,修改后保存并退出。 LOGINTERVAL默认是600,可以修改成15,单位秒。 默认atop日志保存周期为28天,可以根据实际修改LOGGENERATIONS的值为3,单位为天。 LOGINTERVAL=15 LOGGENERATIONS=3 启动atop服务。 systemctl enable --now atop atopacct atop-rotate.timer 检查是否启动成功,atop atopacct是 active(running)表示运行正常,atop-rotate.timer是active(waiting) 表示运行正常。 systemctl status atop atopacct atop-rotate.timer atop.service - Atop advanced performance monitor Loaded: loaded (/usr/lib/systemd/system/atop.service; enabled; vendor preset: enabled) Active: active (running) atopacct.service - Atop process accounting daemon Loaded: loaded (/usr/lib/systemd/system/atopacct.service; enabled; vendor preset: enabled) Active: active (running) atop-rotate.timer - Daily atop restart Loaded: loaded (/usr/lib/systemd/system/atop-rotate.timer; enabled; vendor preset: enabled) Active: active (waiting) atop运行会占用额外的系统和磁盘资源,您可在问题排查完成后,执行以下命令停止atop。 systemctl disable atop atopacct atop-rotate.timer systemctl stop atop atopacct atop-rotate.timer
  • CentOS 6系列操作系统配置atop 执行以下命令,安装atop。 yum install -y atop 编辑配置文件,修改采样周期。 vi /etc/default/atop 修改如下配置参数,修改后保存并退出。 LOGINTERVAL默认是600,可以修改成15,单位秒。 LOGINTERVAL=15 vi /etc/logrotate.d/atop 修改如下配置参数,修改后保存并退出。 默认atop日志保存周期为40天,可以根据实际修改“-mtime”的值为3,单位为天。 postrotate /usr/bin/find /var/log/atop/ -maxdepth 1 -mount -name atop_\[0-9\]\[0-9\]\[0-9\]\[0-9\]\[0-9\]\[0-9\]\[0-9\]\[0-9\]\* -mtime +3 -exec /bin/rm {} \; endscript 启动atop服务。 service atop start 检查是否启动成功,is running 表示运行正常。 service atop status atop (pid 3170) is running atop运行会占用额外的系统和磁盘资源,您可在问题排查完成后,执行以下命令停止atop。 service atop stop
  • 配置新用户并加入远程桌面用户组 如果配置“多个用户同时登录的多用户登录”,那么在创建完新用户后需要将其加入远程桌面用户组。本小节操作介绍创建新用户并添加用户到远程桌面用户组的操作步骤。 在运行中输入lusrmgr.msc,打开本地用户和组,进行新用户创建。 图15 lusrmgr.msc 单击“用户”,在空白处右键选择新用户。 图16 选择新用户 填写新用户的“用户名”和“密码”信息,单击“创建”。 “密码”和“确认密码”需完全一致。同时,建议您根据业务需要设置密码相关安全性属性。 图17 填写新用户信息 单击“组”,双击打开Remote Desktop Users组,单击“添加”。 图18 Remote Desktop Users组 进入选择用户界面,单击“高级”。 图19 选择用户界面 在新的选择用户界面,单击“立即查找”,在下方搜索结果中选中需要远程登录的用户,并单击“确定”,完成添加,即可远程登录。 图20 选择用户 图21 添加用户 单击“确定”,添加用户到Remote Desktop Users组。 图22 确认成员信息
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全