华为云用户手册

  • 用户自定义执行数据处理脚本修改参数说明 若用户要自定义数据处理脚本并且单独执行,同样以 llama2 为例。 方法一:用户可打开scripts/llama2/1_preprocess_data.sh脚本,将执行的python命令复制下来,修改环境变量的值,进入到 /home/ma-user/ws/llm_train/AscendSpeed/ModelLink 路径中,再执行python命令。 方法二:用户在Notebook中直接编辑scripts/llama2/1_preprocess_data.sh脚本,自定义环境变量的值,并在脚本的首行中添加 cd /home/ma-user/ws/llm_train/AscendSpeed/ModelLink 命令,随后运行该脚本。 其中环境变量详细介绍如下: 表1 数据预处理中的环境变量 环境变量 示例 参数说明 RUN_TYPE pretrain、sft、lora 数据预处理区分: 预训练场景下数据预处理,默认参数:pretrain 微调场景下数据预处理,默认:sft / lora ORIGINAL_TRAIN_DATA_PATH /home/ma-user/ws/llm_train/AscendSpeed/training_data/${用户自定义的数据集路径和名称} 原始数据集的存放路径。 TOKENIZER_PATH /home/ma-user/ws/llm_train/AscendSpeed/tokenizers/llama2-13b tokenizer的存放路径,与HF权重存放在一个文件夹下。请根据实际规划修改。 PRO CES SED_DATA_PREFIX /home/ma-user/ws/llm_train/AscendSpeed/processed_for_input/llama2-13b/data 处理后的数据集保存路径+数据集前缀 TOKENIZER_TYPE PretrainedFromHF 可选项有:['BertWordPieceLowerCase','BertWordPieceCase','GPT2BPETokenizer','PretrainedFromHF'],一般为 PretrainedFromHF 。 SEQ_LEN 4096 要处理的最大seq length。脚本会检测超出SEQ_LEN长度的数据,并打印log。
  • 预训练数据集预处理参数说明 预训练数据集预处理脚本scripts/llama2/1_preprocess_data.sh 中的具体参数如下: --input:原始数据集的存放路径。 --output-prefix:处理后的数据集保存路径+数据集名称(例如:moss-003-sft-data)。 --tokenizer-type:tokenizer的类型,可选项有['BertWordPieceLowerCase','BertWordPieceCase','GPT2BPETokenizer','PretrainedFromHF'],一般为PretrainedFromHF。 --tokenizer-name-or-path:tokenizer的存放路径,与HF权重存放在一个文件夹下。 --seq-length:要处理的最大seq length。 --workers:设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval:是一个用于设置日志输出间隔的参数,表示输出日志的频率。在训练大规模模型时,可以通过设置这个参数来控制日志的输出。 输出数据预处理结果路径: 训练完成后,以 llama2-13b 为例,输出数据路径为:/home/ma-user/ws/llm_train/AscendSpeed/processed_for_input/llama2-13b/data/pretrain/
  • 使用SmoothQuant量化 SmootQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmootQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools目录下。 代码目录如下: AutoSmoothQuant #量化工具 ├── ascend_autosmoothquant_adapter # 昇腾量化使用的算子模块 ├── autosmoothquant # 量化代码 ├── build.sh # 安装量化模块的脚本 ... 具体操作如下: 配置需要使用的NPU卡,例如:实际使用的是第1张和第2张卡,此处填写为“0,1”,以此类推。 export ASCEND_RT_VISIBLE_DEVICES=0,1 NPU卡编号可以通过命令npu-smi info查询。 执行权重转换。 cd autosmoothquant/examples/ python smoothquant_model.py --model-path /home/ma-user/llama-2-7b/ --quantize-model --generate-scale --dataset-path /data/nfs/user/val.jsonl --scale-output scales/llama2-7b.pt --model-output quantized_model/llama2-7b --per-token --per-channel 参数说明: --model-path:原始模型权重路径。 --quantize-model:体现此参数表示会生成量化模型权重。不需要生成量化模型权重时,不体现此参数 --generate-scale:体现此参数表示会生成量化系数,生成后的系数保存在--scale-output参数指定的路径下。如果有指定的量化系数,则不需此参数,直接读取--scale-input参数指定的量化系数输入路径即可。 --dataset-path:数据集路径,推荐使用:https://huggingface.co/datasets/mit-han-lab/pile-val-backup/resolve/main/val.jsonl.zst。 --scale-output:量化系数保存路径。 --scale-input:量化系数输入路径,若之前已生成过量化系数,则可指定该参数,跳过生成scale的过程。 --model-output:量化模型权重保存路径。 --smooth-strength:平滑系数,推荐先指定为0.5,后续可以根据推理效果进行调整。 --per-token:激活值量化方法,若指定则为per-token粒度量化,否则为per-tensor粒度量化。 --per-channel:权重量化方法,若指定则为per-channel粒度量化,否则为per-tensor粒度量化。 启动smoothQuant量化服务。 参考Step6 启动推理服务,启动推理服务时添加如下命令。 -q smoothquant 或者 --quantization smoothquant --dtype=float16 父主题: 推理模型量化
  • MRS 3.1.2-LTS.0.3补丁基本信息 表1 补丁基本信息 补丁号 MRS 3.1.2-LTS.0.3 发布时间 2022-12-08 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 解决的问题 MRS 3.1.2-LTS.0.3 修复问题列表: 修复log4j漏洞(CVE-2021-44228),log4j升级到2.17.2版本 包含MRS 3.1.2-LTS.0.2修复问题 补丁兼容关系 MRS 3.1.2-LTS.0.3补丁包中包含所有MRS 3.1.2-LTS版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • MRS 3.1.2-LTS.0.2补丁基本信息 表2 补丁基本信息 补丁号 MRS 3.1.2-LTS.0.2 发布时间 2022-10-31 解决的问题 MRS 3.1.2-LTS.0.2 修复问题列表: 解决异常导致Map数量和Reduce数量都为0时,中断任务问题 解决Hive向量化if语句中Output column number expected to be 0 when isRepeating报错问题 解决Hive向量化if语句中由于数据被覆盖导致数据错误和NPE问题 解决开启向量化时,str_to_map函数执行长时间异常问题 解决Hive开启向量化参数后使用split函数执行MR任务效率很低问题 解决Hive开启向量化后查询包含nvl函数和decimal(10,5)字段类型的表报错问题 解决Tez分区空目录报错,报目录不存在问题 解决MR任务提交慢问题 解决Spark2x创建UDF的jar包放到OBS路径上会查询UDF报错 解决Alluxio jar包冲突问题 解决Executor日志滚动不释放问题 解决Hive元数据库查询网络阻塞问题 解决MRS对接D CS 做缓存,缓存键一天多次被清空问题 解决CBG访问OBS概率性无权限问题 解决长时间使用客户端出现死锁问题 解决Yarn运行偶现RM主备切换问题 解决Spark SQL外表动态分区执行insert overwrite报错问题 解决周期清理任务清理.hive-staging时,查询数据库失败问题 解决NameNode在大量删除操作的时候会出现RPC请求处理慢的问题 解决Hive配置Redis缓存频繁访问表key导致Redis热键问题 解决磁盘写速率和磁盘读速率两个指标无法正常上报问题 解决查看指定时间段内的资源概况,监控数据部分缺失问题 解决NameNode退服缓存残留问题 解决Metastore监控指标缺失问题 解决认证krb_test_user失败问题 解决Yarn所有业务中断,报错Timer already cancelled问题 解决实例配置页面无单位转换问题 解决相同AZ下,扩容的节点返回的AZ有误问题 解决[YARN-10854]问题 添加自定义的超时推测机制 使hive.mapreduce.per.task.max.splits适用于Tez GetSplit的listStatus优化 适配hive submit job阶段的内存限制 Superior调度性能提升 物理资源感知特性 ORC合并文件时从文件中读取ORC列压缩属性 Hiveserver堆内存监控限制 大数据量场景,Hive分批加载元数据,提升Hiveserver容错能力 Hive支持Redis缓存连接失败重试 支持OBSA客户端数据监控上报 支持OBS流控重试机制 pms性能优化 mrs-obs-provider的缓存过期优化 优化删除分区的逻辑 Yarn的refresh node速度优化 删除无效告警 补丁兼容关系 MRS 3.1.2-LTS.0.2补丁包中包含所有MRS 3.1.2-LTS版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • 安装补丁的影响 MRS 3.1.2-LTS.0.3补丁安装后,目录“/srv/BigData/data1/nm/localdir/filecache/”下的log4j旧版本的包,需要重新提交相关的yarn作业,才会加载新的log4j的包。 MRS 3.1.2-LTS版本的补丁安装过程中会自动重启 OMS ,安装过程中将影响作业提交以及集群扩缩容等管控面集群控制功能,请选择适当的时间进行补丁安装。 MRS 3.1.2-LTS版本的补丁安装完成后需要在 FusionInsight Manager Web界面重启Flink、Hadoop、HBase、HDFS、Hive、MapReduce、Meta、Spark2x、Ranger和Yarn服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。
  • 告警解释 MRS 3.2.0及之后版本: 系统每五分钟执行一次告警检查,首先检查是否启用并正确配置了rng-tools或者haveged工具,如果没有配置,则发送故障告警。否则继续检查熵值,如果连续五次检测结果均小于100,则上报故障告警。 当检测到节点已经安装并启用了rng-tools或者haveged工具,且五次熵值检查中,至少有一次熵值大于等于100,则告警恢复。 MRS 3.1.2及之前版本: 每天零点系统检查熵值,每次检查都连续检查五次,首先检查是否启用并正确配置了rng-tools工具或者haveged工具,如果没有配置,则继续检查当前熵值,如果五次均小于100,则上报故障告警。 当检查到真随机数方式已经配置或者伪随机数方式中配置了随机数参数,或者两者均没有配置但是五次检查中,至少有一次熵值大于等于100,则告警恢复。
  • 导出HDFS数据至OBS 登录MRS管理控制台。 选择“现有集群”,选中一集群并单击集群名进入集群基本信息页面。 单击“文件管理”,进入“文件管理”页面。 选择“HDFS文件列表”。 进入数据存储目录。 单击“导出数据”,配置OBS和HDFS路径。配置OBS或者HDFS路径时,单击“浏览”并选择文件目录,然后单击“确定”。 图3 导出数据 当导出文件夹到OBS系统时,在OBS路径下,将增加一个标签文件,文件命名为“folder name_$folder$”。请确保导出的文件夹为非空文件夹,如果导出的文件夹为空文件夹,OBS无法显示该文件夹,仅生成一个命名为“folder name_$folder$”的文件。 单击“确定”。 文件上传进度可在“文件操作记录”中查看,系统将数据导入操作生成一个Distcp作业处理,也可在“作业管理”中查看作业执行状态。
  • 前提条件 如果通过MRS管理控制台操作,需要已完成 IAM 用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。 如果通过Manager界面操作,需要已登录MRS集群Manager界面,详情请参考访问MRS集群Manager。 如果队列需要清除与某个资源池的绑定关系,该资源池不能作为队列的默认资源池,需要先将队列的默认资源池更改为其他资源池,请参见配置MRS租户队列。
  • 监控指标数据转储介绍 监控数据上报功能可以将系统中采集到的监控数据写入到文本文件,并以FTP或SFTP的形式上传到指定的服务器中。用户可以在Manager界面上配置监控指标数据对接参数,使集群内各监控指标数据保存到指定的FTP服务器,与第三方系统进行对接。 FTP协议未加密数据可能存在安全风险,建议使用SFTP。转储服务器对应的弹性云服务器需要和MRS集群的Master节点在相同的VPC,且Master节点可以访问转储服务器的IP地址和指定端口。转储服务器的FTP服务正常。 Manager支持采集当前管理的集群内所有监控指标数据,采集周期有30秒、60秒和300秒三种。监控指标数据在FTP服务器保存时,会根据采集周期分别保存在不同的监控文件中。 表1 监控指标数据文件说明 监控指标数据 描述 采集周期 30s周期:默认采集周期为30s的实时指标。 60s周期:默认采集周期为60s的实时指标。 300s周期:非30s、60s采集的所有指标。 文件名格式 MRS 3.x及之后版本: metric_监控指标数据采集的周期_文件创建时间.log 如:metric_60_20160908085915.log、metric_300_20160908085613.log MRS 3.x之前版本: 集群名称_metric_监控指标数据采集的周期_文件创建时间.log 文件内容格式(以MRS 3.x版本为例) 集群ID|集群名称|显示名称|服务名称|指标ID|采集时间|采集主机@m@子指标|单位|指标值 示例: 实际的文件中不存在对应的文件格式标题。 1|xx1|Host|Host|10000413|2019/06/18 10:05:00|10-66-254-146|KB/s|309.910 1|xx1|Host|Host|10000413|2019/06/18 10:05:00|10-66-254-152|KB/s|72.870 2|xx2|Host|Host|10000413|2019/06/18 10:05:00|10-66-254-163|KB/s|100.650 第三方系统从上报的文件内容中解析出指标ID后,可以通过查询位于主备OMS节点的“FusionInsight安装路径/om-server/om/etc/om/all-shown-metric-zh_CN”指标全集文件获取指标详细信息,该文件包含了所有指标的详细信息,内容如下(以MRS 3.x版本为例): 实时指标ID,5分钟指标ID,指标名称,指标采集周期(秒),是否默认采集,指标所属服务,指标所属角色 00101,10000101,JobHistoryServer非堆内存使用量,30,false,Mapreduce,JobHistoryServer 00102,10000102,JobHistoryServer非堆内存分配量,30,false,Mapreduce,JobHistoryServer 00103,10000103,JobHistoryServer堆内存使用量,30,false,Mapreduce,JobHistoryServer 00104,10000104,JobHistoryServer堆内存分配量,30,false,Mapreduce,JobHistoryServer 00105,10000105,阻塞线程数,30,false,Mapreduce,JobHistoryServer 00106,10000106,运行线程数,30,false,Mapreduce,JobHistoryServer 00107,10000107,GC时间,30,false,Mapreduce,JobHistoryServer 00110,10000110,JobHistoryServer的CPU使用率,30,false,Mapreduce,JobHistoryServer ... 解析指标ID说明: 针对采集周期为30s/60s的指标,参考该指标说明文件的是第1列,即实时指标ID即可找到对应的指标说明。 针对采集周期为300s的指标,参考该指标说明文件对应的第2列,即5分钟指标ID即可找到对应的指标说明。 部分字段说明: 实时指标ID:指标的采集周期为30s/60s的指标ID,一个独立的指标项只可能存在30s或者60s的实时指标项。 5分钟指标ID:指标对应的5分钟(300s)的指标ID。 指标采集周期(秒):主要是针对实时指标的采集周期,可选值为30或60。 指标所属服务:指标所属的服务名名称,标明指标所属的服务类型,如HDFS、HBase等。 指标所属角色:指标所属的角色名名称,标明指标所属的实际角色类型,如JobServer、RegionServer等。
  • 配置MRS集群监控指标数据转储(MRS 2.x及之前版本) 在MRS Manager,单击“系统设置”。 在“配置”区域“监控和告警配置”下,单击“监控指标转储配置”。 表3介绍转储参数。 表3 转储参数 参数名称 参数说明 是否必选 监控指标转储开关 指定是否打开监控指标数据对接功能。 是 FTP IP地址 指定监控指标数据对接后存放监控文件的FTP服务器。 是 FTP端口 指定连接FTP服务器的端口。 是 FTP用户名 指定登录FTP服务器的用户名。 是 FTP密码 指定登录FTP服务器的密码。 是 保存路径 指定监控文件在FTP服务器保存的路径。 是 转储时间间隔(秒) 指定监控文件在FTP服务器保存的周期,单位为秒。配置完成后,系统会按照指定的时间间隔,将文件定期上传到对应的FTP服务器。 是 转储模式 指定监控文件发送时使用的协议。可选协议为“FTP”和“SFTP”。 是 SFTP服务公钥 指定FTP服务器的公共密钥,“模式”选择“SFTP”时此参数生效。建议配置公共密钥,否则可能存在安全风险。 否 单击“确定”,设置完成。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.11 发布时间 2020-12-30 解决的问题 MRS 2.1.0.11 修复问题列表: MRS Manager 解决executor/knox/os日志不回滚问题 增加executor GC日志 解决knox重启失败问题 解决节点故障提交作业失败问题 支持全链路监控 解决ResourceManager主备倒换导致作业状态不更新问题 解决部分场景下备份恢复失败问题 解决HMaster频繁出现进程故障告警问题 大数据组件 解决jobhistory内存泄漏问题 解决Hive truncate表超时失败问题 解决Hive增量任务失败后表数据文件不存在问题 解决Hive sql运行异常问题 解决安全集群创建carbon表后生成的目录hive组没权限,其他用户不能创建carbon表的问题 解决spark jdbcserver进程异常问题 MRS 2.1.0.10 修复问题列表: MRS Manager 解决安装补丁后扩容会导致capacity-schedule.xml中新增的队列配置丢失问题 回退全链路监控 大数据组件 解决spark操作hive赋权失败问题 解决不指定队列,默认提交到launcher-job队列,影响任务正常运行问题 MRS 2.1.0.9 修复问题列表: MRS Manager 解决MRS Executor内存溢出问题 优化扩容流程 解决sparkSql包含空格的情况拼接sql错误问题 解决偶现HiveSql作业提交失败问题 优化keytab文件下载的权限控制 大数据组件 解决Presto角色名称包含大写字母,权限模型未生效问题 解决Hive删除分区慢的问题 解决Spark长时间运行Token过期问题 MRS 2.1.0.8 修复问题列表: MRS Manager 解决委托访问OBS,ECS接口限流问题 MRS Manager支持多人登录 支持全链路监控 MRS 大数据组件 carbon2.0升级 解决HBASE-18484问题 MRS 2.1.0.7 修复问题列表: MRS Manager 解决DLF+Presto查询时字段中包含换行符,数据和文件显示问题 支持presto查询结果保存成一个文件 MRS 2.1.0.6 修复问题列表: MRS Manager 解决磁盘IO利用率监控数据不准确问题 解决偶现spark作业状态未刷新问题 解决作业运行失败问题 优化补丁机制 MRS大数据组件 解决HBase异常问题 解决Hive Role绑定权限卡顿问题 MRS 2.1.0.5 修复问题列表: MRS大数据组件 impala支持ObsFileSystem功能 支持MRS Manager页面以及组件原生页面超时时间可配置 解决Hive绑定权限卡顿问题 解决数据连接失败问题 MRS 2.1.0.3 修复问题列表: MRS Manager Manager executor高并发提交作业问题 MRS大数据组件 hive on tez插入数据失败问题 MRS 2.1.0.2 修复问题列表: MRS Manager nodeagent重启后不显示监控信息 长时间提交作业,manager executor进程会内存溢出 支持提交作业,manager executor可配置并发度功能 MRS manager管理面看不到Kafka新建的topic 安全集群API方式提交Spark Submit作业操作HBase表,HBase表权限控制未生效 MRS manager补丁机制优化 MRS大数据组件 Spark执行load data inpath慢 Spark建表支持列名带$字符 OBS相关问题修复 MRS 2.1.0.1 修复问题列表: MRS Manager 优化V2作业提交hive sql返回结果、解决委托token提交V2作业失败问题。 MRS大数据组件 MRS Hive解决hive server内存泄露问题:HIVE-10970、HIVE-22275。 补丁兼容关系 MRS 2.1.0.11补丁包中包含MRS 2.1.0版本发布的所有补丁内容。 已修复漏洞披露 解决Spark远程代码执行漏洞,漏洞详细请参考CVE-2020-9480
  • 退订MRS包年包月集群 登录MRS管理控制台。 在左侧导航栏中选择“现有集群”。 在需要退订的包年包月集群对应的“操作”列中,单击“退订”。 进入“退订资源”页面,确认待退订集群信息,选择退订原因,并确认退订金额和相关费用。 单击“退订”,进入“退订”页面。 确认退订信息,单击“是”提交退订申请。 退订申请提交成功后,集群状态由“运行中”更新为“删除中”,待集群删除成功后,集群状态更新为“已删除”,并且显示在“历史集群”中。
  • 参考信息 NameNode JVM参数配置规则 NameNode JVM参数“GC_OPTS”默认值为: -Xms2G -Xmx4G -XX:NewSize=128M -XX:MaxNewSize=256M -XX:MetaspaceSize=128M -XX:MaxMetaspaceSize=128M -XX:+UseConcMarkSweepGC -XX:+CMSParallelRemarkEnabled -XX:CMSInitiatingOccupancyFraction=65 -XX:+PrintGCDetails -Dsun.rmi.dgc.client.gcInterval=0x7FFFFFFFFFFFFFE -Dsun.rmi.dgc.server.gcInterval=0x7FFFFFFFFFFFFFE -XX:-OmitStackTraceInFastThrow -XX:+PrintGCDateStamps -XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=10 -XX:GCLogFileSize=1M -Djdk.tls.ephemeralDHKeySize=3072 -Djdk.tls.rejectClientInitiatedRenegotiation=true -Djava.io.tmpdir=${Bigdata_tmp_dir} NameNode文件数量和NameNode使用的内存大小成比例关系,文件对象变化时请修改默认值中的“-Xms2G -Xmx4G -XX:NewSize=128M -XX:MaxNewSize=256M”。参考值如下表所示。 表1 NameNode JVM配置 文件对象数量 参考值 10,000,000 -Xms6G -Xmx6G -XX:NewSize=512M -XX:MaxNewSize=512M 20,000,000 -Xms12G -Xmx12G -XX:NewSize=1G -XX:MaxNewSize=1G 50,000,000 -Xms32G -Xmx32G -XX:NewSize=3G -XX:MaxNewSize=3G 100,000,000 -Xms64G -Xmx64G -XX:NewSize=6G -XX:MaxNewSize=6G 200,000,000 -Xms96G -Xmx96G -XX:NewSize=9G -XX:MaxNewSize=9G 300,000,000 -Xms164G -Xmx164G -XX:NewSize=12G -XX:MaxNewSize=12G
  • 对系统的影响 已检测到JobServer任务队列中存在过多任务数(详细的任务队列使用情况,请参考本告警的附加信息字段),将导致如下影响: 当JobServer任务队列中的任务数达到队列最大值(默认为1000)时,新的任务将无法添加,将会影响用户的大数据任务提交。 在JobServer任务队列中的任务数达到队列最大值之前,JobServer队列中任务的提交速度将会恶化,如:用户已添加任务提交到Yarn组件的时间会变长,可能达到小时级别;用户新添加任务提交到Yarn组件的时间变长,可能达到小时级别。
  • 通过管理控制台添加自定义参数 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 在集群详情页,单击“组件管理”。 单击服务列表中指定的服务名称。 单击“服务配置”。 将页面右侧“基础配置”切换为“全部配置”。 图1 全部配置 在左侧导航栏定位到某个一级节点,并选择“自定义”,MRS将显示当前组件的自定义参数。 自定义参数支持服务级别与角色级别,请根据业务实际需要选择。 不支持单个角色实例添加自定义参数。 “参数文件”显示保存用户新添加的自定义参数的配置文件。每个配置文件中可能支持相同名称的开源参数,设置不同参数值后生效结果由组件加载配置文件的顺序决定。 根据配置文件与参数作用,在对应参数项所在行“参数”列输入组件支持的参数名,在“值”列输入此参数的参数值。 支持单击或,增加或删除一条自定义参数。第一次单击添加自定义参数后才支持删除操作。 修改某个参数的值后需要取消修改,可以单击恢复。 单击“保存配置”,根据界面提示保存配置。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.2 发布时间 2020-04-22 解决的问题 MRS 2.1.0.2 修复问题列表: MRS Manager nodeagent重启后不显示监控信息 长时间提交作业,manager executor进程会内存溢出 支持提交作业,manager executor可配置并发度功能 MRS manager管理面看不到Kafka新建的topic 安全集群API方式提交Spark Submit作业操作HBase表,HBase表权限控制未生效 MRS manager补丁机制优化 MRS大数据组件 Spark执行load data inpath慢 Spark建表支持列名带$字符 OBS相关问题修复 MRS 2.1.0.1 修复问题列表: MRS Manager 优化V2作业提交hive sql返回结果、解决委托token提交V2作业失败问题。 MRS大数据组件 MRS Hive解决hive server内存泄露问题:HIVE-10970、HIVE-22275。 补丁兼容关系 MRS 2.1.0.2补丁包中包含MRS 2.1.0.1补丁包的全部内容。
  • 安装补丁的影响 安装MRS 2.1.0.2补丁期间会重启MRS Manager,滚动重启Hive、Spark、HDFS、yarn、Mapreduce、Presto、HBase以及相关依赖服务,重启MRS Manager服务期间会引起服务暂时不可用,滚动重启服务不断服。 MRS 2.1.0.2补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若您根据业务场景修改过客户端配置,请重装客户端后再次修改客户端配置。
  • 创建集群时配置LakeFormation数据连接 进入购买MRS集群页面。 单击“购买集群”,进入“购买集群”页面。 在购买集群页面,选择“自定义购买”。 参考购买自定义拓扑集群进行配置并创建集群,且集群需满足表1中要求。 表1 LakeFormation数据连接参数说明 参数 参数说明 版本类型 LTS版 集群版本 选择配置对接的MRS集群版本。 当前仅MRS 3.3.0-LTS及之后版本支持在创建集群时配置LakeFormation数据连接。 组件选择 必须包含Hadoop、Ranger、Hive、Guardian、Spark(可选)、Flink(可选)等组件。 例如,配置如下图所示,不同版本集群可能存在差异,具体界面显示以实际为准。 元数据 选择“外置数据连接”,并配置以下参数: LakeFormation元数据:单击按钮开启。 LakeFormation连接实例:选择创建LakeFormation数据连接已创建的LakeFormation数据连接名称。 数据连接类型:保持默认。 例如,配置如下图所示,不同版本集群可能存在差异,具体界面显示以实际为准。 虚拟私有云 与LakeFormation数据连接所在的虚拟私有云保持一致。 子网 选择子网名称。 拓扑调整 选择“开启”,并确认Ranger组件至少添加1个PolicySync(PSC)实例(该实例部署节点需要同时包含RangerAdmin实例)、Guardian组件至少添加2个TokenSever(TS)实例。 例如,配置如下图所示,不同版本集群可能存在差异,具体界面显示以实际为准。 Kerberos认证 开启 委托 勾选“高级配置”后的“现在配置”,“委托”选择“现有委托”,并选择创建对接ECS/BMS云服务委托创建的委托。 例如,配置如下图所示,不同版本集群可能存在差异,具体界面显示以实际为准。 等待集群创建完成后,在“现有集群”页面单击已创建的MRS集群名称,在“概览”页签单击“IAM用户同步”后的“同步”,根据界面提示同步当前用户。 参考配置MRS 3.3.0-LTS版本集群配置组件存算分离、下载客户端等操作。
  • 对接OBS 以客户端安装用户登录安装了HDFS客户端的节点。 执行以下命令,切换到客户端安装目录。 cd 客户端安装目录 执行以下命令配置环境变量。 source bigdata_env 如果集群为安全模式,执行以下命令进行用户认证,该用户需具有OBS目录的读写权限。普通模式集群无需执行用户认证。 kinit HDFS组件操作用户 在HDFS命令行显式添加要访问的OBS文件系统。 例如: 使用以下命令访问OBS文件系统。 hdfs dfs -ls obs://OBS并行文件系统名称/路径 使用以下命令创建OBS文件系统下的目录: hdfs dfs -mkdir obs://OBS并行文件系统名称/hadoop 使用以下命令上传客户端节点“/opt/test.txt”文件到“obs://OBS并行文件系统名称/hadoop”路径下。 hdfs dfs -put /opt/test.txt obs://OBS并行文件系统名称/hadoop OBS文件系统打印大量日志可能导致读写性能受影响,可通过调整OBS客户端日志级别优化,日志调整方式如下: cd 客户端安装目录/HDFS/hadoop/etc/hadoop vi log4j.properties 在文件中添加OBS日志级别配置 log4j.logger.org.apache.hadoop.fs.obs=WARN log4j.logger.com.obs=WARN 图1 添加OBS日志级别
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.0.1.3 发布时间 2019-12-25 解决的问题 MRS 2.0.1.3 修复问题列表: MRS Manager 优化扩缩容逻辑,解决V1作业管理接口tcp连接残留问题 MRS大数据组件 MRS Hive 解决hiveserver内存溢出问题、存在大量小文件的情况下,MergeFile阶段非常慢问题、insert overwrite的load partition阶段出现找不到文件问题、HIVE-22373:Container重用时文件合并任务失败的问题 MRS 2.0.1.2 修复问题列表: MRS Manager 解决RM执行refreshNodes超时导致的偶现扩容失败问题 MRS 2.0.1.1 修复问题列表: MRS Manager 解决反复扩缩容导致MRS Master节点executor内存溢出问题 MRS大数据组件 MRS Presto新增Presto支持OBSFileSystem MRS Presto解决频繁打印jstack,以及日志文件太大不滚动问题 补丁兼容关系 MRS 2.0.1.3补丁包中包含MRS 2.0.1.2补丁包和MRS 2.0.1.1补丁包的全部内容。
  • YARN常用端口 表中涉及端口的协议类型均为:TCP。 配置参数 开源默认端口 定制默认端口 端口说明 yarn.resourcemanager.webapp.port 8088 26000 ResourceManager服务的Web http 端口。 yarn.resourcemanager.webapp.https.port 8090 26001 ResourceManager服务的Web https 端口。 该端口用于:安全模式下,接入Resource Manager Web应用。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 yarn.nodemanager.webapp.port 8042 26006 NodeManager Web http端口 yarn.nodemanager.webapp.https.port 8044 26010 NodeManager Web https端口。 该端口用于: 安全模式下,接入NodeManager web应用。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是
  • ClickHouse常用端口 表中涉及端口的协议类型均为:TCP和HTTP。 配置参数 开源默认端口 定制默认端口 端口说明 interserver_http_port 9009 9009 用于在ClickHouse server间通信的http端口。 interserver_https_port 9010 9010 用于在ClickHouse server间通信的https端口。 http_port 8123 8123 用于通过http连接到ClickHouse server的端口。 https_port 8443 8443 用于通过https连接到ClickHouse server的端口。 tcp_port 9000 9000 用于客户端通过TCP连接到ClickHouse server的端口。 tcp_port_secure 9440 9440 用于客户端通过TCP SSL连接到ClickHouse server的端口。 lb_tcp_port 21424 21424 ClickHouseBalancer的TCP通信端口号。 lb_http_port 21425 21425 ClickHouseBalancer的Http通信端口号。 lb_https_port 21426 21426 ClickHouseBalancer的Https通信端口号。 lb_tcp_secure_port 21428 21428 ClickHouseBalancer的TCP SSL通信端口号。
  • Doris常用端口 表中涉及端口的协议类型均为:TCP和HTTP。 配置参数 开源默认端口 定制默认端口 端口说明 http_port 8030 29980 FE服务的HTTP端口。 https_port 8050 29991 FE服务的HTTPS端口。 query_port 9030 29982 Doris FE通过MySQL协议查询连接端口。 rpc_port 9020 29981 FE服务的Thrift Server端口。 be_port 9060 29984 BE上Thrift Server的端口号,用于接收来自FE的请求。 brpc_port 8060 29987 BE上的BRPC的端口,用于各BE实例之间进行通讯连接。 heartbeat_service_port 9050 29985 BE上心跳服务端口(Thrift),用于接收来自FE的心跳。 webserver_port 8040 29986 BE上的HTTP Server的服务端口。 broker_ipc_port 8000 29990 Broker上的Thrift Server通信端口,用于接收请求。 single_replica_load_brpc_port 9070 29988 单副本数据导入功能中,Master副本和Slave副本之间通信的RPC端口。 single_replica_load_download_port 8050 29989 单副本数据导入功能中,Slave副本通过HTTP从Master副本下载数据文件的端口。
  • MapReduce常用端口 表中涉及端口的协议类型均为:TCP。 配置参数 开源默认端口 定制默认端口 端口说明 mapreduce.jobhistory.webapp.port 19888 26012 Job history服务器Web http端口。 该端口用于:查看Job History服务器的Web页面。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 mapreduce.jobhistory.port 10020 26013 Job history服务器端口。 该端口用于: 用于MapReduce客户端恢复任务的数据。 用于Job客户端获取任务报告。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 mapreduce.jobhistory.webapp.https.port 19890 26014 Job history服务器Web https端口。 该端口用于查看Job History服务器的Web页面。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是
  • Storm常用端口 表中涉及端口的协议类型均为:TCP。 配置参数 开源默认端口 定制默认端口 端口说明 nimbus.thrift.port 6627 29200 nimbus提供thrift服务 supervisor.slots.ports 6700,6701,6702,6703 29200-29499 接收由其它服务器转发过来的请求 logviewer.https.port 29248 29248 logviewer提供HTTPS服务 ui.https.port 29243 29243 Storm UI提供Https服务(ui.https.port)
  • Presto常用端口 表中涉及端口的协议类型均为:TCP。 配置参数 默认端口 端口说明 http-server.http.port 7520 presto coordinator对外提供服务的HTTP端口。 http-server.https.port 7521 presto coordinator对外提供服务的HTTPS端口。 http-server.http.port 7530 presto worker对外提供服务的HTTP端口。 http-server.https.port 7531 presto worker对外提供服务的HTTPS端口。
  • Kerberos常用端口 表中涉及端口的协议类型均为:TCP和UDP。 配置参数 默认端口 端口说明 KADMIN_PORT 21730 kerberos用户管理端口。 该端口用于: kerberos用户管理 安装时是否缺省启用:是 安全加固后是否启用:是 KPASSWD_PORT 21731 kerberos密码修改端口。 该端口用于: kerberos密码修改 安装时是否缺省启用:是 安全加固后是否启用:是 kdc_ports 21732 Kerberos服务端端口 该端口用于: 组件向Kerberos服务认证。配置集群互信可能会用到; 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是
  • Spark常用端口 表中涉及端口的协议类型均为:TCP。 配置参数 开源默认端口 定制默认端口 端口说明 hive.server2.thrift.port 22550 22550 JDBC thrift端口。 该端口用于: Spark2.1.0 CLI/JDBC与Spark2.1.0 CLI/JDBC服务器进行socket通信。 说明: 如果hive.server2.thrift.port被占用,将抛端口被占用异常。 安装时是否缺省启用:是 安全加固后是否启用:是 spark.ui.port 4040 22950 JDBC的Web UI端口 该端口用于:Web请求与JDBC Server Web UI服务器进行HTTPS/HTTP通信。 说明: 系统会根据端口的设置取值,并验证其有效性;如果无效,端口+1,直到取到有效值为止(上限16次,重试次数可以通过配置spark.port.maxRetries改变)。 安装时是否缺省启用:是 安全加固后是否启用:是 spark.history.ui.port 18080 22500 JobHistory Web UI端口 该端口用于:Web请求与Spark2.1.0 History Server间的HTTPS/HTTP通信 说明: 系统会根据端口的设置取值,并验证其有效性;如果无效,端口+1,直到取到有效值为止(上限16次,重试次数可以通过配置spark.port.maxRetries改变)。 安装时是否缺省启用:是 安全加固后是否启用:是
  • HDFS常用端口 表中涉及端口的协议类型均为:TCP。 配置参数 开源默认端口 定制默认端口 端口说明 dfs.namenode.rpc.port 9820(MRS 3.x之前版本) 8020(MRS 3.x及之后版本) 25000 NameNode RPC 端口。 该端口用于: HDFS客户端与Namenode间的通信。 Datanode与NameNode之间的连接。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 dfs.namenode.http.port 9870 25002 HDFS HTTP端口(NameNode)。 该端口用于: 点对点的NameNode检查点操作。 远程Web客户端连接NameNode UI。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 dfs.namenode.https.port 9871 25003 HDFS HTTPS端口(NameNode)。 该端口用于: 点对点的NameNode检查点操作。 远程Web客户端连接NameNode UI。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 dfs.datanode.ipc.port 9867 25008 Datanode IPC 服务器端口。 该端口用于: 客户端连接DataNode用来执行RPC操作。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 dfs.datanode.port 9866 25009 Datanode数据传输端口。 该端口用于: HDFS客户端从DataNode传输数据或传输数据到DataNode。 点对点的Datanode传输数据。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 dfs.datanode.http.port 9864 25010 Datanode HTTP端口。 该端口用于: 安全模式下,远程Web客户端连接DataNode UI。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 dfs.datanode.https.port 9865 25011 Datanode HTTPS端口。 该端口用于: 安全模式下,远程Web客户端连接DataNode UI。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 dfs.JournalNode.rpc.port 8485 25012 JournalNode RPC端口。 该端口用于: 客户端通信用于访问多种信息。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 dfs.journalnode.http.port 8480 25013 JournalNode HTTP端口。 该端口用于: 安全模式下,远程Web客户端链接JournalNode。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 dfs.journalnode.https.port 8481 25014 JournalNode HTTPS端口。 该端口用于: 安全模式下,远程Web客户端链接JournalNode。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 httpfs.http.port 14000 25018 HttpFS HTTP服务器侦听的端口。 该端口用于: 远程REST接口连接HttpFS。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是
共100000条