检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
是否需要在Spark/Spark2x客户端中启用此功能? 是,执行5。 否,操作结束。 选择“SparkResource2x > 自定义”和“JDBCServer2x > 自定义”,对参数文件“hive-site.xml”添加自定义参数,设置“名称”为“hive.allow.only
提供给各个业务模块进行分析梳理,这类业务通常有以下特点: 对执行实时性要求不高,作业执行时间在数十分钟到小时级别。 数据量巨大。 数据来源和格式多种多样。 数据处理通常由多个任务构成,对资源需要进行详细规划。 例如在环保行业中,可以将天气数据存储在OBS,定期转储到HDFS中进行
false spark.sql.uselocalFileCollect 是否将结果数据保存在本地磁盘中而不是内存里面。 优点:结果数据小数据量情况下和原生内存的方式相比性能损失可以忽略,大数据情况下(亿级数据)性能远比使用HDFS,以及原生内存方式好。 缺点:需要调优。大数据情况下建议JDBCServer
fileInputStream.close(); fileInputStream = null; } } 获取ZooKeeper的IP列表和端口、集群的认证模式、HiveServer的SASL配置、HiveServer在ZooKeeper中节点名称、客户端对服务端的发现模式、以及
用户可将自己开发的程序提交到MRS中,执行程序并获取结果,本章节指导您如何在MRS集群中提交一个SparkSql作业。 SparkSql作业用于查询和分析数据,包括SQL语句和Script脚本两种形式,如果SQL语句涉及敏感信息,也可使用脚本文件方式提交。 用户可以在MRS管理控制台在线创建一个作业并
hdfs-recover-fsimage.log NameNode元数据恢复日志。 datanode-disk-check.log 集群安装过程和使用过程中磁盘状态检测的记录日志。 hdfs-availability-check.log HDFS服务是否可用日志。 hdfs-backup-fsimage
允许例外条件 > 允许条件。 系统判断流程可参考下图所示,如果组件资源请求未匹配到Ranger中的权限策略,系统默认将拒绝访问。但是对于HDFS和Yarn,系统会将决策下放给组件自身的访问控制层继续进行判断。 例如要将一个文件夹FileA的读写权限授权给用户组groupA,但是该用户组
Manager界面,选择“运维 > 日志 > 下载”。 在“服务”中勾选“OmmServer”,单击“确定”。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
cd /opt/client source bigdata_env kinit 组件操作用户(例如developuser) 创建输入Topic和输出Topic,与样例代码中指定的Topic名称保持一致,输出Topic的清理策略设置为compact。 kafka-topics.sh --create
x调测程序。 使用集群安装用户登录集群客户端节点。 cd /opt/client source bigdata_env 创建输入Topic和输出Topic,与样例代码中指定的Topic名称保持一致,输出Topic的清理策略设置为compact。 kafka-topics.sh --create
-1,dn-3,dn-4,dn-5和dn-6中的任意三个节点上。 “/dir4”目录下文件的数据块可存放在dn-4,dn-5和dn-6。 “/dir5”目录下文件的数据块没有匹配到任何一个DataNode,会从整个集群中任意选择三个节点存放(和默认选块策略行为一致)。 “/sdir2
”,完成Topic创建。 表1 创建Topic信息 参数名称 参数描述 备注 Topic Topic的名称,只能包含英文字母、数字、中划线和下划线,且不能多于249个字符。 例如:kafka_ui Partitions Topic的分区数量,取值范围大于等于1,默认为3。 - Replication
创建一个org.apache.hadoop.hbase.rest.client.Cluster类的集群对象,通过调用集群类的add方法和REST server的集群IP和端口来添加集群。 Cluster cluster = new Cluster(); cluster.add("10.10.10
常用CLI Spark常用的CLI如下所示: spark-shell 提供了一个简单学习API的方法,类似于交互式数据分析的工具。同时支持Scala和Python两种语言。在Spark目录下,执行./bin/spark-shell即可进入Scala交互式界面从HDFS中获取数据,再操作RDD。
nonsecure-mode.local-user”为omm。 建议“yarn.nodemanager.linux-container-executor.user”和“yarn.nodemanager.container-executor.class”这两个参数都采用默认值,这样安全性更高。 父主题: Yarn企业级能力增强
xx.xx.xx的IP地址;10.168.1.0/16会匹配所有10.168.xx.xx的IP地址;如果有两个节点:10.168.10.1和10.168.10.2,则可以使用10.168.10.0/24来作为 “priority_network”的值。 父主题: Doris常见问题
权限,其他场景不涉及URL策略。 Ranger策略中global策略仅用于和Temprorary UDF Admin权限联合使用,控制UDF包的上传。 Ranger策略中的hiveservice策略仅用于和Service Admin权限联合使用,用于控制命令:kill query
RocksDB的Compaction压力过大,同时会存在“ALM-45646 RocksDB的Pending Compaction持续超过阈值”和“ALM-45647 RocksDB的Pending Compaction预估总大小持续超过阈值”告警。 Level0层SST文件数过多。 处理步骤
节。 多集群互信场景下,以符合跨域访问的用户身份,使用从其中一个manager系统中获取到的用于Kerberos安全认证的keytab文件和principal文件,以及多个Manager系统各自的客户端配置文件,可实现一次认证登录后访问调用多集群的HBase服务。 以下代码在hb
已获取连接GaussDB(DWS)数据库的IP地址、端口、数据库名称、用户名和密码。此外,操作用户必须具有GaussDB(DWS)表的读写权限。 操作步骤 准备数据,在GaussDB(DWS)集群中创建数据库和表: 登录GaussDB(DWS)管理控制台,单击DWS集群“操作”列的“登录”。