检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input files to process : 2 12731 [main] INFO org.apache.hadoop.mapreduce.JobSubmitter
ClickHouse集群业务规划 集群规模 建议单集群不超过256节点规模。 集群负载 对于不同业务负载的业务,需要分开集群部署,便于不同负载的业务进行资源隔离。 集群并发 由于ClickHouse单个SQL会最大化使用每个主机上的CPU/内存/IO资源,对于复杂SQL查询(复杂
equals("female"); } }).keyBy( new UserRecordSelector() ).window( TumblingEventTimeWindows.of(Time
equals("female"); } }).keyBy( new UserRecordSelector() ).window( TumblingEventTimeWindows.of(Time
配置HetuEngine物化视图的有效期与数据刷新能力 物化视图的有效期 创建物化视图的“mv_validity”字段为物化视图的有效期,HetuEngine只会使用有效期内的物化视图进行自动改写。 物化视图的数据刷新 如果需要数据定期更新,需要定时刷新物化视图,可以使用如下两种方式实现:
tWAL无法完成,则会再次提交相同的任务,在一定时间内多次提交了相同的任务,当其中某次任务执行完毕时会删除这个temp文件,所以在后来的任务执行时无法找到这个文件,故出现FileNotFoudException。需做如下调整: 当前“hbase.splitlog.manager.
使用广播变量 操作场景 Broadcast(广播)可以把数据集合分发到每一个节点上,Spark任务在执行过程中要使用这个数据集合时,就会在本地查找Broadcast过来的数据集合。如果不使用Broadcast,每次任务需要数据集合时,都会把数据序列化到任务里面,不但耗时,还使任务变得很大。
配置定时备份告警与审计信息 用户通过修改配置文件,实现定时备份FusionInsight Manager的告警信息、Manager审计信息以及所有服务的审计信息到指定的存储位置。 备份支持使用SFTP协议或FTP协议,FTP协议未加密数据可能存在安全风险,建议使用SFTP。 本章节适用于MRS
通过JDBC访问Spark SQL样例程序(Scala) 功能简介 使用自定义客户端的JDBC接口提交数据分析任务,并返回结果。 样例代码 定义SQL语句。SQL语句必须为单条语句,注意其中不能包含“;”。示例: val sqlList = new ArrayBuffer[String]
通过JDBC访问Spark SQL样例程序(Scala) 功能简介 使用自定义客户端的JDBC接口提交数据分析任务,并返回结果。 样例代码 定义SQL语句。SQL语句必须为单条语句,注意其中不能包含“;”。示例: val sqlList = new ArrayBuffer[String]
Spark从Hive读取数据再写入HBase样例程序(Java) 功能介绍 在Spark应用中,通过使用Spark调用Hive接口来操作hive表,然后把Hive表的数据经过分析后写到HBase表。 代码样例 下面代码片段仅为演示,具体代码参见:com.huawei.bigdata
subscribe(java.util.Collection<java.lang.String> topics) Topic订阅接口方法。 ConsumerRecords<K,V> poll(final Duration timeout) 请求获取消息接口方法。 父主题: Kafka常用API介绍
'[file_versions_retained]'); 参数描述 表1 参数描述 参数 描述 是否必填 table 需要查询表的表名,支持database.tablename格式 是 clean_policy 清理老版本数据文件的策略,默认KEEP_LATEST_COMMITS 否 retain_commits
接口参数说明 命令 参数 含义 oozie version 无 显示oozie版本信息 oozie job -config <arg> 指定job配置文件(job.properties)路径 -oozie <arg> 指定oozie server地址 -run 运行job -start <arg>
接口参数说明 命令 参数 含义 oozie version 无 显示oozie版本信息 oozie job -config <arg> 指定job配置文件(job.properties)路径 -oozie <arg> 指定oozie server地址 -run 运行job -start <arg>
sshd_config Subsystem sftp /usr/libexec/openssh/sftp-server 图2 修改sshd_config文件 执行以下命令重启SFTP服务。 systemctl restart sshd.service 父主题: Loader常见问题
Manager页面,选择“集群 > 服务 > Hive > 配置 > 全部配置”。 选择“MetaStore(角色) > 自定义”,对参数文件“hivemetastore-site.xml”添加自定义参数,设置“名称”为“hive.mapreduce.per.task.max.s
conf = new Configuration(); // add configuration files conf.addResource(new Path(PATH_TO_HDFS_SITE_XML)); conf
创建Bucket索引表调优 Bucket索引常用设置参数: Spark: hoodie.index.type=BUCKET hoodie.bucket.index.num.buckets=5 Flink index.type=BUCKET hoodie.bucket.index.num
serSync也不会同步没有所属用户的用户组到RangerAdmin中。 统一审计 Ranger插件支持记录审计日志,当前审计日志存储介质支持本地文件。 高可靠性 Ranger支持RangerAdmin双主,两个RangerAdmin同时提供服务,任意一个RangerAdmin故障不会影响Ranger的功能。