检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
HDFS路径:/user/userinput 图1 从OBS导入数据至HDFS 提交Spark SQL语句。 在MRS控制台选择“作业管理”,具体请参见运行Spark作业。 只有“mrs_20160907”集群处于“运行中”状态时才能提交Spark SQL语句。 输入创建表的Spark SQL语句。
目录的“conf”目录下,用于后续调测,例如“/opt/client/conf”。 准备开发用户时获取的keytab文件也放置于该目录下,主要配置文件说明如表2所示。 例如客户端软件包为“FusionInsight_Cluster_1_Services_Client.tar”,下
"FileNumber":1,"FileSize":5540} 1 row in set (0.01 sec) 可手动取消Broker Load作业状态不为“CANCELLED”或“FINISHED”的导入任务,取消时需要指定待取消导入任务的Label ,命令为: CANCEL LOAD
安装补丁前准备 安装补丁前需要手动进行以下相关检查。 检查所有节点管理平面网络是否互通 登录FusionInsight Manager界面,选择“运维 > 告警 > 告警”。 查看当前集群是否存在“ALM-12089 节点间网络互通异常”或“节点故障”等告警。 是,节点间网络不互通,请联系运维人员修复。
//堆外内存 基于Spark进行ETL计算,CPU核心 :内存比例建议>1:2,推荐1:4~1:8 上一个规则是指纯读写的资源配比,如果Spark的作业除了读写还有业务逻辑计算,该过程会导致需要内存增加,因此建议CPU核心与内存的比例大于1:2,如果逻辑比较复杂适当调大内存,这要基于实际情
Master组成。其中ResourceManager是一个全新的资源管理系统,而ApplicationMaster则负责MapReduce作业的数据切分、任务划分、资源申请和任务调度与容错等工作。 父主题: MapReduce
储;同时读取的数据存放在同一行;同时读取的数据存放在同一cell。 查询频繁属性放在Rowkey前面部分。Rowkey的设计在排序上必须与主要的查询条件契合。 离散度较好的属性作为RowKey组成部分。分析数据离散度特点以及查询场景,综合各种场景进行设计。 存储冗余信息,提高检索性能。使用二级索引,适应更多查询场景。
证。 Kerberos认证配置 客户端配置。 在Flink配置文件“flink-conf.yaml”中,增加kerberos认证相关配置(主要在“contexts”项中增加“KafkaClient”),示例如下: security.kerberos.login.keytab: /
XX/XXX_HSBroker/etc/”目录,下载“hetuserver.jks”文件,并将该文件也放置到“resources”目录下,主要配置文件说明如表3所示。 表3 配置文件 文件名称 作用 hdfs-site.xml 集群HDFS相关配置参数。 hetuserver-client
例如1小时左右生成一个Compaction计划的话,执行Compaction计划的调度任务应该至少半小时调度一次。 Compaction作业配置的资源,vcore数至少要大于等于单个分区的桶数,vcore数与内存的比例应为1:4即1个vcore配4G内存。 父主题: Bucket调优示例
可能存在以下场景,在ZooKeeper中创建的数据过大,需要大量时间与leader同步,并保存到硬盘。在这个过程中,如果ZooKeeper需要运行很长时间,则需确保没有其他监控应用程序kill ZooKeeper而判断其服务停止。 父主题: ZooKeeper常见问题
Browsers”管理Hive中的表。需要MRS集群已安装Hive。 使用查看HDFS中的目录和文件。需要MRS集群已安装HDFS。 使用查看MRS集群中所有作业。需要MRS集群已安装YARN。 使用创建的用户第一次登录Hue WebUI,需修改密码。 用户获取Hue WebUI的访问地址后,可以给
迟,因而进行不阻塞摄入的异步Compaction很有意义。 异步Compaction会进行如下两个步骤: 调度Compaction:由入湖作业完成,在这一步,Hudi扫描分区并选出待进行compaction的FileSlice,最后CompactionPlan会写入Hudi的Timeline。
input_data2.txt /tmp/input,上传数据文件。 开发思路 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 主要分为四个部分: 创建表,将日志文件数据导入到表中。 筛选女性网民,提取上网时间数据信息。 汇总每个女性上网总时间。 筛选出停留时间大于两个小时的女性网民信息。
hijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWZYX0987654321"; // 算子的主要逻辑,每秒钟向流图中注入10000个元组 public void run(SourceContext<Tuple4<Long, String
-putinput_data2.txt /tmp/input,上传数据文件。 开发思路 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 主要分为四个部分: 读取原文件数据。 筛选女性网民上网时间数据信息。 汇总每个女性上网总时间。 筛选出停留时间大于两个小时的女性网民信息。 运行前置操作
rn的组件ACL规则仍将生效),用户需通过Ranger管理界面添加策略进行资源的赋权。 Ranger的权限模型由多条权限策略组成,权限策略主要由以下几方面组成: 资源 组件所提供的可由用户访问的对象,例如HDFS的文件或文件夹、Yarn中的队列、Hive中的数据库/表/列等。 用户
GC时间不应超过task运行时间的10%,即GC time elapsed (ms)/CPU time spent (ms)<10%。 主要通过如下参数进行调整。 参数入口: 进入Yarn服务参数“全部配置”界面,在搜索框中输入参数名称。具体操作请参考修改集群服务配置参数章节。
GC时间不应超过task运行时间的10%,即GC time elapsed (ms)/CPU time spent (ms)<10%。 主要通过如下参数进行调整。 参数入口: 进入Yarn服务参数“全部配置”界面,在搜索框中输入参数名称。具体操作请参考修改集群服务配置参数章节。
t1 多个Flink作业或者insert into语句写同一张Gauss for MySQL时建议过滤回撤数据 当有多个Flink作业写同一张MySQL表时,其中一个Flink作业发送回撤数据(-D、-U)到目标表删除整行数据,再插入本次更新的数据,导致其他作业写入的字段全部丢失。