检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
这个问题的原因是拷贝任务运行时所需的内存超过了客户端设置的内存上限(默认为128MB)。可以通过修改“<客户端安装路径>/HDFS/component_env”中的“CLIENT_GC_OPTS”来修改客户端的内存上限。例如,需要设置该内存上限为1GB,则设置: CLIENT_GC_OPTS="-Xmx1G"
据,然后手动将历史数据导入物化视图。如果不指定的话,容易导致无法采用统一条件将历史数据导入物化视图,从而出现数据重复导入的情况。比如,可以设置更新点,该时间点之前的数据使用INSERT的方式手动加载旧数据。 在建表语句中加入,WHERE { 时间字段(如Date)}>= toDate
下载客户端”,“选择客户端类型”设置为“仅配置文件”,单击“确定”,等待客户端文件包生成后根据浏览器提示下载客户端到本地并解压。 MRS 3.3.0及之后版本,登录FusionInsight Manager页面,在“主页”右上方单击“下载客户端”,“选择客户端类型”设置为“仅配置文件”,单击
600秒,如果导入的源文件无法在规定时间内完成导入,可以在Stream Load请求中设置单独的超时时间,或调整“stream_load_default_timeout_second”参数值设置全局的默认超时时间。 streaming_load_max_mb 表示Stream L
5000 参数设置应遵循: rebalance.max.retries * rebalance.backoff.ms > zookeeper.session.timeout.ms 网络异常。 在hosts文件中没有配置主机名和IP的对应关系,导致使用主机名进行访问时,无法获取信息。
本地环境使用开发工具下载依赖的jar包前,需要确认以下信息。 确认本地环境网络正常。 打开浏览器访问:华为提供开源镜像站(网址为https://mirrors.huaweicloud.com/),查看网站是否能正常访问。如果访问异常,请先开通本地网络。 确认当前开发工具是否开启代理。下载jar包前需要确保开发工具代理关闭。
各主机在网络上互通。 在本实践中,需要确保本地环境与MRS集群所在网络平面互通,通常可以通过绑定EIP的方式访问MRS集群,具体操作请参考配置Windows通过EIP访问集群HBase。 如果本地开发环境与MRS集群内节点网络不通,也可以将样例工程编译后,将jar包上传至集群内运行,具体操作可参考调测HBase应用。
file,Parquet,Avro,SequenceFile和RCFile。 压缩编解码器:Snappy,GZIP,Deflate,BZIP。 常见的数据访问接口包括: JDBC驱动程序。 ODBC驱动程序。 Hue beeswax和Impala查询UI。 Impala-shell命令行接口。 支持Kerberos身份认证。
properties文件,每次更新都会导致对应实例进程中出现新的线程,造成线程泄漏问题 解决作业管理提交Spark作业写obs时偶现403问题 解决作业管理提交Spark访问HBase作业失败问题 解决作业管理提交作业后,HDFS上mrs/mrsjob/目录下存在大量application子目录未清理的问题 解
高吞吐、高性能、低时延的实时流处理引擎,能够提供毫秒级时延处理能力。 丰富的状态管理 流处理应用需要在一定时间内存储所接收到的事件或中间结果,以供后续某个时间点访问并进行后续处理。Flink提供了丰富的状态管理相关的特性,包括: 多种基础状态类型:Flink提供了多种不同数据结构的状态支持,如Valu
本地盘不支持扩容。 系统盘不支持扩容。 仅支持集群节点创建时默认挂载的数据盘完整扩容云硬盘(EVS)容量、磁盘分区和文件系统。 云硬盘所挂载的云服务器状态必须为“运行中”、云硬盘状态必须为“正在使用中”或“可用”才支持扩容。 数据盘扩容(一键扩容) 当集群版本为MRS 3.1.0(须安装3
用户登录FusionInsight Manager。 选择“集群 > 服务 > Flink”,在“Flink WebUI”右侧,单击链接,访问Flink的WebUI。 单击“作业管理”进入作业管理页面。 找到待调优的并处于非运行中的作业,在“操作”列单击“开发”进入作业开发界面。
key上的不同过滤器参数。例如示例中三个COUNT DISTINCT都在user_id列上。Flink可以只使用一个共享状态实例,而不是三个状态实例,以减少状态访问和状态大小,在某些工作负载下可以获得显著的性能提升。 拆分distinct聚合优化聚合中数据倾斜 通过两阶段聚合能消除常规的数据倾斜,但是
User and Host:User为3中配置互信的用户,参数配置格式为:运行SSH任务的用户@运行SSH任务的节点的IP地址。例如该配置项的值可设置为:root@x.x.x.x。 Ssh command:提交作业的具体命令。 单击Oozie编辑器右上角的。 保存前如果需要修改作业名称(默认为“My
User and Host:User为3中配置互信的用户,参数配置格式为:运行SSH任务的用户@运行SSH任务的节点的IP地址。例如该配置项的值可设置为:root@x.x.x.x。 Ssh command:提交作业的具体命令。 单击Oozie编辑器右上角的。 保存前如果需要修改作业名称(默认为“My
protection”配置项的值保持一致。 远端备份至HDFS,不支持HDFS加密目录。 如果数据要备份至OBS中,需要当前集群已对接OBS,并具有访问OBS的权限。 根据业务需要,规划备份任务的类型、周期、备份对象、备份目录等策略规格。 备份ClickHouse业务数据 在FusionInsight
Streaming性能优化建议 设置合理的批处理时间(batchDuration)。 设置合理的数据接收并行度。 设置多个Receiver接收数据。 设置合理的Receiver阻塞时间。 设置合理的数据处理并行度。 使用Kryo系列化。 内存调优。 设置持久化级别减少GC开销。 使用
er的数量。 建议保持默认设置,默认值为“0.5”。 RegionServer hbase.regionserver.msginterval RegionServer与HMaster进行消息传输的时间间隔。 调大此参数可以减轻HMaster压力,建议设置为15s。 父主题: HBase性能调优
在CDM集群中选择“作业管理”的“表/文件迁移”页签。 在迁移作业的“操作”列选择“更多 > 配置定时任务”。 开启定时执行功能,根据具体业务需求设置重复周期,并设置有效期的结束时间为所有业务割接到新集群之后的时间。 图5 配置定时任务 父主题: 数据迁移
nimbus.task.launch.secs和supervisor.worker.start.timeout.secs这两个参数分别代表nimbus端和supervisor端对于拓扑启动的超时容忍时间,一般nimbus.task.launch.secs的值要大于等于supervisor