检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建后的SSH隧道,通过“-D”启用动态端口转发功能。默认情况下,动态端口转发功能将启动一个SOCKS代理进程并侦听用户本地端口,端口的数据将由SSH隧道转发到集群的主管理节点。 执行如下命令配置浏览器代理。 进入本地Google Chrome浏览器客户端安装目录。 按住“shift+鼠标右键
允许使用Impala的SQL语法从Kudu tablets插入、查询、更新和删除数据。此外,还可以用JDBC或ODBC,Impala作为代理连接Kudu进行数据操作。 Impala与HBase间的关系 Impala表默认使用存储在HDFS上的数据文件,便于全表扫描的批量加载和查
原因分析 原因:由于参数设置不当,数据量大时数据处理时间过长,导致频繁发生balance,此时offset无法正常提交,导致重复消费数据。 原理:每次poll的数据处理完后才提交offset,如果poll数据后的处理时长超出了session.timeout.ms的设置时长,此时发生
只要State列不为CANCELLED,则说明作业依然在继续。这些Task有可能会重试成功,但有些Task错误,会导致作业失败。 数据备份原理介绍 备份操作是将指定表或分区的数据,直接以Doris存储的文件的形式,上传到远端仓库中进行存储。当用户提交Backup请求后,系统内部会做如下操作:
建议元数据恢复完成后再进行业务数据恢复。 对系统的影响 元数据恢复前,需要停止Flink服务,在这期间所有上层应用都会受到影响,无法正常工作。 元数据恢复后,会丢失从备份时刻到恢复时刻之间的数据。 元数据恢复后,需要重新启动Flink的上层应用。 前提条件 检查Flink元数据备份文件保存路径。
HDFS磁盘均衡任务 次要 14029 HDFS 主NameNode进入安全模式并生成新的FSimage 次要 17001 Oozie Oozie工作流执行失败 重要 17002 Oozie Oozie定时任务执行失败 重要 18001 Yarn ResourceManager主备倒换 次要
<process_name>-<SSH_USER>-<DATE>-<PID>-gc.log 垃圾回收日志。 postinstallDetail.log HDFS服务安装后启动前工作日志。 hdfs-service-check.log HDFS服务启动是否成功的检查日志。 hdfs-set-storage-policy
<process_name>-<SSH_USER>-<DATE>-<PID>-gc.log 垃圾回收日志。 postinstallDetail.log HDFS服务安装后启动前工作日志。 hdfs-service-check.log HDFS服务启动是否成功的检查日志。 hdfs-set-storage-policy
Yarn任务只读用户组。将用户加入此用户组,可获得Yarn和Mapreduce界面上任务的只读权限。 check_sec_ldap 用于内部测试主LDAP是否工作正常。用户组随机存在,每次测试时创建,测试完成后自动删除。系统内部组,仅限组件间内部使用。 compcommon 系统内部组,用于访问集群
x及之后版本支持此类型。 集群ID 集群的唯一标识,创建集群时系统自动赋值,不需要用户设置。 创建时间 显示集群创建的时间。 可用区 集群工作区域下的可用区,创建集群时设置。 Kerberos认证 登录Manager管理页面时是否启用Kerberos认证。 企业项目 集群所属的企
队列管理员:拥有在YARN集群上所管理队列的修改和查看权限。 普通用户:拥有在YARN集群上对自己提交应用的修改和查看权限。 自研超级调度器Superior Scheduler原理 Superior Scheduler是一个专门为Hadoop YARN分布式资源管理系统设计的调度引擎,是针对企业客户融合资源池,多租户的业务诉求而设计的高性能企业级调度器。
本章节指导用户在安全模式集群下通过HSConsole界面添加另一个HetuEngine数据源。 添加跨集群HetuEngine数据源步骤 获取他域HetuEngine集群的代理用户的“user.keytab”文件。 登录他域HetuEngine集群FusionInsight Manager页面。 选择“系统 > 权限
maxMbInFlight设置。 48MB Driver配置 Spark Driver可以理解为Spark提交应用的客户端,所有的代码解析工作都在这个进程中完成,因此该进程的参数尤其重要。下面将以如下顺序介绍Spark中进程的参数设置: JavaOptions:Java命令中“-D”后面的参数,可以由System
maxMbInFlight设置。 48MB Driver配置 Spark Driver可以理解为Spark提交应用的客户端,所有的代码解析工作都在这个进程中完成,因此该进程的参数尤其重要。下面将以如下顺序介绍Spark中进程的参数设置: JavaOptions:Java命令中“-D”后面的参数,可以由System
指定需要用于排序的数据块的大小。最小值为1MB,最大值为1024MB。 carbon.unsafe.working.memory.in.mb 512 指定非安全工作内存的大小。这将用于排序数据,存储列页面等。单位是MB。 数据加载所需内存: (“carbon.number.of.cores.while
g”路径下的“hbase-site.xml”、“core-site.xml”和“hdfs-site.xml”文件。 获取HBase数据源的代理用户的“user.keytab”和“krb5.conf”文件。 登录HBase数据源所在集群的FusionInsight Manager页面。
指定需要用于排序的数据块的大小。最小值为1MB,最大值为1024MB。 carbon.unsafe.working.memory.in.mb 512 指定非安全工作内存的大小。这将用于排序数据,存储列页面等。单位是MB。 数据加载所需内存: (“carbon.number.of.cores.while
份认证)。可以用于防止窃听、防止replay攻击、保护数据完整性等场合,是一种应用对称密钥体制进行密钥管理的系统。 图1 Kerberos原理架构 表1 Kerberos模块说明 模块 说明 Application Client 应用客户端,通常是需要提交任务(或者作业)的应用程序。
能够对结构化/半结构化数据进行批量分析汇总完成数据计算。提供类似SQL的Hive Query Language语言操作结构化数据,其基本原理是将HQL语言自动转换成MapReduce任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下: 海量结构化数据分析汇总。
较小值。 数据加载性能调优 数据加载性能调优与查询性能调优差异很大。跟查询性能一样,数据加载性能也取决于可达到的并行性。在数据加载情况下,工作线程的数量决定并行的单元。因此,更多的执行器就意味着更多的执行器核数,每个执行器都可以提高数据加载性能。 同时,为了得到更好的性能,可在HDFS中配置如下参数。