检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
定义org.apache.spark.launcher.SparkLauncher类。默认提供了SparkLauncherJavaExample和SparkLauncherScalaExample示例,您需要根据实际业务应用程序修改示例代码中的传入参数。 如果您使用Java语言开发程序
test”的元数据和业务数据导出到8创建的目录下。 export table export_test to 'hdfs://haclusterX/tmp/export'; 在目标集群执行以下命令将10.a导出的表数据导入到表“import_test”的pt1和pt2分区中。 import
定义org.apache.spark.launcher.SparkLauncher类。默认提供了SparkLauncherJavaExample和SparkLauncherScalaExample示例,您需要根据实际业务应用程序修改示例代码中的传入参数。 如果您使用Java语言开发程序
Optimizer:优化器,分为逻辑优化器和物理优化器,分别对HQL生成的执行计划和MapReduce任务进行优化。 Executor:按照任务的依赖关系分别执行Map/Reduce任务。 ThriftServer:提供thrift接口,作为JDBC的服务端,并将Hive和其他应用程序集成起来。
配置Spark多租户模式 配置场景 多租户模式是将JDBCServer和租户绑定,每一个租户对应一个或多个JDBCServer,一个JDBCServer只给一个租户提供服务。不同的租户可以配置不同的Yarn队列,从而达到资源隔离。 Yarn资源不足情况下,不建议开启多租户模式。 配置描述
配置文件为准备运行环境配置文件获取的“core-site.xml”、“hbase-site.xml”和“hdfs-site.xml”。 认证文件为准备集群认证用户信息获取的keytab认证文件“user.keytab”和“krb5.conf”。 hbase-examples/hbase-example(多集群互信场景)
dt.MRSDelegationTokenProvider和com.huawei.mrs.dt.GuardianDTProvider。 com.huawei.mrs.dt.MRSDelegationTokenProvider和com.huawei.mrs.dt.GuardianDTProvider
服务”,选择“HDFS”,单击进入HDFS服务状态页面。 由于webhdfs是http访问的,需要主NameNode的IP和http端口。 单击“实例”,找到“NameNode(hacluster,主)”的主机名(host)和对应的IP。 单击“配置”,在搜索框搜索“namenode.http.port”(9870)。
rce、channel以及sink,将其拖到右侧的操作界面中并将其连接。 采用SpoolDir Source、Memory Channel和HDFS Sink,如图3所示。 图3 Flume配置工具示例 双击对应的source、channel以及sink,根据实际环境并参考表1设置对应的配置参数。
rce、channel以及sink,将其拖到右侧的操作界面中并将其连接。 采用SpoolDir Source、Memory Channel和HDFS Sink,如图3所示。 图3 Flume配置工具示例 双击对应的source、channel以及sink,根据实际环境并参考表1设置对应的配置参数。
在“告警详情”区域查看“附加信息”,获取告警附加信息。 告警附加信息中显示“CA Certificate”,使用PuTTY工具以omm用户登录主OMS管理节点,执行3。 告警附加信息中显示“HA root Certificate”,查看“定位信息”获取告警所在节点主机名,使用PuTTY工具以omm用户登录该主机,执行4。
服务”,选择“HDFS”,单击进入HDFS服务状态页面。 由于webhdfs是http访问的,需要主NameNode的IP和http端口。 单击“实例”,找到“NameNode(hacluster,主)”的主机名(host)和对应的IP。 单击“配置”,在搜索框搜索“namenode.http.port”(9870)。
在“告警详情”区域查看“附加信息”,获取告警附加信息。 告警附加信息中显示“CA Certificate”,使用PuTTY工具以omm用户登录主OMS管理节点,执行3。 告警附加信息中显示“HA root Certificate”,查看“定位信息”获取告警所在节点主机名,使用PuTTY工具以omm用户登录该主机,执行4。
urce、channel以及sink,将其拖到右侧的操作界面中并将其连接。 采用Taildir Source、Memory Channel和HDFS Sink,如图3所示。 图3 Flume配置工具示例 双击对应的Source、Channel以及Sink,根据实际环境并参考表1设置对应的配置参数。
操作场景 该任务指导用户使用Loader将文件从HDFS导入到ClickHouse。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HDFS目录和数据。 ClickHouse相关表已创建,并确保用户已授权访问作业执行时操作该表的权限。
“作业类型”选择“SparkSubmit”,并配置其他作业信息。 图1 添加Spark作业 表1 作业配置信息 参数 描述 示例 作业名称 作业名称,只能由字母、数字、中划线和下划线组成,并且长度为1~64个字符。 spark_job 执行程序路径 待执行程序包地址,可直接手动输入地址路径,也可单击“HDFS”或者“OBS”选择文件。
操作场景 该任务指导用户使用Loader将文件从HDFS导入到ClickHouse。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HDFS目录和数据。 ClickHouse相关表已创建,并确保用户已授权访问作业执行时操作该表的权限。
否,执行8。 查看NameNode和DataNode之间的网络情况。 以root用户登录管理页面上存在且处于故障状态DataNode的业务平面IP节点,用户密码为安装前用户自定义,请咨询系统管理员,执行ping NameNode的IP地址命令以检查DataNode和NameNode之间的网络是否异常。
方案架构 Bulkload是HBase提供的一个数据导入工具,它可以将数据批量地导入到HBase表中,直接写入底层数据文件和WAL日志,从而显著提升了数据加载的速度和效率。 BulkLoad方式调用MapReduce的job直接将数据输出成HBase table内部的存储格式的文件
er。 “用户组”:加入“developgroup”和“hadoop”用户组,设置主组为“developgroup”。 若用户需要对接Kafka,则需创建具有Flink和Kafka组件的混合集群,或者为拥有Flink组件的集群和拥有Kafka组件的集群配置跨集群互信,并将创建的F