检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
<checkPointDir>为checkPoint目录。 * <topics>为Kafka中订阅的主题,多以逗号分隔。 * <brokers>为获取元数据的Kafka地址。 */ object DstreamKafkaWriterTest1 { def main(args: Array[String])
List<String> listExecScriptsNodes = new ArrayList<>(); listExecScriptsNodes.add("master_node_default_group"); listExecScriptsNodes.
submitTopology(args[0], conf, builder.createTopology()); } 部署运行及结果查看 导出本地jar包,请参见打包Strom样例工程应用。 将1中导出的本地Jar包,4中获取的配置文件和5中获取的jar包合并统一打出完整的
male,10 GuoYijun,male,5 Map阶段: 获取输入数据的一行并提取姓名信息。 查询HBase一条数据。 查询Hive一条数据。 将HBase查询结果与Hive查询结果进行拼接作为Map输出。 Reduce阶段: 获取Map输出中的最后一条数据。 将数据输出到HBase。
YuanJing,male,10 GuoYijun,male,5 Map阶段 获取输入数据的一行并提取姓名信息。 查询HBase一条数据。 查询Hive一条数据。 将HBase查询结果与Hive查询结果进行拼接作为Map输出。 Reduce阶段 获取Map输出中的最后一条数据。 将数据输出到HBase。
male,10 GuoYijun,male,5 Map阶段: 获取输入数据的一行并提取姓名信息。 查询HBase一条数据。 查询Hive一条数据。 将HBase查询结果与Hive查询结果进行拼接作为Map输出。 Reduce阶段: 获取Map输出中的最后一条数据。 将数据输出到HBase。
INSERT SELECT语句调优 操作场景 在以下几种情况下,执行INSERT...SELECT操作可以进行一定的调优操作。 查询的数据是大量的小文件。 查询的数据是较多的大文件。 在Beeline/JDBCServer模式下使用非Spark用户操作。 操作步骤 可对INSERT.
可参考如下建议优化表和数据设计: 建表时尽量按照频繁使用的过滤条件字段进行分区。 如果大部分查询场景均带有主键或主键子集的等值查询,建议使用bucket索引建表,并将查询字段作为分桶键。 查询MOR表时,定期执行Compaction操作可使查询性能有较大的提升,可参考Compaction。 集群环境调优 可
使用Hue提交Coordinator定时调度作业 操作场景 该任务指导用户通过Hue界面提交定时调度类型的作业。 前提条件 提交Coordinator任务之前需要提前配置好相关的workflow作业。 操作步骤 访问Hue WebUI,请参考访问Hue WebUI界面。 在界面左
在Spark应用程序运行节点,执行如下命令使用Spark Launcher方式提交。之后,可通过Spark WebUI查看运行情况,或通过获取指定文件查看运行结果。 java -cp $SPARK_HOME/conf:$SPARK_HOME/jars/*:SparkLauncherExample
test:为准备集群认证用户信息创建的用户名称,例如developuser。 系统域名:登录FusionInsight Manager后,选择“系统 > 权限 > 域和互信”,查看“本端域”参数,即为当前系统域名。 父主题: 准备MapReduce应用开发环境
务量大小设置对应的句柄数,建议不要给太小的值。如果用户需要对HBase和HDFS操作,建议设置较大的值,例如“32768”。 使用如下命令查看某一用户的句柄数限制。 su - user_name ulimit -n 界面会返回此用户的句柄数限制值。如下所示: 8194 父主题: 使用HDFS
当前Spark SQL执行一个查询时需要使用大量的内存,尤其是在做聚合(Aggregate)和关联(Join)操作时,此时如果内存有限的情况下就很容易出现OutOfMemoryError。有限内存下的稳定性就是确保在有限内存下依然能够正确执行相关的查询,而不出现OutOfMemoryError。
INSERT SELECT语句调优 操作场景 在以下几种情况下,执行INSERT...SELECT操作可以进行一定的调优操作。 查询的数据是大量的小文件。 查询的数据是较多的大文件。 在Beeline/JDBCServer模式下使用非Spark用户操作。 操作步骤 可对INSERT.
当前Spark SQL执行一个查询时需要使用大量的内存,尤其是在做聚合(Aggregate)和关联(Join)操作时,此时如果内存有限的情况下就很容易出现OutOfMemoryError。有限内存下的稳定性就是确保在有限内存下依然能够正确执行相关的查询,而不出现OutOfMemoryError。
node-cache-short-circuit.enable”的不同配置控制是否允许访问ECS元数据接口,从而控制是否允许触发ECS流控。 MRS集群支持通过委托获取临时AKSK访问OBS。临时AKSK通过ECS元数据接口获取。ECS元数据接口有单机器5分钟140次的流控阈值,触发流控后机器被加入黑名
所在的节点IP、端口、用户名和密码。 在FusionInsight Manager界面,选择“集群 > 服务 > IoTDB > 实例”,查看待连接的IoTDBServer所在的节点的业务IP。 RPC端口可通过登录FusionInsight Manager,选择“集群 > 服务
MrsObsCredentialsProvider:通过MRS云服务委托获取凭证。 com.obs.services.EcsObsCredentialsProvider:通过ECS云服务获取AK/SK信息。 com.obs.services.BasicObsCredentialsProvi
置保留多少天以内的归档文件,默认值30(天)。 注意事项 归档文件,没有备份,删除之后无法恢复。 系统响应 可在driver日志和客户端中查看命令运行成功或失败。 父主题: Hudi DML语法说明
call clean_data(table => 'mytable', sql=>'delete cleanData') 系统响应 可在客户端中查看查询结果。 父主题: Hudi数据管理维护