检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图5 Yarn WebUI界面 等待作业运行完成后,在OBS文件系统中指定的结果输出文件中可查看数据分析输出的结果。 图6 查看输出结果 下载“output”文件到本地并打开,可查看输出的分析结果。 a 3 and 2 batch 1 both 1 computing 2 data
参考配置MRS集群通过IAM委托对接OBS完成存算分离集群配置后,即可在HDFS客户端查看和创建OBS文件目录。 HDFS对接OBS 以客户端安装用户登录安装了HDFS客户端的节点。 执行以下命令,切换到客户端安装目录。 cd 客户端安装目录 执行以下命令配置环境变量。 source bigdata_env 如果集群
跨源复杂数据的SQL查询优化 出于管理和信息收集的需要,企业内部会存储海量数据,包括数目众多的各种数据库、数据仓库等,此时会面临以下困境:数据源种类繁多,数据集结构化混合,相关数据存放分散等,这就导致了跨源复杂查询因传输效率低,耗时长。 当前开源Spark在跨源查询时,只能对简单的f
manager_username:集群的用户。 manager_password:集群用户对应的密码(密码明文存储存在安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全)。 topic:生产消费的topic名称,默认值“example-metric1”。 isAsync:是否使用异步生产,默认值“false”。
operationUrl, String operationName) 参数:HttpClient httpCient,登录认证完成后的返回结果。 operationUrl httpGet操作对应的URL。 operationName 具体操作的名称。 sendHttpPostRequest(HttpClient
Oozie主要特点: 支持分发、聚合、选择等工作流程模式。 与Hadoop生态系统各组件紧密结合。 流程变量支持参数化。 支持流程定时触发。 自带一个Web Console,提供了流程查看、流程监控、日志查看等功能。 Oozie应用开发常见概念 流程定义文件 描述业务逻辑的XML文件,包括“workflow
通过Spark-sql创建Hudi表或者Hive表,未插入数据前,查询表统计信息为空 问题 通过spark-sql创建Hudi表或者Hive表,未插入数据之前,查询表统计信息都为空。 回答 可以通过以下两种方式生成: 手动通过analyze命令,触发统计信息收集。如果没有插入数据
ase服务的操作,会导致业务中断,请谨慎操作,同时需要关注业务侧数据积压问题。 查看HDFS服务是否正常。 登录FusionInsight Manager,选择“集群 > 服务 > HDFS”,查看“运行状态”是否为“良好”。 是,执行3。 否,执行2。 根据HDFS上报告警的相
系统域名”,例如:zookeeper/hadoop.HADOOP.COM。系统域名可登录FusionInsight Manager,选择“系统 > 权限 > 域和互信”,查看“本端域”参数值获取。; [3] zookeeper.sasl.client:如果MRS集群是安全模式,该值设置为“true”,否则设置为
ionInsight Manager界面,选择“运维 > 告警 > 告警”,等待2分钟,查看该告警是否自动恢复。 是,处理完毕。 否,执行2。 查看异常的Tablet并修复。 选中该告警,查看“附加信息”中“tabletId”的值。如果异常Tablet较多,附加信息中不能完全显示相关信息,可在Master
conf配置文件中配置项spark.beeline.principal的值。 开发思路 在default数据库下创建child表。 把“/home/data”的数据加载进child表中。 查询child表中的数据。 删除child表。 父主题: 通过JDBC访问Spark SQL的程序
点并初始化环境变量。 source /opt/client/bigdata_env 执行zkCli.sh -server 'ZooKeeper实例IP地址:ZooKeeper连接端口'命令登录ZooKeeper。 ZooKeeper连接端口通常为2181,可通过查看ZooKeep
Hive任务执行中报栈内存溢出导致任务执行失败 问题背景与现象 Hive执行查询操作时报错Error running child : java.lang.StackOverflowError,具体报错信息如下: FATAL [main] org.apache.hadoop.mapred
worker中开启profiling。通过sc.show_profiles()展示分析结果。或者在driver退出前展示分析结果。可以通过sc.dump_profiles(path) 将结果转储到磁盘中。如果一些分析结果已经手动展示,那么在Driver退出前,它们将不会再自动展示。 默认使用pyspark
WITH WITH子句定义查询子句的命名关系,可以展平嵌套查询或简化子查询语句。 例如下面的查询语句是等价的: SELECT name, maxprice FROM (SELECT name, MAX(price) AS maxprice FROM fruit GROUP BY name)
、写入到查询流程的样例工程。 OpenTSDB样例程序开发思路 编译并运行程序 指导用户将开发好的程序编译并提交运行。 调测OpenTSDB应用 查看程序运行结果 程序运行结果会写在用户指定的路径下。用户还可以通过UI查看导入数据的状态。 查看OpenTSDB应用调测结果 父主题:
定义和元数据查询。基于MRS的HCatalog功能,Hive、MapReduce开发人员能够共享元数据信息,避免中间转换和调整,能够提升数据处理的效率。 WebHCat WebHCat运行用户通过Rest API来执行Hive DDL,提交MapReduce任务,查询MapReduce任务执行结果等操作。
test_table partition(p1='a') select col1,col2,col3 from temp_table; 查询test_table表数据,返回结果中列col3的值全为NULL select * from test_table where p1='a' 新添加表分区,并插入数据
当前Spark SQL执行一个查询时需要使用大量的内存,尤其是在做聚合(Aggregate)和关联(Join)操作时,此时如果内存有限的情况下就很容易出现OutOfMemoryError。有限内存下的稳定性就是确保在有限内存下依然能够正确执行相关的查询,而不出现OutOfMemoryError。
当前Spark SQL执行一个查询时需要使用大量的内存,尤其是在做聚合(Aggregate)和关联(Join)操作时,此时如果内存有限的情况下就很容易出现OutOfMemoryError。有限内存下的稳定性就是确保在有限内存下依然能够正确执行相关的查询,而不出现OutOfMemoryError。