检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
'cf:cid', '1000' 开发思路 查询table1表的数据。 根据table1表数据的key值去table2表做查询。 把前两步相应的数据记录做相加操作。 把上一步骤的结果写到table2表。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在
yarn.principal=<Principal账号> 执行bin/spark-submit的命令中添加如下参数来指定认证信息。 --keytab <keytab文件路径> --principal <Principal账号> 代码认证: 通过获取客户端的principal和keytab文件在应用程序中进行认证。
在“慢查询分布”页面,用户可查看历史任务的慢查询分布情况,包括: 慢SQL统计:统计各个租户的慢查询(查询时间大于慢查询阈值)提交个数。 慢查询TOP用户请求统计列表:统计各个用户的慢查询统计明细,支持列表排序和全部导出功能。 在“慢查询列表”页面,用户可查看历史任务的慢查询列表、诊断结果和优化建议,支持导出查询结果。
送结果的处理。 Consumer重要接口 表3 Consumer重要参数 参数 描述 备注 bootstrap.servers Broker地址列表。 消费者通过此参数值,创建与Broker之间的连接。 security.protocol 安全协议类型。 消费者使用的安全协议类型
该方式仅适用于Linux操作系统,且安装了HDFS的客户端。 代码认证: 通过获取客户端的principal和keytab文件进行认证。 注意修改代码中的PRINCIPAL_NAME变量为实际使用的值。 private static final String PRNCIPAL_NAME = "hdfsDeveloper";
"obs://mrs-word/input/*" "obs://mrs-word/output/" “输入文件的路径”为OBS上存放作业输入文件的路径。 “输出文件的路径”为OBS上存放作业输出文件地址,请设置为一个不存在的目录。 父主题: 运行MRS作业
快速使用Hive进行数据分析 Hive是基于Hadoop的一个数据仓库工具,可将结构化的数据文件映射成一张数据库表,并提供类SQL的功能对数据进行分析处理,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,适合用于数据仓库的统计分析。 背景信息 假定用户开发一
SQL防御概述 当前大数据领域的SQL引擎层出不穷,在带给解决方案多样性的同时,也暴露出一定的问题,例如SQL输入语句质量良莠不齐、SQL问题难定位、大SQL语句消耗资源过多等。 低质量的SQL会对数据分析平台系统带来不可预料的冲击,影响系统的性能或者平台稳定性。 SQL防御功能仅MRS
配置HDFS详细参数。 复制解压目录下的“hosts”文件中的内容到本地hosts文件中,确保本地机器能与解压目录下“hosts”文件中所列出的各主机在网络上互通。 在本实践中,需要确保本地环境与MRS集群所在网络平面互通,通常可以通过绑定EIP的方式访问MRS集群,具体操作请参考配
参数 描述 备注 bootstrap.servers Broker地址列表。 生产者通过此参数值,创建与Broker之间的连接。 sasl.kerberos.service.name 服务名。 Kafka集群运行,所使用的Kerberos用户名(需配置为kafka)。 key.serializer
安装和配置Eclipse 用于开发Presto应用程序的工具。版本要求如下: JDK使用1.7版本,Eclipse使用3.7.1及以上版本。 JDK使用1.8版本,Eclipse使用4.3.2及以上版本。 说明: 若使用IBM JDK,请确保Eclipse中的JDK配置为IBM
Colocation(同分布)是HDFS提供的数据分布控制功能,利用HDFS Colocation接口,可以将存在关联关系或者可能进行关联操作的数据存放在相同的存储节点上。 Hive支持HDFS的Colocation功能,即在创建Hive表时,通过设置表文件分布的locator信息,可以将相关表的数据文件存放在
在Presto示例工程根目录,执行mvn install编译。 在Presto示例工程根目录,执行mvn eclipse:eclipse创建Eclipse工程。 在应用开发环境中,导入样例工程到Eclipse开发环境。 选择“File > Import > General > Existing Projects
您可以在命令行运行模式中运行help命令获取HBase的命令参数的帮助信息。 注意事项 count命令不支持条件统计,仅支持全表统计。 获取HBase replication指标的命令 通过Shell命令“status”可以获取到所有需要的指标。 查看replication source指标的命令。
慢查询的SQL语句的执行开始时间。 结束时间 慢查询的SQL语句的执行结束时间。 查询时长(s) 慢查询的SQL语句当前累计执行的时间,单位是秒。 用户 执行慢查询的SQL语句的ClickHouse用户。 客户端IP 提交该慢查询SQL语句的客户端IP。 占用的内存空间(MB) 慢查询SQL语句占用的内存大小统计,单位是MB。
初始状态下,任务1发送给队列A,此任务需要75%的集群资源。之后任务2发送到了队列B,此任务需要50%的集群资源。 任务1将会使用队列A提供的25%的集群资源,并从队列B获取的50%的集群资源。队列B保留25%的集群资源。 启用抢占任务特性,则任务1使用的资源将会被抢占。队列B会从队列A中获取25%的集群资源以满足任务2的执行。
remotenn1”值为对端集群其中一个NameNode实例的业务IP和RPC端口,设置“haclusterX.remotenn2”值为对端集群另外一个NameNode实例的业务IP和RPC端口。按照“IP:port”格式填写。 针对MRS 3.x版本集群,登录FusionInsight Manager页面,选择“集群
hsfabric实例所在节点IP 端口 HSFabric服务gateway.port端口 用户名 已创建的“人机”用户的用户名,如:admintest 密码 已创建的“人机”用户的用户密码 说明: 使用用户名密码方式登录时需要配置该参数。 未启用Kerberos认证(普通模式)的集群不填写该参数。
'/tmp/export';命令导入表会将导出的表导入到指定的表中,需注意以下两点: 如果目标集群上不存在与指定的表名相同的表,在导入表的过程中会创建该表。 如果目标集群上已存在与指定的表名相同的表,该表对应的HDFS目录下必须为空,否则导入失败。 “haclusterX”为新增的自定义参数“dfs.namenode
Impala是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。 它是一个用C++和Java编写的开源软件。 与其他Hadoop的SQL引擎相比,它拥有高性能和低延迟的特点。 背景信息 假定用户开发一个应用程序,用于管理企业中的使用A业务的用户信息,使用Impala客户端实现A业务操作流程如下: