从零开始使用Spark 本章节提供从零开始使用Spark提交sparkPi作业的操作指导,sparkPi是最经典的Spark作业,它用来计算Pi(π)值。 操作步骤 准备sparkPi程序。 开源的Spark的样例程序包含多个例子,其中包含sparkPi。可以从https://archive
cache table使用指导 问题 cache table的作用是什么?cache table时需要注意哪些方面? 回答 Spark SQL可以将表cache到内存中,并且使用压缩存储来尽量减少内存压力。通过将表cache,查询可以直接从内存中读取数据,从而减少读取磁盘带来的内存开销。
安全集群中使用Python3.x对接Kafka 用户问题 通过Python3.x环境如何对接开启Kerberos认证的Kafka集群? 问题现象 客户想使用Python3.x的环境对接开启Kerberos认证的Kafka的集群。 处理步骤 登录Master节点,执行如下命令,配置华为云欧拉镜像源。
sqoop2-shell有两种获取登录认证信息的方式,第一种通过配置文件获取,具体配置项请参考使用sqoop-shell工具导入数据到HDFS、使用sqoop-shell工具导入数据到HBase;第二种方式则使用参数直接提供认证信息,这个方式有两种模式:密码模式和Kerberos认证模式。 进入交互模式命令
Service是长期存在于NodeManager进程中的一个辅助服务。通过该服务来抓取shuffle数据,减少了Executor的压力,在Executor GC的时候也不会影响其他Executor的任务运行。 操作步骤 在NodeManager中启动External shuffle Service。
快速使用Flume采集节点日志 操作场景 Flume支持将采集的日志信息导入到Kafka。 前提条件 已创建开启Kerberos认证的包含Flume、Kafka等组件的流式集群。可参考购买自定义集群。 已配置网络,使日志生成节点与流集群互通。 使用Flume客户端(MRS 3.x之前版本)
Loader使用简介 本章节适用于MRS 3.x之前版本。 使用流程 通过Loader迁移用户数据时,基本流程如下所示。 访问Hue WebUI的Loader页面。 管理Loader连接。 创建作业,选择数据源的连接以及保存数据的连接。 运行作业,完成数据迁移。 Loader页面介绍
作业SQL开发完成后,请勾选“基础参数”中的“开启CheckPoint”,“时间间隔(ms)”可设置为“60000”,“模式”可使用默认值。 单击左上角“提交”提交作业。 作业运行成功后,选择“更多 > 作业详情”可查看作业运行详情。 参考管理Kafka Topic中的消息,查看Topic并向Kafka中写入数据。
当在Filter中使用Big Double类型数值时,过滤结果与Hive不一致 现象描述 当在filter中使用更高精度的double数据类型的数值时,过滤结果没有按照所使用的filter的要求返回正确的值。 可能原因 如果filter使用更高精度的double数据类型的数值,系
Flink客户端使用实践 本节提供使用Flink运行wordcount作业的操作指导。 使用Flink客户端前提条件 MRS集群中已安装Flink组件。 集群正常运行,已安装集群客户端,例如安装目录为“/opt/hadoopclient”。以下操作的客户端目录只是举例,请根据实际安装目录修改。
快速使用Flume采集节点日志 Flume支持将采集的日志信息导入到Kafka。 前提条件 已创建开启Kerberos认证的包含Flume、Kafka等组件的流式集群。可参考购买自定义集群。 已配置网络,使日志生成节点与流集群互通。 使用Flume客户端 普通集群不需要执行2-6。
正常运行。 个数 配置数据操作的MapReduce任务中同时启动的map数量。参数值必须小于或等于“3000”。 在“3.转换”设置数据传输过程中的转换操作。 确认Loader创建的数据操作作业中,源数据的值是否满足直接使用需求而不进行转换,例如大小写转换、截取、拼接和分隔。 满足需求,请单击“下一步”。
Hive表desc描述过长导致无法完整显示 Hive表中增加分区列后再插入数据显示为NULL 集群中创建的新用户执行查询Hive操作时无权限 执行SQL提交任务到指定队列时报错 执行load data inpath命令报错 执行load data local inpath命令报错
使用Hue Hue界面中查看到未知Job在运行 使用IE浏览器在Hue中执行HQL失败 Hue WebUI界面访问失败 Hue界面无法加载HBase表 Hue中的输入框输入中文会出现混乱 Hue上执行Impala SQL查询中文报错
使用Flink Flink客户端执行命令报错“Error while parsing YAML configuration file : security.kerberos.login.keytab” Flink客户端执行命令报错“Error while parsing YAML
使用Sqoop Sqoop如何连接MySQL Sqoop读取MySQL数据到HBase时报HBaseAdmin.<init>方法找不到异常 通过Hue创建Sqoop任务将数据从HBase导入HDFS时报错 通过Sqoop从Hive导出数据到MySQL 8.0时报数据格式错误 通过sqoop
使用Hive Hive用户权限管理 Hive客户端使用实践 快速使用Hive进行数据分析 Hive数据存储及加密配置 Hive on HBase 配置Hive读取关系型数据库数据 Hive企业级能力增强 Hive性能调优 Hive运维管理 Hive常见SQL语法说明 Hive常见问题
使用Yarn Yarn用户权限管理 使用Yarn客户端提交任务 配置Container日志聚合功能 启用Yarn CGroups功能限制Container CPU使用率 Yarn企业级能力增强 Yarn性能调优 Yarn运维管理 Yarn常见问题
使用CarbonData CarbonData数据类型概述 CarbonData表用户权限说明 使用Spark客户端创建CarbonData表 CarbonData数据分析 CarbonData性能调优 CarbonData常见配置参数 CarbonData语法参考 CarbonData常见问题
使用Oozie 使用Oozie客户端提交作业 使用Hue提交Oozie作业 Oozie企业级能力增强 Oozie日志介绍 Oozie常见问题
您即将访问非华为云网站,请注意账号财产安全