检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Python3应用 本章节适用于MRS 3.3.0及以后版本。 操作场景 在python3程序代码完成开发后,可以在Windows环境或者上传到Linux环境进行调测,和集群业务平面网络互通时,可以直接在本地进行调测。 操作步骤 参考导入并配置HetuEngine Python3样例工
Python3应用 本章节适用于MRS 3.3.0及以后版本。 操作场景 在python3程序代码完成开发后,可以在Windows环境或者上传到Linux环境进行调测,和集群业务平面网络互通时,可以直接在本地进行调测。 操作步骤 参考导入并配置HetuEngine Python3样例工
从checkpoint恢复spark应用的限制 问题 Spark应用可以从checkpoint恢复,用于从上次任务中断处继续往下执行,以保证数据不丢失。但是,在某些情况下,从checkpoint恢复应用会失败。 回答 由于checkpoint中包含了spark应用的对象序列化信息、task执
从checkpoint恢复spark应用的限制 问题 Spark应用可以从checkpoint恢复,用于从上次任务中断处继续往下执行,以保证数据不丢失。但是,在某些情况下,从checkpoint恢复应用会失败。 回答 由于checkpoint中包含了spark应用的对象序列化信息、task执
基于Python3的Hive样例程序 功能介绍 本章节介绍如何使用Python3连接Hive执行数据分析任务。 样例代码 安全模式连接Hive前需要使用集群客户端进行认证,使用kinit命令认证相应权限的Kerberos用户,认证后执行分析任务示例在“hive-examples/
基于Python3的Hive样例程序 功能介绍 本章节介绍如何使用Python3连接Hive执行数据分析任务。 样例代码 以下分析任务示例在“hive-examples/python3-examples/pyCLI_nosec.py”文件中。 导入hive类 from pyhive
基于Python3的Hive样例程序 功能介绍 本章节介绍如何使用Python3连接Hive执行数据分析任务。 样例代码 安全模式连接Hive前需要使用集群客户端进行认证,使用kinit命令认证相应权限的Kerberos用户,认证后执行分析任务示例在“hive-examples/
B。而Kafka中定义了接收数据的阈值大小为500MB。那么此时回写数据已超出阈值。此时,会出现上述错误。 图1 应用场景 解决措施: 方式一:推荐优化Spark Streaming应用程序中定义的批次时间,降低批次时间,可避免超过Kafka定义的阈值。一般建议以5-10秒/次为宜。
设计时应避免HBase随机查找、排序的应用场景。 业务表设计建议 预分Region,使Region分布均匀,提高并发 避免过多的热点Region。根据应用场景,可考虑将时间因素引入Rowkey。 同时访问的数据尽量连续存储。同时读取的数据相邻存储;同时读取的数据存放在同一行;同时读取的数据存放在同一cell。
B。而Kafka中定义了接收数据的阈值大小为500MB。那么此时回写数据已超出阈值。此时,会出现上述错误。 图1 应用场景 解决措施: 方式一:推荐优化Spark Streaming应用程序中定义的批次时间,降低批次时间,可避免超过Kafka定义的阈值。一般建议以5-10秒/次为宜。
Python3开发环境 准备项 说明 操作系统 开发环境和运行环境:Linux系统。 安装Python3 用于开发Hive应用程序的工具,版本要求不低于3.6,最高不超过3.8。 安装setuptools Python3开发环境的基本配置,要求为47.3.1版本。 Python3开发工具的详细安装配置可参见配置Hive
Python3开发环境 准备项 说明 操作系统 开发环境和运行环境:Linux系统。 安装Python3 用于开发Hive应用程序的工具,版本要求不低于3.6,最高不超过3.8。 安装setuptools Python3开发环境的基本配置,版本要求为47.3.1。 Python3开发工具的详细安装配置可参见配置Hive
Oozie应用开发应用开发简介 Oozie简介 Oozie是一个用来管理Hadoop任务的工作流引擎,Oozie流程基于有向无环图(Directed Acyclical Graph)来定义和描述,支持多种工作流模式及流程定时触发机制。易扩展、易维护、可靠性高,与Hadoop生态系统各组件紧密结合。
决定),当内存中的Spark应用个数超过这个数值时,HistoryServer会回收最先缓存的Spark应用,同时会清理掉相应的“temp_shuffle”文件。 当用户正在查看即将被回收的Spark应用时,可能会出现找不到“temp_shuffle”文件的错误,从而导致当前页面无法访问。
决定),当内存中的Spark应用个数超过这个数值时,HistoryServer会回收最先缓存的Spark应用,同时会清理掉相应的“temp_shuffle”文件。 当用户正在查看即将被回收的Spark应用时,可能会出现找不到“temp_shuffle”文件的错误,从而导致当前页面无法访问。
配置Oozie应用安全认证 场景说明 在安全集群环境下,各个组件需要在通信之前进行相互认证,以确保通信的安全性。 用户在开发Oozie应用程序时,某些场景下需要Oozie与Hadoop、Hive等之间进行通信。那么Oozie应用程序中需要写入安全认证代码,确保Oozie程序能够正常运行。
基于Python的Hive样例程序 功能介绍 本章节介绍如何使用Python连接Hive执行数据分析任务。 样例代码 使用Python方式提交数据分析任务,参考样例程序中的“hive-examples/python-examples/pyCLI_sec.py”。该样例程序连接的集群的认证模
编译并调测Flink应用 操作场景 在程序代码完成开发后,建议您上传至Linux客户端环境中运行应用。使用Scala或Java语言开发的应用程序在Flink客户端的运行步骤是一样的。 基于YARN集群的Flink应用程序不支持在Windows环境下运行,只支持在Linux环境下运行。
配置HDFS应用安全认证 场景说明 访问安全集群环境中的服务,需要先通过Kerberos安全认证。所以HDFS应用程序中需要写入安全认证代码,确保HDFS程序能够正常运行。 安全认证有两种方式: 命令行认证: 提交HDFS应用程序运行前,在HDFS客户端执行如下命令进行认证。 kinit
准备Kudu应用安全认证 场景说明 访问安全集群环境中的服务,需要先通过Kerberos安全认证。所以Kudu应用程序中需要有安全认证代码,确保Kudu程序能够正常运行。 安全认证有两种方式: 命令行认证: 提交Kudu应用程序运行前,在Kudu客户端执行如下命令进行认证。 kinit