检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
DataFrame是一个由多个列组成的结构化的分布式数据集合,等同于关系数据库中的一张表,或者是R/Python中的data frame。DataFrame是Spark SQL中的最基本的概念,可以通过多种方式创建,例如结构化的数据集、Hive表、外部数据库或者是RDD。 Spark Streaming常用概念
部署为普通模式,则不需要配置互信。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 规划好恢复数据保存表的数据库,数据表在HDFS的保存位置,以及访问恢复数据的用户清单。 检查ClickHouse备份文件保存路径。 停止ClickHouse的上层应用。
置文件“flink-conf.yaml”中配置“jobmanager.web.port”来修改监测端口。 使用Netty和Netty路由器库来处理REST请求和解析URL。 REST API接口的执行方式是通过HTTP请求进行。 HTTP请求的格式为:http://<JobMan
置文件“flink-conf.yaml”中配置“jobmanager.web.port”来修改监测端口。 使用Netty和Netty路由器库来处理REST请求和解析URL。 REST API接口的执行方式是通过HTTP请求进行。 HTTP请求的格式为:http://<JobMan
HiveServer已从Zookeeper注销 ALM-16048 Tez或者Spark库路径不存在 ALM-16051 连接到MetaStore的session数占最大允许数的百分比超过阈值 ALM-16052 MetaStore创建表时访问元数据库时延超过阈值 ALM-16053 Hive的HQL最近5分钟平均提交时间超过阈值
DBService 数据库连接数使用率 27005 数据库连接数使用率超过阈值 可能导致上层服务无法连接DBService的数据库,影响正常业务。 90% 数据目录磁盘空间使用率 27006 数据目录磁盘空间使用率超过阈值 业务进程不可用。 当数据目录磁盘空间使用率超过90%时,数据库进入只读模
务或者HDFS操作。 图1 Hive结构 Metastore:对表,列和Partition等的元数据进行读写及更新操作,其下层为关系型数据库。 Driver:管理HQL执行的生命周期并贯穿Hive任务整个执行期间。 Compiler:编译HQL并将其转化为一系列相互依赖的Map/Reduce任务。
DataFrame是一个由多个列组成的结构化的分布式数据集合,等同于关系数据库中的一张表,或者是R/Python中的data frame。DataFrame是Spark SQL中的最基本的概念,可以通过多种方式创建,例如结构化的数据集、Hive表、外部数据库或者是RDD。 Spark Streaming常用概念
DataFrame是一个由多个列组成的结构化的分布式数据集合,等同于关系数据库中的一张表,或者是R/Python中的data frame。DataFrame是Spark SQL中的最基本的概念,可以通过多种方式创建,例如结构化的数据集、Hive表、外部数据库或者是RDD。 Spark Streaming常用概念
DataFrame是一个由多个列组成的结构化的分布式数据集合,等同于关系数据库中的一张表,或者是R/Python中的data frame。DataFrame是Spark SQL中的最基本的概念,可以通过多种方式创建,例如结构化的数据集、Hive表、外部数据库或者是RDD。 Spark Streaming常用概念
统计周期内omm进程使用率。 90 表4 集群监控指标转告警列表 服务 监控指标组名称 监控指标名称 指标含义 默认阈值 DBService 数据库 数据库连接数使用率 数据库连接数使用率统计。 90% 数据目录磁盘空间使用率 数据目录磁盘空间使用率统计。 80% Flume Agent Flume堆内存使用率
Policy”,配置以下参数并单击“Add”: Policy Name:设置策略名称,例如:test_hive。 database: 永久函数:配置要添加函数的数据库名称,例如:default。 临时函数:将“database”切换为“global”,并配置具体的函数名或设置为*。 table:切换为“u
集群未启用Ranger鉴权,需登录FusionInsight Manager授予该用户所属角色对应表的“Select授权”权限,详细操作请参考配置Hive表、列或数据库的用户权限章节。 集群启用了Ranger鉴权,需参考添加Hive的Ranger访问权限策略章节授予用户对应表的Import/Export操作权限。
default_cluster ClickHouse逻辑集群名称,保持默认值。 databaseName testdb 样例代码工程中需要创建的数据库名称,可以根据实际情况修改。 tableName testtb 样例代码工程中需要创建的表名称,可以根据实际情况修改。 batchRows 10000
Policy”,配置以下参数并单击“Add”: Policy Name:设置策略名称,例如:test_hive。 database: 永久函数:配置要添加函数的数据库名称,例如:default。 临时函数:将“database”切换为“global”,并配置具体的函数名或设置为*。 table:切换为“u
没有找到连接ID为xxx的集群与数据连接映射! RDS的实例ID不能为空! RDS的实例、数据库名、用户名和密码都不能为空! OBS的AccessKey、SecretKey、目录都不能为空! JDBC的IP、端口、数据库、用户名、密码都不能为空! 没有找到xxx可用的驱动! 数据连接的类型不匹配,
认是8。 目前推荐将该值设置为逻辑CPU核数的1.5~2倍之间。 8 物理CPU使用百分比 建议预留适量的CPU给操作系统和其他进程(数据库、HBase等)外,剩余的CPU核都分配给YARN。可以通过如下配置参数进行调整。 参数 描述 默认值 yarn.nodemanager.resource
default_cluster ClickHouse逻辑集群名称,保持默认值。 databaseName testdb 样例代码工程中需要创建的数据库名称,可以根据实际情况修改。 tableName testtb 样例代码工程中需要创建的表名称,可以根据实际情况修改。 batchRows 10000
常文件没有被清理,导致Spark读Hudi时报“xx is not a Parquet file”异常的问题。 解决Spark作业读上游读库表,excutor报错找不到该表OBS .schema目录下的文件的问题。 Hudi compaction schedule优化,根据最后一次compaction
tlist_tmp /user/loader/etl_hbase_tmp /user/oozie 固定目录 存放oozie运行时需要的依赖库,需用户手动上传 否 oozie调度失败 /user/mapred/hadoop-mapreduce-3.1.1.tar.gz 固定文件 MR分布式缓存功能使用的各jar包