检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
效率较低。 内存调优 CarbonData为内存调优提供了一个机制,其中数据加载会依赖于查询中需要的列。不论何时,接收到一个查询命令,将会获取到该查询中的列,并确保内存中这些列有数据加载。在该操作期间,如果达到内存的阈值,为了给查询需要的列提供内存空间,最少使用加载级别的文件将会被删除。
为Admin@123Test#$%@123。 重置后的密码必需满足当前用户密码策略,使用omm用户登录主OMS节点后,执行如下工具脚本可以获取到修改域名后的“人机”用户密码。 sh ${BIGDATA_HOME}/om-server/om/sbin/get_reset_pwd.sh
SQL功能和DataFrame的主入口。 pyspark.sql.DataFrame:是一个以命名列方式组织的分布式数据集。 pyspark.sql.HiveContext:获取存储在Hive中数据的主入口。 pyspark.sql.DataFrameStatFunctions:统计功能中一些函数。 pyspark
start time: 1494333891969 final status: FAILED tracking URL: https://9-96-101-191:8090/proxy/application_1493689105146_0052/ user: spark2x
start time: 1494333891969 final status: FAILED tracking URL: https://9-96-101-191:8090/proxy/application_1493689105146_0052/ user: spark2x
LOG.info("Status Code : " + statusCode); if (statusCode != HttpStatus.SC_OK) { LOG.info("Request failed! " + response.getStatusLine());
以实现与外部系统的集成。 几乎所有OpenTSDB功能都可通过API访问,例如查询时间序列数据,管理元数据和存储数据点。详情请参见:https://opentsdb.net/docs/build/html/api_http/index.html。 父主题: 组件介绍
1.1/hadoop-yarn/hadoop-yarn-common/yarn-default.xml MRS 3.2.0及之后版本:https://hadoop.apache.org/docs/r3.3.1/hadoop-yarn/hadoop-yarn-common/yarn-default
SQLContext:是Spark SQL功能和DataFrame的主入口。 DataFrame:是一个以命名列方式组织的分布式数据集。 HiveContext:获取存储在Hive中数据的主入口。 表6 常用的Actions方法 方法 说明 collect(): Array[Row] 返回一个数组,包含DataFrame的所有列。
SQLContext:是Spark SQL功能和DataFrame的主入口。 DataFrame:是一个以命名列方式组织的分布式数据集。 HiveContext:获取存储在Hive中数据的主入口。 表6 常用的Actions方法 方法 说明 collect(): Array[Row] 返回一个数组,包含DataFrame的所有列。
指南操作指导及样例工程开发并运行调测自己的应用程序。您也可以通过API调用完成MRS集群管理、作业执行等相关操作,您可以参考《API参考》获取详情。
具体操作可参考添加Hive的Ranger访问权限策略。 前提条件 完成Hive客户端的安装。例如安装目录为“/opt/client”。 获取一个拥有管理员权限的用户,例如“admin”。 操作步骤 MRS 3.x之前版本,Hive关联Yarn 用户如果执行insert,count,distinct,group
SQLContext:是Spark SQL功能和DataFrame的主入口。 DataFrame:是一个以命名列方式组织的分布式数据集。 HiveContext:获取存储在Hive中数据的主入口。 表6 常用的Actions方法 方法 说明 collect(): Array[Row] 返回一个数组,包含DataFrame的所有列。
SQLContext:是Spark SQL功能和DataFrame的主入口。 DataFrame:是一个以命名列方式组织的分布式数据集。 HiveContext:获取存储在Hive中数据的主入口。 表6 常用的Actions方法 方法 说明 collect(): Array[Row] 返回一个数组,包含DataFrame的所有列。
数据处理模型类似于数据块处理模型,可以把静态数据库表的一些查询操作应用在流式计算中,Spark执行标准的SQL查询,从不断增加的无边界表中获取数据。 图8 Structured Streaming无边界表 每一条查询的操作都会产生一个结果集Result Table。每一个触发间隔
on等语言进行程序开发,推荐用户使用Java语言进行Kudu应用程序开发。 Kudu采用的接口与Apache Kudu保持一致,请参考https://kudu.apache.org/apidocs/。 父主题: Kudu应用开发概述
root”,勾选“default”的“提交”和“管理”,单击“确定”保存。 说明: Hive应用开发需要到的额外的操作权限需要从系统管理员处获取。 ClickHouse 在“配置资源权限”的表格中选择“待操作集群的名称 > ClickHouse > Clickhouse Scope
并向Leader转发写请求,避免系统处理能力浪费。 离散流 Spark Streaming提供的抽象概念。表示一个连续的数据流,是从数据源获取或者通过输入流转换生成的数据流。从本质上说,一个DStream表示一系列连续的RDD。 堆内存(Heap Memory) 堆是JVM运行时
查看调测结果 ClickHouse应用程序运行完成后,可通过以下方式查看程序运行情况: 通过运行结果查看程序运行情况。 通过ClickHouse日志获取应用运行情况。 即查看当前jar文件所在目录的“logs/clickhouse-example.log”日志文件,例如“客户端安装目录/J
可以配置AES和SMS4算法进行数据的加密存储(参见加密HFile和WAL内容)。 数据传输安全性 在MRS集群中,Web通道访问支持HTTPS加密;RPC通信支持SASL认证,并可配置对称密钥的方式进行加密。 组件级别的传输加密配置如下所示: HDFS配置传输加密:请参见配置HDFS数据传输加密。