检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为keytab文件和krb5.conf文件。具体使用方法在样例代码的“README.md”中会有详细说明。 安全认证主要采用代码认证方式。支持Oracle JAVA平台和IBM JAVA平台。 以下代码在“com.huawei.bigdata.hbase.examples”包的“TestMain”类中。
HDFS > 实例”获取;NameNode RPC端口可进入到HDFS服务配置页面搜索“dfs.namenode.rpc.port”参数获取,不支持通过Manager修改。 修改后参数值例如:“10.1.1.1:9820”和“10.1.1.2:9820”。 保存配置并在概览页面选择“更多
输出:Hive表 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 Hive文件存储格式 配置Hive表文件的存储格式(目前支持四种格式:CSV、ORC、RC和PARQUET)。 说明: PARQUET格式是一种列式存储格式,PARQUET要求Loader的输出字段名和Hive表中的字段名保持一致。
输出:SparkSQL表 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 Spark文件存储格式 配置SparkSQL表文件的存储格式(目前支持四种格式:CSV、ORC、RC和PARQUET)。 说明: PARQUET格式是一种列式存储格式,PARQUET要求Loader的输出字段
输出:Hive表 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 Hive文件存储格式 配置Hive表文件的存储格式(目前支持四种格式:CSV、ORC、RC和PARQUET)。 说明: PARQUET格式是一种列式存储格式,PARQUET要求Loader的输出字段名和Hive表中的字段名保持一致。
[format_as] [properties] file_path format_as properties format_as:表示指定导出格式,支持CSV、PARQUET、CSV_WITH_NAMES、CSV_WITH_NAMES_AND_TYPES、ORC,默认为CSV。 示例 导出到HDFS
输出:SparkSQL表 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 Spark文件存储格式 配置SparkSQL表文件的存储格式(目前支持四种格式:CSV、ORC、RC和PARQUET)。 说明: PARQUET格式是一种列式存储格式,PARQUET要求Loader的输出字段
以root用户登录告警所在主机,用户密码为安装前用户自定义,请咨询系统管理员。 执行命令ethtool 网口名称,查看当前网口速率最大值Speed。 对于虚拟机环境,通过命令可能无法查询到网口速率,建议直接联系系统管理确认网口速率是否满足需求。 若网络读吞吐率超过阈值,直接联系网络管理员,提升网口速率。
以root用户登录告警所在主机,用户密码为安装前用户自定义,请咨询系统管理员。 执行命令ethtool 网口名称,查看当前网口速率最大值Speed。 对于虚拟机环境,通过命令可能无法查询到网口速率,建议直接联系系统管理确认网口速率是否满足需求。 若网络写吞吐率超过阈值,直接联系网络管理员,提升网口速率。
pyspark.sql.DataFrameStatFunctions:DataFrame中统计功能的函数,可以计算列之间的方差,样本协方差等。 RDD上支持两种类型的操作:transformation和action,这两种类型的常用方法如表1和表2。 表1 Transformation 方法 说明
的数据写入到新的文件。在查询时,所有被标记删除的数据都会在文件级别被过滤,读取出来的数据是最新的数据,消除了读时合并中数据聚合的过程,并且支持多种谓词的下推,因此在聚合查询场景下能带来较大的性能提升。 Duplicate模型 数据既没有主键,也没有聚合需求时,可以使用Duplic
hadoop.hdfs.server.namenode.ha.ObserverReadProxyProvider,可使用从NameNode支持读的特性。 org.apache.hadoop.hdfs.server.namenode.ha.AdaptiveFailoverProxyProvider
sources/”路径下获取。 keytab和krb5.conf文件获取方法请参考准备MRS应用开发用户。 安全认证主要采用代码认证方式。支持Oracle JAVA平台和IBM JAVA平台。 以下代码在“com.huawei.bigdata.hbase.examples”包的“TestMain”类中。
hadoop.hdfs.server.namenode.ha.ObserverReadProxyProvider,可使用从NameNode支持读的特性。 org.apache.hadoop.hdfs.server.namenode.ha.AdaptiveFailoverProxyProvider
XXX,C2 = XXX,C3 = 数值范围”。 多个OR条件查询 例如,为C1、C2和C3创建组合索引。 仅对索引列首个字段进行过滤时(支持范围过滤),使用索引可提高查询性能。 Filter_Condition(IndexCol1)OR Filter_Condition(IndexCol1)OR
stgreSQL、Oracle等)。 本指导中导出的Hive表元数据即存储在关系型数据库中的Hive表的描述信息。 业界主流大数据发行版均支持Sqoop的安装,如果是自建的社区版大数据集群,可下载社区版Sqoop进行安装。借助Sqoop来解耦导出的元数据与关系型数据库的强依赖,将
指定当前的用户名,长度为3~32个字符,可包含数字、字母、下划线(_)、中划线(-)和空格。 “用户名”不能与集群各节点所有操作系统用户名相同,否则此用户无法正常使用。 不支持创建两个名称相同但大小写不同的用户。例如已创建用户“User1”,无法创建用户“user1”。使用“User1”时请输入正确的用户名。 用户类型
xx:21088 Hive MetaStore的URL,格式为“thrift://<Hive MetaStore的IP地址>:<端口号>”,支持多个值,以逗号分隔。 hive.metastore.sasl.enabled true MetaStore的管理权限开关。值为“true”。
动添加“-XX: MaxMetaspaceSize”并将值设置成为“-Xmx”大小的1/8。单击“保存”,单击“确定”。 JDK1.8不再支持MaxPermSize。 Oozie的GC参数配置建议: 建议将“-XX:MaxMetaspaceSize”值设置成为“-Xmx”大小的1
ardinality_max_dictionary_size参数控制,默认8192)。 示例 CREATE TABLE test_codecs ON CLUSTER default_cluster ( `a` String, `a_low_card` LowCardinality(String)