检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SI Hadoop Catalog方式不支持在创建数据库和创建表时指定Location。 如果使用Hadoop Catalog,需要设置操作用户具有3中配置的“spark.sql.catalog.local.warehouse”路径的写和执行权限。 Hive Catalog方式 spark-sql
-test下面的文件夹test_obs_orc的文件列表。 cd 客户端安装目录 source bigdata_env kinit 组件操作用户(集群未开启Kerberos认证请跳过该操作) hadoop fs -ls "obs://obs-test/test_obs_orc"
Table)与分布式表 (Distributed Table)的概念。一张本地表等同于一份数据的分片。而分布式表本身不存储任何数据,它是本地表的访问代理,其作用类似分库中间件。借助分布式表,能够代理访问多个数据分片,从而实现分布式查询。 ClickHouse应用场景 ClickHouse是Click
ces_ClientConfig\Storm\config”,获取相关配置文件。 主要配置文件说明如表2所示。 表2 配置文件 文件名称 作用 storm.yaml 配置Storm集群信息。 streaming-site.xml 配置Storm详细参数。 在应用开发过程中,如需在
数值名称 描述 设定要求 baseTaskCount 任务总量基数,只有当应用的task总数(map端与reduce端之和)不小于该值时配置才会起作用。 不能为空且大于零。 taskStep 任务增量步进,与memoryStep共同决定内存调整量。 不能为空且大于零。 memoryStep
nion等累加起来。 列式存储 在StarRocks中,表数据按列存储。物理上,一列数据会经过分块编码、压缩等操作,然后持久化存储到非易失设备上。但在逻辑上,一列数据可以看成是由相同类型的元素构成的一个数组, 一行数据的所有列值在各自的数组中按照列顺序排列,即拥有相同的数组下标。
<port>表示在NameNode上配置的RPC端口。 只有在“ipc.<port> .backoff.enable”为“true”时,响应时间backoff功能才会起作用。 父主题: HDFS性能调优
Yarn日志介绍 日志描述 Yarn相关日志的默认存储路径如下: ResourceManager:“/var/log/Bigdata/yarn/rm”(运行日志),“/var/log/Bigdata/audit/yarn/rm”(审计日志) NodeManager:“/var/l
<port>表示在NameNode上配置的RPC端口。 只有在“ipc.<port> .backoff.enable”为“true”时,响应时间backoff功能才会起作用。 父主题: HDFS性能调优
从服务端拷贝如下文件至jar包(样例代码导出的jar包可参考在Linux环境中调测HDFS应用)同目录的conf目录下。 表1 配置文件 文件名称 作用 获取地址 core-site.xml 配置HDFS详细参数。 ${HADOOP_HOME}/etc/hadoop/core-site.xml
DELETE 命令功能 DELETE命令从Hudi表中删除记录。 命令格式 DELETE from tableIdentifier [ WHERE boolExpression] 参数描述 表1 DELETE参数 参数 描述 tableIdentifier 在其中执行删除操作的Hudi表的名称。
技术支持 MRS服务是租户完全可控的半托管云服务,为用户提供一站式企业级大数据平台,用户可以在MRS集群上轻松运行Hadoop、Hive、Spark、HBase、Kafka、Flink等大数据组件,帮助企业快速构建海量数据信息处理系统,并通过对海量信息数据实时与非实时的分析挖掘,发现全新价值点和企业商机。
ces_ClientConfig\Storm\config”,获取相关配置文件。 主要配置文件说明如表2所示。 表2 配置文件 文件名称 作用 storm.yaml 配置Storm集群信息。 user.keytab 对于Kerberos安全认证提供用户信息。 krb5.conf Kerberos
求的场景,可以使用自己定义的聚合函数作为combineByKey的参数来实现。 distinct(): RDD[T] => RDD[T],作用是去除重复元素的算子。其处理过程代码如下: map(x => (x, null)).reduceByKey((x, y) => x, numPartitions)
换到客户端安装目录并认证用户。 cd /opt/client source bigdata_env kinit HetuEngine组件操作用户 (普通模式集群跳过) 执行以下命令,登录数据源的catalog。 hetu-cli --catalog 数据源名称 --schema 数据库名
MapReduce日志介绍 日志描述 日志默认存储路径: JobhistoryServer:“/var/log/Bigdata/mapreduce/jobhistory”(运行日志),“/var/log/Bigdata/audit/mapreduce/jobhistory”(审计日志)
txt文件上传至此目录。 在Linux系统HDFS客户端使用命令hadoop fs -mkdir /tmp/input(hdfs dfs命令有同样的作用),创建对应目录。 在Linux系统HDFS客户端使用命令hadoop fs -putlog1.txt /tmp/input,上传数据文件。
10003(kafka) 解决办法 MRS Manager界面操作: 登录MRS Manager。 选择“系统设置 > 用户管理”。 在操作用户对应的“操作”列,单击“修改”。 为用户加入kafkaadmin组。 图1 为用户加入kafkaadmin组 通过命令id查询用户组信息。
换到客户端安装目录并认证用户。 cd /opt/client source bigdata_env kinit HetuEngine组件操作用户 (普通模式集群跳过) 执行以下命令,登录数据源的catalog。 hetu-cli --catalog 数据源名称 --schema 数据库名
23 Candice,27 在Linux系统HDFS客户端使用命令hadoop fs -mkdir /data(hdfs dfs命令有同样的作用),创建对应目录。 在Linux系统HDFS客户端使用命令hadoop fs -put data /data,上传数据文件。 在样例代码中配置相关参数。