检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
block大小。 put适合的场景: 每次加载到单个Region的数据大小小于HDFS block大小的一半。 数据需要实时加载。 加载数据过程不会造成用户查询速度急剧下降。 父主题: HBase应用开发常见问题
regionserver.wal.IndexedWALEditCodec”。 Manager上,可以看到RegionServer有如下自定义配置: 原因分析 用户配置了Phoenix的索引功能,由于新节点没有Phoenix对应的jar包,导致找不到类,启动失败。 处理步骤 登录到正常的RegionServer节点,执行以下命令。
【Spark WebUI】访问JobHistory中某个应用的原生页面时页面显示错误 用户问题 提交一个Spark应用,包含单个Job百万个Task。应用结束后,在JobHistory中访问该应用的WebUI页面,浏览器会等待较长时间才跳转到应用WebUI页面,若10分钟内无法跳转,则页面会显示Proxy
表示源数据对应的数据库名称,支持通过界面查询并选择。 表名 存储源数据的数据表,支持通过界面查询并选择。 抽取分区字段 分区字段,如果需读取多个字段,使用该字段分割结果并获取数据。 Where子句 表示读取数据库时使用的查询语句。 ftp-connector或sftp-connector
空间,因此,表可以设计的非常稀疏。 接口类型简介 由于HBase本身是由java语言开发出来的,且java语言具有简洁通用易懂的特性,推荐用户使用java语言进行HBase应用程序开发。 HBase采用的接口与Apache HBase保持一致,请参见:http://hbase.apache
= input.getString(0); String[] words = sentence.split(" "); for (String word : words) { word = word.trim();
= input.getString(0); String[] words = sentence.split(" "); for (String word : words) { word = word.trim();
Server页面,用于展示已经完成的和未完成的Spark应用的运行情况。 页面包括了应用ID、应用名称、开始时间、结束时间、执行时间、所属用户等信息。单击应用ID,页面将跳转到该应用的SparkUI页面。 查看Spark日志获取应用运行情况。 您可以查看Spark日志了解应用运行
令行中加入表1中的参数。 表1 增强BulkLoad效率的配置项 参数 描述 配置的值 -Dimporttsv.mapper.class 用户自定义mapper通过把键值对的构造从mapper移动到reducer以提高性能。mapper只需要把每一行的原始文本发送到reducer
空间,因此,表可以设计的非常稀疏。 接口类型简介 由于HBase本身是由java语言开发出来的,且java语言具有简洁通用易懂的特性,推荐用户使用java语言进行HBase应用程序开发。 HBase采用的接口与Apache HBase保持一致。 HBase通过接口调用,可提供的功能如表1所示。
Server页面,用于展示已经完成的和未完成的Spark应用的运行情况。 页面包括了应用ID、应用名称、开始时间、结束时间、执行时间、所属用户等信息。单击应用ID,页面将跳转到该应用的SparkUI页面。 查看Spark日志获取应用运行情况。 您可以查看Spark日志了解应用运行
空间,因此,表可以设计的非常稀疏。 接口类型简介 由于HBase本身是由java语言开发出来的,且java语言具有简洁通用易懂的特性,推荐用户使用java语言进行HBase应用程序开发。 HBase采用的接口与Apache HBase保持一致。 HBase通过接口调用,可提供的功能如表1所示。
Yarn汇聚日志过大导致节点磁盘被占满 用户问题 集群的磁盘使用率很高。 问题现象 Manager管理页面下主机管理显示磁盘使用率过高。 Yarn WebUI界面上显示只有少量任务在运行。 登录到集群的Master节点执行hdfs dfs -du -h / 命令发现如下文件占用大量磁盘空间。
<tablename> 注意事项 如果column qualifier上建有索引,在该字段的批量删除是会失败的,即不允许在建有索引的字段上执行批量删除。 如果不设置执行结果输出数据文件(delete.hfile.output),默认是/tmp/deletedata/表名。 父主题: 增强HBase BulkLoad工具数据迁移能力
createDefault()) { HttpPost httpPost = new HttpPost(QUERY_URL);// 请求需要设置超时时间 addTimeout(httpPost); String queryRequest = genQueryReq();
y = 8192,granularity配置为3,则使用8192*3条记录创建一条索引数据。 创建索引样例 CREATE TABLE skip_index_test ON CLUSTER default_cluster ( ID String, URL String
缺点:需要定期合并整理compact,否则碎片文件较多。读取性能较差,因为需要将delta log和老数据文件合并。 Hudi表存储 Hudi在写入数据时会根据设置的存储路径、表名、分区结构等属性生成Hudi表。 Hudi表的数据文件,可以使用操作系统的文件系统存储,也可以使用HDFS这种分布式的文件
缺点:需要定期合并整理compact,否则碎片文件较多。读取性能较差,因为需要将delta log和老数据文件合并。 Hudi表存储 Hudi在写入数据时会根据设置的存储路径、表名、分区结构等属性生成Hudi表。 Hudi表的数据文件,可以使用操作系统的文件系统存储,也可以使用HDFS这种分布式的文件
目的集群所在Region的OBS,然后通过Distcp工具将OBS数据复制到目的集群的HDFS上。由于执行Distcp无法为OBS上的文件设置权限、属主/组等信息,因此当前场景在进行数据导出时也需要将HDFS的元数据信息进行导出并复制,以防HDFS文件属性信息丢失。 线下集群向云迁移
Channel和Avro Sink,如图2所示。 图2 Flume配置工具示例 双击对应的Source、Channel以及Sink,根据实际环境并参考表1设置对应的配置参数。 如果对应的Flume角色之前已经配置过客户端参数,为保证与之前的配置保持一致,可以到“客户端安装目录/fusioninsight-flume-1