-
ClickHouse数据入库工具 - MapReduce服务 MRS
ClickHouse数据入库工具 最佳实践方案 ClickHouse数据加工流程最佳实践:在数据湖中通过Hive&Spark(批量)/FlinkSQL(增量)加工成大宽表后,通过CDL/Loader工具实时同步到ClickHouse,下游BI工具和应用进行实时OLAP分析。 数据加工
-
客户端工具说明 - MapReduce服务 MRS
客户端工具说明 使用命令行运行Loader作业 loader-tool工具使用指导 loader-tool工具使用示例 schedule-tool工具使用指导 schedule-tool工具使用示例 使用loader-backup工具备份作业数据 开源sqoop-shell工具使用指导
-
客户端工具说明 - MapReduce服务 MRS
客户端工具说明 使用客户端运行Loader作业 loader-tool工具使用指导 loader-tool工具使用示例 schedule-tool工具使用指导 schedule-tool工具使用示例 使用loader-backup工具备份作业数据 开源sqoop-shell工具使用指导
-
使用BulkLoad工具查询HBase表的行统计数 - MapReduce服务 MRS
使用BulkLoad工具查询HBase表的行统计数 操作场景 支持根据rowkey的命名规则、rowkey的范围、字段名以及字段值统计符合条件的行数。 操作步骤 直接执行如下命令统计满足如下条件的行数。rowkey在从“row_start”到“row_stop”的范围,字段“f3
-
服务详情概述 - MapReduce服务 MRS
及功能区。部分服务还支持显示自定义的管理工具页面,具体支持列表如表1所示。 表1 自定义管理工具名称一览表 工具名称 对应服务 说明 Flume配置工具 Flume 用于为Flume的服务端和客户端配置采集参数。 Flume客户端管理工具 Flume 查看Flume客户端监控信息。
-
配置BulkloadTool工具支持解析自定义分隔符 - MapReduce服务 MRS
配置BulkloadTool工具支持解析自定义分隔符 操作场景 Phoenix提供了批量数据导入工具CsvBulkloadTool,相关特性介绍请参见https://phoenix.apache.org/bulk_dataload.html,在此特性基础上,支持导入自定义分隔符文
-
使用BulkLoad工具查询HBase表的行统计数 - MapReduce服务 MRS
使用BulkLoad工具查询HBase表的行统计数 操作场景 支持根据rowkey的命名规则、rowkey的范围、字段名以及字段值统计符合条件的行数。 操作步骤 直接执行如下命令统计满足如下条件的行数。rowkey在从“row_start”到“row_stop”的范围,字段“f3
-
CarbonData首查优化工具 - MapReduce服务 MRS
CarbonData首查优化工具 工具介绍 CarbonData 的首次查询较慢,对于实时性要求较高的节点可能会造成一定的时延。 本工具主要提供以下功能: 对查询时延要求较高的表进行首次查询预热。 工具使用 下载安装客户端,例如安装目录为“/opt/client”。进入 目录“/
-
CarbonData首查优化工具 - MapReduce服务 MRS
CarbonData首查优化工具 工具介绍 CarbonData 的首次查询较慢,对于实时性要求较高的节点可能会造成一定的时延。 本工具主要提供以下功能: 对查询时延要求较高的表进行首次查询预热。 工具使用 下载安装客户端,例如安装目录为“/opt/client”。进入 目录“/
-
加固策略 - MapReduce服务 MRS
包。 应用程序目录下针对工程禁用自动部署功能,只部署了web、cas和client三个工程。 禁用部分未使用的http方法,防止被他人利用攻击。 更改Tomcat服务器默认shutdown端口号和命令,避免被黑客捕获利用关闭服务器,降低对服务器和应用的威胁。 出于安全考虑,更改“
-
使用BulkLoad工具向HBase中批量导入数据 - MapReduce服务 MRS
使用BulkLoad工具向HBase中批量导入数据 经常面临向HBase中导入大量数据的情景,向HBase中批量加载数据的方式有很多种,最直接方式是调用HBase的API使用put方法插入数据;另外一种是用MapReduce的方式从HDFS上加载数据。但是这两种方式效率都不是很高
-
使用BulkLoad工具向HBase迁移数据 - MapReduce服务 MRS
使用BulkLoad工具向HBase迁移数据 Apache HBase官方网站提供了批量导入数据的功能,详细操作请参见官网对“Import”和“ImportTsv”工具的描述:http://hbase.apache.org/2.2/book.html#tools。 父主题: 使用HBase
-
使用Spark小文件合并工具说明 - MapReduce服务 MRS
使用Spark小文件合并工具说明 工具介绍 在Hadoop大规模生产集群中,由于HDFS的元数据都保存在NameNode的内存中,集群规模受制于NameNode单点的内存限制。如果HDFS中有大量的小文件,会消耗NameNode大量内存,还会大幅降低读写性能,延长作业运行时间。因
-
使用BulkLoad工具向HBase迁移数据 - MapReduce服务 MRS
使用BulkLoad工具向HBase迁移数据 Apache HBase官方网站提供了批量导入数据的功能,详细操作请参见官网对“Import”和“ImportTsv”工具的描述:http://hbase.apache.org/2.2/book.html#tools。 父主题: 使用HBase
-
使用Hive异常文件定位定界工具 - MapReduce服务 MRS
使用Hive异常文件定位定界工具 操作场景 由于某些异常操作或者磁盘损坏等原因导致Hive存储的数据文件出现异常,异常的数据文件会导致任务运行失败或者数据结果不正确。 该工具用于对常见的非文本类的数据文件格式进行异常排查。 该章节内容仅适用MRS 3.2.0及之后版本。 操作步骤
-
提升HBase BulkLoad工具批量加载效率 - MapReduce服务 MRS
提升HBase BulkLoad工具批量加载效率 操作场景 批量加载功能采用了MapReduce jobs直接生成符合HBase内部数据格式的文件,然后把生成的StoreFiles文件加载到正在运行的集群。使用批量加载相比直接使用HBase的API会节约更多的CPU和网络资源。
-
增强HBase BulkLoad工具数据迁移能力 - MapReduce服务 MRS
增强HBase BulkLoad工具数据迁移能力 使用BulkLoad工具批量导入HBase数据 使用BulkLoad工具批量更新HBase数据 使用BulkLoad工具批量删除HBase数据 使用BulkLoad工具查询HBase表的行统计数 BulkLoad工具配置文件说明 配置Bul
-
使用Spark小文件合并工具说明 - MapReduce服务 MRS
使用Spark小文件合并工具说明 工具介绍 在Hadoop大规模生产集群中,由于HDFS的元数据都保存在NameNode的内存中,集群规模受制于NameNode单点的内存限制。如果HDFS中有大量的小文件,会消耗NameNode大量内存,还会大幅降低读写性能,延长作业运行时间。因
-
增强HBase BulkLoad工具数据迁移能力 - MapReduce服务 MRS
增强HBase BulkLoad工具数据迁移能力 使用BulkLoad工具批量导入HBase数据 使用BulkLoad工具批量更新HBase数据 使用BulkLoad工具批量删除HBase数据 使用BulkLoad工具查询HBase表的行统计数 BulkLoad工具配置文件说明 父主题: HBase企业级能力增强
-
使用Spark小文件合并工具说明 - MapReduce服务 MRS
使用Spark小文件合并工具说明 本章节仅适用于MRS 3.3.0及之后版本。 配置场景 小文件自动合并特性开启后,Spark将数据先写入临时目录,再去检测每个分区的平均文件大小是否小于16MB(默认值)。如果发现平均文件大小小于16MB,则认为分区下有小文件,Spark会启动一