检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何迁移Hive/HDFS的数据到ClickHouse 问题 如何迁移Hive/HDFS的数据到ClickHouse。 回答 可以将Hive中的数据导出为CSV文件,再将CSV文件导入到ClickHouse。 从Hive中导出数据为CSV: hive -e "select * from
使用kafka采集数据时报错IllegalArgumentException 问题 线程“main”报错 org.apache.kafka.common.KafkaException,构造kafka消费者失败,报错: java.lang.IllegalArgumentException:
开启Native Task特性后,Reduce任务在部分操作系统运行失败 问题 开启Native Task特性后,Reduce任务在部分操作系统运行失败。 回答 运行包含Reduce的Mapreduce任务时,通过-Dmapreduce.job.map.output.collector
使用kafka采集数据时报错IllegalArgumentException 问题 线程“main”报错 org.apache.kafka.common.KafkaException,构造kafka消费者失败,报错: java.lang.IllegalArgumentException:
CREATE TABLE AS SELECT 命令功能 CREATE TABLE As SELECT命令通过指定带有表属性的字段列表来创建Hudi Table。 命令格式 CREATE TABLE [ IF NOT EXISTS] [database_name.]table_name
配置在Spark对接MemArtsCC 操作场景 本章节介绍在存算分离场景下如何配置Spark任务中集成MemArtsCC缓存,MemArtsCC会在将热点数据存储在计算侧集群,可以起到降低OBS服务端带宽的作用,利用MemArtsCC的本地存储,访问热点数据不必跨网络,可以提升Spark的数据读取效率。
Scala样例代码 功能简介 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 代码样例 下面代码片段仅为演示,具体代码参见com.huawei.bigdata.spark.examples.FemaleInfoCollection。 样例代码获取方式请参考获取MRS应用开发样例工程。
引入jar包不正确导致Spark任务无法运行 问题现象 执行Spark任务,任务无法运行。 原因分析 执行Spark任务时,引入的jar包不正确,导致Spark任务运行失败。 处理步骤 登录任意Master节点。 执行cd /opt/Bigdata/MRS_*/install/F
使用BulkLoad工具批量删除HBase数据 操作场景 BulkLoad工具支持根据rowkey的取值模式、范围、字段名、字段值对HBase做批量删除。 使用BulkLoad工具批量删除HBase数据 执行如下命令删除从“row_start”到“row_stop”的行,并且把输
Spark client CLI介绍 Spark CLI详细的使用方法参考官方网站的描述:http://archive.apache.org/dist/spark/docs/3.3.1/quick-start.html。 常用CLI Spark常用的CLI如下所示: spark-shell
BE匹配错误IP导致启动失败 现象描述 BE实例启动失败,报错: backend ip saved in master does not equal to backend local ipx.x.x.x vs. x.x.x.x 原因分析 BE安装节点有多个网卡IP,没有正确设置“
离线Compaction配置 对于MOR表的实时业务,通常设置在写入中同步生成compaction计划,因此需要额外通过DataArts或者脚本调度SparkSQL去执行已经产生的compaction计划。 执行参数 set hoodie.compact.inline = true;
多CPU内核下的MapReduce调优配置 操作场景 当CPU内核数很多时,如CPU内核为磁盘数的3倍时的调优配置。 操作步骤 以下参数有如下两个配置入口: 服务器端配置 进入Yarn服务参数“全部配置”界面,在搜索框中输入参数名称。具体操作请参考修改集群服务配置参数章节。 客户端配置
Kafka应用开发简介 Kafka简介 Kafka是一个分布式的消息发布-订阅系统。 它采用独特的设计提供了类似JMS的特性,主要用于处理活跃的流式数据。 Kafka有很多适用的场景:消息队列、行为跟踪、运维数据监控、日志收集、流处理、事件溯源、持久化日志等。 Kafka有如下几个特点:
TEXTFILE类型文件使用ARC4压缩时查询结果乱码 问题现象 Hive查询结果表做压缩存储(ARC4),对结果表做select * 查询时返回结果为乱码。 可能原因 Hive默认压缩格式不是ARC4格式或者未开启输出压缩。 解决方案 在select结果乱码时,在beeline中进行如下设置。
创建Doris表 本章节介绍创建Doris表样例代码。 以下代码片段在“JDBCExample”类中。 以Java JDBC方式执行SQL语句在集群中dbName变量对应的数据库下创建tableName对应的表。 String createTableSql = "create table
使用Spark SQL删除MOR表后重新建表写入数据无法同步ro、rt表 问题 使用Spark SQL删除MOR表后重新建表写入数据不能实时同步ro、rt表,报错如下: WARN HiveSyncTool: Got runtime exception when hive syncing
Doris多租户监控告警介绍 Doris多租户基于内核Workload Group资源软限制方案实现,Workload Group只是限制组内任务在单个BE节点上的计算资源和内存资源的使用,所以租户没有整体资源池的概念,而是在执行查询任务时,动态的在各个BE节点上进行资源分配。
Hive应用开发样例工程介绍 MRS样例工程获取地址为https://github.com/huaweicloud/huaweicloud-mrs-example,切换分支为与MRS集群相匹配的版本分支,然后下载压缩包到本地后解压,即可获取各组件对应的样例代码工程。 当前MRS提供以下Hive相关样例工程:
CREATE VIRTUAL SCHEMA CREATE/DROP/SHOW VIRTUAL SCHEMA(S) CREATE HetuEngine中的CREATE语句用来创建SCHEMA映射,通过映射信息对外开放本域数据源。 语法如下: CREATE VIRTUAL SCHEMA