检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Broadcast:广播变量类。广播变量允许保留一个只读的变量,缓存在每一台机器上,而非每个任务保存一份复制。 StorageLevel:数据存储级别。有内存(MEMORY_ONLY),磁盘(DISK_ONLY),内存+磁盘(MEMORY_AND_DISK)等。 JavaRDD支持两
DataFrame:是一个以命名列方式组织的分布式数据集。 HiveContext:获取存储在Hive中数据的主入口。 表5 常用的Actions方法 方法 说明 collect(): Array[Row] 返回一个数组,包含DataFrame的所有列。 count(): Long 返回DataFrame中的行数。
配置NFS服务器存储NameNode元数据 操作场景 本章节适用于MRS 3.x及后续版本。 用户在部署集群前,可根据需要规划Network File System(简称NFS)服务器,用于存储NameNode元数据,以提高数据可靠性。 如果您已经部署NFS服务器,并已配置NFS
配置NFS服务器存储NameNode元数据 操作场景 本章节适用于MRS 3.x及后续版本。 用户在部署集群前,可根据需要规划Network File System(简称NFS)服务器,用于存储NameNode元数据,以提高数据可靠性。 如果您已经部署NFS服务器,并已配置NFS
ClickHouse DataBase设计 业务隔离设计-各业务分库设计 在业务规划时,不同业务归属于不同数据库,便于后续对应用户关联的数据库下表、视图等数据库对象权限的分离管理和维护。 业务隔离设计-不要在system库中创建业务表 system数据库是ClickHouse默认
数据类型转换的对应关系请参见表1。日期类型会被先转换为String类型,再存储到HBase中; 数字类型、字符串类型、布尔类型均会直接转为byte数组存储到HBase中,解析数据时,请将byte数组直接转换为对应类型,同时需要注意判断空值。 不建议将含有Strcuct、Map
kHouse仍存在该表数据。 MySQL数据库需要开启MySQL的bin log功能(默认情况下是开启的)和GTID功能,CDL不支持抓取表名包含“$”或者中文等特殊字符的表。 查看MySQL是否开启bin log: 使用工具或者命令行连接MySQL数据库(本示例使用Navicat工具连接),执行show
onnector来说,Map任务分区更均匀,并且不依赖分区列是否有创建索引。 mysql-fastpath-connector:MYSQL数据库专用连接器,使用MYSQL的mysqldump和mysqlimport工具进行数据的导入导出,相对generic-jdbc-connector来说,导入导出速度更快。
influxdb生成的parquet文件timestamp类型为纳秒类型,Hive读取报错。 外置RDS MYSQL场景开启添加列优化执行alter cascade操作分区表由于库中分区量较大导致MYSQL异常。 日志默认保留数量和大小调整。 Tez引擎执行union后使用concatenate合并小文件数据丢失。
DataFrame:是一个以命名列方式组织的分布式数据集。 HiveContext:获取存储在Hive中数据的主入口。 表6 常用的Actions方法 方法 说明 collect(): Array[Row] 返回一个数组,包含DataFrame的所有列。 count(): Long 返回DataFrame中的行数。
DataFrame:是一个以命名列方式组织的分布式数据集。 HiveContext:获取存储在Hive中数据的主入口。 表6 常用的Actions方法 方法 说明 collect(): Array[Row] 返回一个数组,包含DataFrame的所有列。 count(): Long 返回DataFrame中的行数。
十进制函数和操作符 字符串函数和运算符 正则表达式函数 二进制函数和运算符 Json函数和运算符 日期、时间函数及运算符 聚合函数 窗口函数 数组函数和运算符 Map函数和运算符 URL函数 Geospatial函数 HyperLogLog函数 UUID函数 Color函数 Session信息
登录Doris集群中已安装好MySQL客户端的MRS Master节点,执行如下命令进入Doris数据库。 export LIBMYSQL_ENABLE_CLEARTEXT_PLUGIN=1 (若集群已启用Kerberos认证(安全模式)需执行该命令) mysql -u数据库登录用户 -p数据库登录用户密码
DataFrame:是一个以命名列方式组织的分布式数据集。 HiveContext:获取存储在Hive中数据的主入口。 表6 常用的Actions方法 方法 说明 collect(): Array[Row] 返回一个数组,包含DataFrame的所有列。 count(): Long 返回DataFrame中的行数。
DataFrame:是一个以命名列方式组织的分布式数据集。 HiveContext:获取存储在Hive中数据的主入口。 表6 常用的Actions方法 方法 说明 collect(): Array[Row] 返回一个数组,包含DataFrame的所有列。 count(): Long 返回DataFrame中的行数。
S仅支持Client方式访问Hive,使用操作请参考从零开始使用Hive,应用开发请参考Hive应用开发。 元数据存储:Hive将元数据存储在数据库中,如MySQL、Derby。Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。
则删除Hetu-HBase表的同时,会删除HBase数据源上的表。 HBase数据类型映射 HBase是基于字节的分布式存储系统,它将所有数据类型存储为字节数组。要在HetuEngine中表示HBase数据,需要先在HetuEngine中通过创建映射表的方式为HetuEngine
ht Manager,修改该用户初始密码。 登录安装了MySQL客户端的节点,使用新创建的用户及修改后的密码连接Doris服务。 export LIBMYSQL_ENABLE_CLEARTEXT_PLUGIN=1 mysql -udorisuser -p -PFE查询连接端口 -hDoris
名称 说明 MySQL Tools Doris采用MySQL协议,高度兼容MySQL语法,支持标准SQL,用户可以通过各类客户端工具来访问Doris,并支持与BI工具无缝对接。 FE 主要负责用户请求的接入、查询解析规划、元数据的管理、节点管理相关工作。 BE 主要负责存储数据、执行查询计划、副本负载均衡。
开发Spark应用程序时,优化RDD的数据结构。 使用原始类型数组替代集合类,如可使用fastutil库。 避免嵌套结构。 Key尽量不要使用String。 开发Spark应用程序时,建议序列化RDD。 RDD做cache时默认是不序列化数据的,可以通过设置存储级别来序列化RDD减小内存。例如: testRDD