检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark文件存储格式 配置SparkSQL表文件的存储格式(目前支持四种格式:CSV、ORC、RC和PARQUET)。 说明: PARQUET格式是一种列式存储格式,PARQUET要求Loader的输出字段名和SparkSQL表中的字段名保持一致。 Hive 1.2.0版本之后,Hive使用字段
Hive文件存储格式 配置Hive表文件的存储格式(目前支持四种格式:CSV、ORC、RC和PARQUET)。 说明: PARQUET格式是一种列式存储格式,PARQUET要求Loader的输出字段名和Hive表中的字段名保持一致。 Hive 1.2.0版本之后,Hive使用字段名称替代
IoTDBServer实例节点的业务ip -p IoTDBServer RPC端口 -f example-filename.csv 需根据提示交互式输入业务用户名和对应密码,如下显示表示CSV文件导入成功: 验证数据一致性。 执行以下命令,切换到IoTDB客户端运行脚本所在目录。 cd
请参见删除HBase表数据。 8 A业务结束后,删除用户信息表。 请参见删除HBase表。 关键设计原则 HBase是以RowKey为字典排序的分布式数据库系统,RowKey的设计对性能影响很大,具体的RowKey设计请考虑与业务结合。 父主题: HBase数据读写样例程序
tic Load Balance)来进行流量分发,通过ELB的轮询机制,写不同节点上的本地表(Local Table),读不同节点上的分布式表(Distributed Table),这样,无论集群写入的负载、读的负载以及应用接入的高可用性都具备了有力的保障。 ClickHouse
从Python编译到运行PySpark样例 生态对接类 DBeaver对接MRS Hive 集群外Druid对接MRS Kerberos集群 分布式调度平台Airflow在华为云MRS中的实践 基于云服务MRS构建DolphinScheduler2调度系统
“simple认证”:在客户端连接服务端的过程中,默认以客户端执行用户(例如操作系统用户“root”或“omm”)自动进行认证,管理员或业务用户不显式感知认证,不需要kinit完成认证过程。 “用户名密码认证”:使用集群中“人机”用户的用户名与密码进行认证。 “无认证”:默认任意的用户都可以访问服务端。
时是稀疏存储结构,当需要更高效处理时会转为密集型数据结构。P4HyperLogLog则在其整改生命周期都是密集型数据结构。如有必要,可以显式地转换cast(hll as P4HyperLogLog)。在当前数据引擎的实现中,hll的数据草图是通过一组32位的桶来存储对应的最大hash。
如果集群为安全模式,执行以下命令进行用户认证,该用户需具有OBS目录的读写权限。普通模式集群无需执行用户认证。 kinit HDFS组件操作用户 在Yarn命令行显式添加要访问的OBS文件系统。 使用以下命令访问OBS文件系统。 hdfs dfs -ls obs://OBS并行文件系统名称/路径 使用以下命令创建OBS文件系统下的目录:
复制到正式表即可。 图1 Replicated*MergeTree引擎表迁移架构图 分布式表迁移: 分布式表不涉及表数据,只涉及表的元数据信息,迁移过程中会将源集群ClickHouse分布式表的元数据信息导出,然后将元数据信息修改为目标集群的ZooKeeper路径和副本,根据修改后的元数据信息在目标集群新建表即可。
本信息和资源配额集成在一个界面中,方便运维和管理,如图3所示。 图3 多租户管理(以3.x版本Manager页面为例) 层级式的租户管理:MRS支持层级式的租户管理,可以为租户进一步添加子租户,实现资源的再次配置。一级租户下一级的子租户属于二级租户,以此类推。为企业提供了成熟的多
据键范围加快文件过滤速度。 true hoodie.bloom.index.bucketized.checking 为true时,启用了桶式布隆过滤。这减少了在基于排序的布隆索引查找中看到的偏差。 true hoodie.bloom.index.keys.per.bucket 仅
客户端从DataNode读数据的时候会同步检查数据是否完整,如果发现数据不完整,尝试从其它的DataNode节点上读取数据。 数据保密性 MRS分布式文件系统在Apache Hadoop版本基础上,提供对文件内容的加密存储功能,避免敏感数据明文存储,提升数据安全性。业务应用只需对指定的敏感
patch success.”表示执行完成)。 ECS重置密码插件升级(可选) 华为云ECS服务提供了一键式重置密码功能,弹性云服务器的密码丢失或过期时,可使用该功能进行一键式重置密码。重置密码插件为ECS内部运行的客户端进程,不对外提供任何网络服务,重置密码插件CloudRese
Message Notification) MRS联合消息通知服务(SMN),采用主题订阅模型,提供一对多的消息订阅以及通知功能,能够实现一站式集成多种推送通知方式。 配置作业消息通知 云审计服务(Cloud Trace Service) 云审计服务(CTS)为用户提供MRS资源操作
spark-shell 提供了一个简单的调试工具,支持Scala语言。 在shell控制台执行: spark-shell 即可进入Scala交互式界面,从HDFS中获取数据,再操作RDD进行计算,输出并打印结果。 示例:一行代码可以实现统计一个文件中所有单词出现的频次。 scala> sc
Operator,RollingSink是一个Sink Operator。 Pipeline Dataflow 在Flink中,程序是并行和分布式的方式运行。一个Stream可以被分成多个Stream分区(Stream Partitions),一个Operator可以被分成多个Operator
据导出操作。 例如:输入“yes”后,需根据提示输入业务用户名和对应密码,当显示以下信息,表示数据导出成功。 为避免安全风险,推荐使用交互式方式导出CSV文件。 导出CSV文件也可使用“./export-csv.sh -h IoTDBServer实例节点的业务ip -p IoTDBServer
Spark和YARN的关系 Spark的计算调度方式,可以通过YARN的模式实现。Spark共享YARN集群提供丰富的计算资源,将任务分布式的运行起来。Spark on YARN分两种模式:YARN Cluster和YARN Client。 YARN Cluster模式 运行框架如图3所示。
容错能力非常适合大批量查询,如果用户在容错集群上同时运行大量短时间小查询,则可能会遇到延迟。因此,建议处理批处理操作时使用专用的容错计算实例,与进行交互式查询的更高查询量的计算实例分开。 配置HetuEngine查询容错执行能力步骤 使用可访问HetuEngine WebUI界面的用户登录FusionInsight