检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
建议使用新的API createDirectStream代替旧的API createStream进行应用程序开发。旧的API仍然可以使用,但新的API性能和稳定性更好。 /** * 参数解析: * <groupId>为客户的组编号。 * <brokers>为获取元数据的Kafka地址。
建议使用新的API createDirectStream代替旧的API createStream进行应用程序开发。旧的API仍然可以使用,但新的API性能和稳定性更好。 /** * 参数解析: * <groupId>为客户的组编号。 * <brokers>为获取元数据的Kafka地址。
建议使用新的API createDirectStream代替旧的API createStream进行应用程序开发。旧的API仍然可以使用,但新的API性能和稳定性更好。 /** * 参数解析: * <groupId>为客户的组编号。 * <brokers>为获取元数据的Kafka地址。
建议使用新的API createDirectStream代替旧的API createStream进行应用程序开发。旧的API仍然可以使用,但新的API性能和稳定性更好。 /** * 参数解析: * <groupId>为客户的组编号。 * <brokers>为获取元数据的Kafka地址。
框架提交和部署拓扑的场景。本章中描述的jar包的具体版本信息请以实际情况为准。 Flux框架是Storm 0.10.0版本提供的提高拓扑部署易用性的框架。通过Flux框架,用户可以使用yaml文件来定义和部署拓扑,并且最终通过storm jar命令来提交拓扑的一种方式,极大地方便
Streaming提供的抽象概念。 DStream表示一个连续的数据流,是从数据源获取或者通过输入流转换生成的数据流。从本质上说,一个DStream表示一系列连续的RDD。RDD一个只读的、可分区的分布式数据集。 DStream中的每个RDD包含了一个区间的数据。如图4所示。 图4 DStream与RDD关系
业在集群上平稳运行。 对不同的用户进行严格的访问控制,以保证数据和业务的安全。 多租户将大数据集群的资源隔离成一个个资源集合,彼此互不干扰,用户通过“租用”需要的资源集合,来运行应用和作业,并存放数据。在大数据集群上可以存在多个资源集合来支持多个用户的不同需求。 因此,MRS大数
集中出现的不同值的个数。例如“国家”是一个维度,如果有200个不同的值,那么此维度的基数就是200。 根据官方建议和实践经验,在维度基数小于1万的时候,对维度字段做LowCardinality编码,导入性能会有略微下降,查询性能提升明显,数据存储空间下降明显。 在默认的情况下,声
、可伸缩的分布式存储系统。HBase设计目标是用来解决关系型数据库在处理海量数据时的局限性。 HBase使用场景有如下几个特点: 处理海量数据(TB或PB级别以上)。 具有高吞吐量。 在海量数据中实现高效的随机读取。 具有很好的伸缩能力。 能够同时处理结构化和非结构化的数据。 不
MRS集群客户端如何通过AK/SK信息对接OBS MRS 1.9.2及之后的版本支持使用obs://的方式对接OBS服务,当前主要支持的组件为Hadoop、Hive、Spark、Presto、Flink。其中HBase组件使用obs://的方式对接OBS服务暂不支持。 该章节主要介绍MRS集群组件如何通过AK/SK(Access
“文件浏览器”的“主页”默认进入当前登录用户的主目录。界面将显示目录中的子目录或文件的以下信息: 表1 HDFS文件属性介绍 属性名 描述 名称 表示目录或文件的名称。 大小 表示文件的大小。 用户 表示目录或文件的属主。 组 表示目录或文件的属组。 权限 表示目录或文件的权限设置。
须扫描比其所需的更多的文件;如果将其设置的非常高,将线性增加每个数据文件的大小(每50000个条目大约4KB)。 60000 hoodie.index.bloom.fpp 根据条目数允许的错误率。 用于计算应为布隆过滤器分配多少位以及哈希函数的数量。通常将此值设置的很低(默认值0
系统将自动显示数据库中的所有表。可以输入表名关键字,系统会自动搜索包含此关键字的全部表。 图1 选择数据库 单击指定的表名,可以显示表中所有的列。 光标移动到表所在的行,单击 可以查看列的详细信息。 在SparkSql语句编辑区输入查询语句。 单击后的三角并选择“解释”,编辑器将分析输入的查询语
、可伸缩的分布式存储系统。HBase设计目标是用来解决关系型数据库在处理海量数据时的局限性。 HBase使用场景有如下几个特点: 处理海量数据(TB或PB级别以上)。 具有高吞吐量。 在海量数据中实现高效的随机读取。 具有很好的伸缩能力。 能够同时处理结构化和非结构化的数据。 不
配置相同的名称。 脚本路径 obs://mrs-samples/xxx.sh 脚本的路径。路径可以是OBS文件系统的路径或虚拟机本地的路径。 OBS文件系统的路径,必须以obs://开头,以.sh结尾。例如:obs://mrs-samples/xxx.sh 虚拟机本地的路径,脚本所在的路径必须以‘/’开头,以
如果集群同时开启“OBS权限控制”功能,此时会使用ECS配置的默认委托“MRS_ECS_DEFAULT_AGENCY”或者用户设置的自定义委托的AK/SK访问OBS服务,同时OBS服务会使用接收到的AK/SK访问数据加密服务获取KMS密钥状态,因此需要在使用的委托上绑定“KMS Administ
设置各个节点上的Supervisor角色实例(包含其启动并管理的Worker进程)所使用的物理CPU百分比。根据Supervisor所在节点业务量需求,适当调整参数值,优化CPU使用率。 JVM调优 当应用程序需要处理大量数据从而占用更多的内存时,存在worker内存大于2GB的情况,推荐使用G1垃圾回收算法。
针对Java和Scala不同语言的工程,其导入方式相同。使用Python开发的样例工程不需要导入,直接打开Python文件(*.py)即可。 以下操作步骤以导入Java样例代码为例。操作流程如图1所示。 图1 导入样例工程流程 前提条件 确保本地环境的时间与MRS集群的时间差要小于5分钟,若
针对Java和Scala不同语言的工程,其导入方式相同。使用Python开发的样例工程不需要导入,直接打开Python文件(*.py)即可。 以下操作步骤以导入Java样例代码为例。操作流程如图1所示。 图1 导入样例工程流程 前提条件 确保本地环境的时间与MRS集群的时间差要小于5分钟,若
请检查安装目录和数据目录下的内容”。 图1 健康检查结果 安装补丁的影响 安装补丁后需要重启服务才能生效,重启服务期间引起服务暂不可用。 安装补丁后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Mas