检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
API:提供基于窗口的API。 资源调度器:新增基于资源的调度器插件,可以在拓扑定义时指定可使用的最大资源,并且通过配置的方式指定用户的资源配额,从而管理该用户名下的拓扑资源。 State Management:提供带检查点机制的Bolt接口,当事件失败时,Storm会自动管理bolt的状态并且执行恢复。
悉且统一的平台。作为查询大数据的工具补充,Impala不会替代基于MapReduce构建的批处理框架,例如Hive。基于MapReduce构建的Hive和其他框架最适合长时间运行的批处理作业。 Impala主要特点如下: 支持Hive查询语言(HiveQL)中大多数的SQL-92
悉且统一的平台。作为查询大数据的工具补充,Impala不会替代基于MapReduce构建的批处理框架,例如Hive。基于MapReduce构建的Hive和其他框架最适合长时间运行的批处理作业。 Impala主要特点如下: 支持Hive查询语言(HiveQL)中大多数的SQL-92功能,包括
最小资源:保证租户能获得的资源(有抢占支持)。取值可以是父租户资源的百分比或绝对值。当租户作业量比较少时,资源会自动借给其他租户,当租户能使用的资源不满足最小资源时,可以通过抢占来要回之前借出的资源。 最大资源:租户最多能使用的资源,租户不能得到比最大资源设定更多的资源。取值可以是父租户资源的百分比或绝对值。
当完成MRS集群部署后,可以根据自身的业务需求使用MRS提供的一系列常用实践。 表1 MRS常用最佳实践 实践 描述 数据分析 使用Spark2x实现车联网车主驾驶行为分析 本实践指导使用Spark实现车主驾驶行为分析。用于了解MRS的基本功能,利用MRS服务的Spark2x组件,对车主的驾驶行为进行分
CDL是一种简单、高效的数据实时集成服务,能够从各种OLTP数据库中抓取Data Change事件,然后推送至Kafka中,最后由Sink Connector消费Topic中的数据并导入到大数据生态软件应用中,从而实现数据的实时入湖。 CDL服务包含了两个重要的角色:CDLConn
默认调度器的调度模式。目前支持两个值,具体值与含义如下: “AVERAGE”:使用按空闲Slot数目为优先级的调度机制 “RATE”:使用按空闲Slot比率为优先级的调度机制 AVERAGE nimbus.thrift.threads 设置主用Nimbus对外提供服务时的最大连接线
“指定作业”:表示指定需要导出的作业。选择“指定作业”,在作业列表中勾选需要导出的作业。 “指定组别”:表示导出某个指定分组中的所有作业。选择“指定分组”,在分组列表中勾选需要导出的作业分组。 “是否导出密码”:导出时是否导出连接器密码,勾选时,导出加密后的密码串。 单击“确定”,开
er客户端时,如果其他用户也需要使用该客户端,则需要当前客户端的安装用户或者其他拥有更大权限的用户进行授权(将loader客户端的安装目录赋予“755”权限),请用户关注授权后的安全问题。 创建访问Loader服务的用户,如果是“机机”用户需要下载keytab文件。 操作步骤 配置Loader
如果同时存在读和写的操作,这两种操作的性能会互相影响。如果写入导致的flush和compaction操作频繁发生,会占用大量的磁盘IO操作,从而影响读取的性能。如果写入导致阻塞较多的compaction操作,就会出现Region中存在多个HFile的情况,从而影响读取的性能。所以如果
如果其他用户也需要使用该客户端,则需要当前客户端的安装用户或者其他拥有更大权限的用户进行授权(将loader客户端的安装目录赋予“755”权限),请用户关注授权后的安全问题。 创建访问Loader服务的用户,如果是“机机”用户需要下载keytab文件。 操作步骤 配置Loader
“指定作业”:表示指定需要导出的作业。选择“指定作业”,在作业列表中勾选需要导出的作业。 “指定组别”:表示导出某个指定分组中的所有作业。选择“指定分组”,在分组列表中勾选需要导出的作业分组。 “是否导出密码”:导出时是否导出连接器密码,勾选时,导出加密后的密码串。 单击“确定”,开
操作场景 当同时存在较多待导入的数据文件,用户可以使用多线程导入工具批量导入ClickHouse。 前提条件 已安装ClickHouse客户端,例如客户端安装目录为“/opt/client”。 如果集群为安全模式需要创建一个具有ClickHouse相关权限的用户,例如创建用户“cli
快速使用Hadoop 本章节提供从零开始使用Hadoop提交wordcount作业的操作指导,wordcount是最经典的Hadoop作业,它用来统计海量文本的单词数量。 操作步骤 准备wordcount程序。 开源的Hadoop的样例程序包含多个例子,其中包含wordcount。可以从https://dist
弹性升缩成功/失败的场景下,由MRS管理面通过邮件或短信方式通知对应用户。 管理面检查大数据集群的告警信息,如果大数据集群的告警信息影响到服务的使用,其告警级别达到致命时,则发送信息通知给对应租户。 在用户集群的ECS机器被删除、关机、修改规格、重启、更新OS的行为,会导致大数据
配置组件数据回收站目录的清理策略。 在存算分离场景下,对接OBS的组件默认开启了数据防误删功能,用户删除数据时,被删除对象会移动至用户对应的回收站目录内,用户需要在OBS文件系统中为对应的目录配置生命周期策略,以避免存储空间被占满的风险。 组件对接OBS。 在具备OBS资源的访问权限后,M
配置HFile中block块的大小,不同的block块大小,可以影响HBase读写数据的效率。越大的block块,配合压缩算法,压缩的效率就越好;但是由于HBase的读取数据是以block块为单位的,所以越大的block块,对于随机读的情况,性能可能会比较差。 如果要提升写入的性能,一般扩大到
Manager提供系统中各组件的权限集中管理功能。 Manager引入角色的概念,采用RBAC的方式对系统进行权限管理,集中呈现和管理系统中各组件零散的权限功能,并且将各个组件的权限以权限集合(即角色)的形式组织,形成统一的系统权限概念。这样一方面对普通用户屏蔽了内部的权限管理细节,另一方
访问Spark应用获取的restful接口信息有误 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面 HistoryServer缓存的应用被回收,导致此类应用页面访问时出错 加载空的part文件时,app无法显示在JobHistory的页面上 Spark导出带有相同字段名的表,结果导出失败
、可伸缩的分布式存储系统。HBase设计目标是用来解决关系型数据库在处理海量数据时的局限性。 HBase使用场景有如下几个特点: 处理海量数据(TB或PB级别以上)。 具有高吞吐量。 在海量数据中实现高效的随机读取。 具有很好的伸缩能力。 能够同时处理结构化和非结构化的数据。 M