检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hive是一个开源的,建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成Mapreduce任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下: 通过HQL语言非常容易的完成数据提取、转换和加载(ETL)。
解决主机资源概况查看趋势异常报错的问题; 解决磁盘监控指标计算不正确的问题; 解决Yarn监控中资源使用(按租户)监控当数据达到7位数时页面显示错误的问题; Clickhouse 解决用户授权后长时间不生效的问题; 解决集群内置租户密码修改后被锁的问题; 解决对角色赋权新的权限之后,用户的权限概率性无效的问题;
seJavaExample Spark on HBase场景的Java/Scala/Python示例程序。 本工程应用程序以数据源的方式去使用HBase,将数据以Avro格式存储在HBase中,并从中读取数据以及对读取的数据进行过滤等操作。 sparksecurity-examp
OpenTSDB是一个基于HBase的分布式、可伸缩的时间序列数据库。OpenTSDB的设计目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性。 OpenTSDB由时间序列守护进程(TSD)和一组命令行实用程序组成。与OpenTSDB的交互主要通
基于FIFO调用队列的NameNode请求处理 如果将FIFO队列替换为一种被称作FairCallQueue的新型队列,这种情况就能够得到改善。按照这种方法,FAIR队列会根据调用者的调用规模将传入的RPC调用分配至多个队列中。调度模块会跟踪最新的调用,并为调用量较小的用户分配更高的优先级。
Manager管理页面找到Presto组件,记录Presto的内网浮动IP地址。 在VPC上创建一个弹性公网IP地址,并在VPC控制台上找到MRS集群的子网,然后找到Presto的浮动IP,并给该浮动IP绑定弹性公网IP。 在MRS服务集群的安全组中放通源地址到MRS服务Presto的端口访问,然后测试(以非安全集群为例,catalog为hive)。
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 影响任务执行和客户端连接FE。 可能原因
主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 检查备集群HDFS是否有充足的空间,备份文件保存的目录建议使用用户自定义的目录。 主备集群中,需要确保ClickHouse的“HADOOP_RPC_PROTECTION”配置项的值与HDFS的“hadoop.rpc.protection”配置项的值保持一致。
下载认证凭据”。 图6 下载认证凭据 将下载的认证凭据压缩包解压缩,并将得到的文件拷贝到客户端节点中,例如客户端节点的“/opt/hadoopclient/Flink/flink/conf”目录下。如果是在集群外节点安装的客户端,需要将得到的文件拷贝到该节点的“/etc/”目录下。 配置安全
图2展示了使用IoTDB套件的全部组件形成的整体应用架构,IoTDB特指其中的时间序列数据库组件。 图2 IoTDB结构 用户可以通过JDBC/Session将来自设备传感器上采集的时序数据和服务器负载、CPU内存等系统状态数据、消息队列中的时序数据、应用程序的时序数据或者其他数据库中的时序数据导
数据导出(Export)功能可以将用户指定的表或分区的数据,以文本的格式通过Broker进程导出到远端存储上,如HDFS/对象存储(支持S3协议) 等。 不建议一次性导出大量数据。一个Export作业建议的导出数据量最大在几十GB。过大的导出会导致更多的垃圾文件和更高的重试成本。 如果表数据量过大,建议按照分区导出。
指导您了解MRS的基本功能,利用MRS服务的Spark2x组件,对车主的驾驶行为进行分析统计,得到用户驾驶行为的分析结果。 原始数据为车主的驾驶行为信息,包括车主在日常的驾驶行为中,是否急加速、急减速、空挡滑行、超速、疲劳驾驶等信息,通过Spark2x组件的强大的分析能力,分析统
MRS支持用户将数据存储在OBS服务中,使用MRS集群仅作数据计算处理的存算模式。MRS通过IAM服务的“委托”机制进行简单配置, 实现使用ECS自动获取的临时AK/SK访问OBS。避免了AK/SK直接暴露在配置文件中的风险。 通过绑定委托,ECS或BMS云服务将有权限来管理您的部分资源,请根据实际业务场景需求确认
seContext的方式去使用HBase,将要删除的数据的rowKey构造成rdd,然后通过HBaseContext的bulkDelete接口对HBase表上这些rowKey对应的数据进行删除。 数据规划 基于BulkPut接口使用章节创建的HBase表及其中的数据进行操作。 开发思路
用户可以在Spark应用程序中使用HBaseContext的方式去操作HBase,使用hbaseRDD方法以特定的规则扫描HBase表。 数据规划 使用操作Avro格式数据章节中创建的hbase数据表。 开发思路 设置scan的规则,例如:setCaching。 使用特定的规则扫描Hbase表。 运行前置操作
度让任务的数量和每个任务处理的数据与机器的处理能力达到最优。 查看CPU使用情况和内存占用情况,当任务和数据不是平均分布在各节点,而是集中在个别节点时,可以增大并行度使任务和数据更均匀的分布在各个节点。增加任务的并行度,充分利用集群机器的计算能力。 任务的并行度可以通过以下四种层
时,应该选择对应类型的连接,每种连接在该场景中需要配置连接的属性。 本章节适用于MRS 3.x之前版本。 obs-connector 表1 obs-connector数据源连接属性 参数 说明 桶名 保存源数据的OBS文件系统。 源目录或文件 源数据实际存储的形态,可能是文件系统
Thread会根据token renew周期 * 0.75的时间比例上传更新后的Credential文件到HDFS上。 Executor进程中有1个Credential Refresh Thread会根据token renew周期 *0.8的时间比例去HDFS上获取更新后的Credential文件,用来刷
据(不同操作系统的机器,命令可能不同,suse尝试使用netcat -lk 9999): nc -lk 9999 在构造一个端口进行接收数据时,需要在客户端所在服务器上安装netcat 开发思路 使用SparkStreaming持续读取特定端口的数据。 将读取到的Dstream通
您已经对大数据领域各组件具备一定的认识。 您已经对弹性云服务器的使用方式和MRS服务开发组件有一定的了解。 您已经对Maven构建方式具备一定的认识和使用方法有一定了解。 您已经对Java语法具备一定的认识。 MRS组件应用开发流程说明 通常MRS组件应用开发流程如下所示,各组件应用的开发编译操作可参考组件开发指南对应章节。