检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
支持POSIX globs配置。 No (在fileset标签内) <rules> 针对策略定义多个规则。 No (在policy标签内) <rule> 定义单一规则。 Yes (在rules标签内) <age>or<atime> 定义在<fileset>中定义的文件的age/a
配置项中使用宏定义 用户在创建或者编辑Loader作业时,在配置参数时可以使用宏,在执行作业任务时会自动替换为宏对应的值。 宏定义只在该作业范围内生效。 宏定义支持随作业导入导出,如果作业中有使用宏定义,则导出的作业包括宏定义。导入作业时默认也导入宏定义。 时间宏dataform
应用的开发编译操作可参考组件开发指南对应章节。 图1 MRS组件应用开发流程 表1 MRS组件应用开发流程说明 阶段 说明 准备开发环境 在进行应用开发前,需首先准备开发环境,推荐使用IntelliJ IDEA工具,同时本地需完成JDK、Maven等初始配置。 准备连接集群配置文件
SparkHBaseExample和OozieSparkHiveExample样例工程的“\src\main\resources”路径。 在应用开发环境中,导入样例工程到IDEA开发环境。 选择“File > Open”,弹出“浏览文件夹”对话框。 选择样例工程文件夹,单击“OK”。
mple和OozieSparkHiveExample样例工程的“\src\main\resources”路径。 在应用开发环境中,导入样例工程到IDEA开发环境。 在IDEA中选择“File > Open”,弹出“浏览文件夹”对话框。 选择样例工程文件夹,单击“OK”。 修改样例工程中的如下参数,请参考表1。
Hudi具有主键唯一性机制,但在分区表的场景下通常只能保证分区内主键唯一,因此如果分区键的值发生变更后,会导致相同主键的行记录出现多条的情况。在以日期分区的场景,可采用数据的创建时间为分区字段,切记不要采用数据更新时间做分区。 当指定Hudi的索引类型为Global索引类型时,Hud
用户还可以根据程序运行情况,对程序进行调优,使其性能满足业务场景诉求。调优完成后,请重新进行编译和运行。具体请参考中Spark2x性能调优。 在Linux环境中编包并运行Spark程序 父主题: Spark2x开发指南(安全模式)
应用的开发编译操作可参考组件开发指南对应章节。 图1 MRS组件应用开发流程 表1 MRS组件应用开发流程说明 阶段 说明 准备开发环境 在进行应用开发前,需首先准备开发环境,推荐使用IntelliJ IDEA工具,同时本地需完成JDK、Maven等初始配置。 准备连接集群配置文件
Loader算子配置项中使用宏定义 用户在创建或者编辑Loader作业时,在配置参数时可以使用宏,在执行作业任务时会自动替换为宏对应的值。 宏定义只在该作业范围内生效。 宏定义支持随作业导入导出,如果作业中有使用宏定义,则导出的作业包括宏定义。导入作业时默认也导入宏定义。 时间宏
新增组件,支持存算分离场景下集群外客户端委托功能。 Hadoop 普通集群访问HDFS Web UI需要进行CAS认证。 Hudi 升级到0.9.0版本。 Impala 支持在MRS Manager页面上进行Impala SQL作业管理。 Spark2x 升级到3.1.1版本。 ZooKeeper 升级到3.6.3版本。
更好。 分区表的分区键不允许更新,否则会产生重复数据。 例外场景:超大维度表和超小事实表 特殊情况如存在持续大量新增数据的维度表(表数据量在200G以上或日增长量超过60M)或数据量非常小的事实表(表数据量小于10G且未来三至五年增长后也不会超过10G)需要针对具体场景来进行例外处理:
称为“ROOT.ln.wf01.wt01.status”。 图3 IoTDB数据模型 IoTDB与其他组件的关系 IoTDB存储数据在本地,因此在存储上不依赖于其他任何组件。但是安全集群的环境上,IoTDB依赖于KrbServer组件来进行Kerberos认证。 父主题: IoTDB
通常MRS应用开发流程如下图所示,各组件应用的开发编译操作可参考组件开发指南对应章节。 图1 MRS应用开发流程 表1 MRS应用开发流程说明 阶段 说明 准备开发环境 在进行应用开发前,需首先准备开发环境,推荐使用IntelliJ IDEA工具,同时本地需完成JDK、Maven等初始配置。 准备连接集群配置文件
TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发现数据价值。 快速购买MRS集群 进入购买MRS集群页面。 在购买集群页面,选择“快速购买”页签。 参考下列参数说明配置集群基本信息。 表1 MRS集群配置参数 参数 描述 示例 计费模式 集群的计费模
row1:主键。 cf:a:自定义的列。 value1:插入的值。 数据查询 由于冷热数据都在同一张表中,因此用户所有的查询操作都只需在一张表内进行。在查询时,建议通过配置TimeRange来指定查询的时间范围,系统将会根据指定的时间范围决定查询模式,包括仅查询热存储、仅查询冷存储或
支持各种数据源导入数据到大数据集群中。使用云数据迁移云服务也可以将外部数据导入至MRS集群中。 数据存储 MRS支持结构化和非结构化数据在集群中的存储,并且支持多种高效的格式来满足不同计算引擎的要求。 HDFS是大数据上通用的分布式文件系统。 OBS是对象存储服务,具有高可用低成本的特点。
xml”、“core-site.xml”、“hbase-site.xml”文件放置在样例工程的“../src/main/resources/conf”目录下。 hbase-examples/hbase-zk-example 需将以下文件放置在样例工程的“../src/main/resources”目录下:
IDEA中安装Scala插件。 在“Configure”下拉菜单中,单击“Plugins”。 图14 Plugins 在“Plugins”页面,选择“Install plugin from disk”。 图15 Install plugin from disk 在“Choose Plugin
Projects”。 图3 Configure 在弹出的“Project Structure for New Projects”页面中,选择“SDKs”,单击加号添加JDK。 图4 Project Structure for New Projects 在弹出的“Select Home Directory
应用场景 大数据在人们的生活中无处不在,在IoT、电子商务、金融、制造、医疗、能源和政府部门等行业均可以使用华为云MRS服务进行大数据处理。 海量数据分析场景 海量数据分析是现代大数据系统中的主要场景。通常企业会包含多种数据源,接入后需要对数据进行ETL(Extract-Tran