检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据处理规则一览表 转换步骤 规则描述 CSV文件输入 分隔符在原始数据中连续出现两次,将生成空字符串字段。 配置输入字段列数,大于原始数据实际包含的字段列数,全部数据成为脏数据。 遇到类型转换错误,当前数据保存为脏数据。 固定宽度文件输入 原始数据包含NULL值,不做转换处理。
准备MapReduce应用开发环境 准备MapReduce开发环境 准备连接MapReduce集群配置文件 导入并配置MapReduce样例工程 (可选)创建MapReduce样例工程 配置MapReduce应用安全认证 父主题: MapReduce开发指南(安全模式)
表和视图的权限,不支持数据库的授权。 Hive管理员权限不支持管理HDFS的权限。 如果数据库中的表或者表中的文件数量比较多,在授权时可能需要等待一段时间。例如表的文件数量为1万时,可能需要等待2分钟。 表1 设置角色 任务场景 角色授权操作 设置Hive管理员权限 在“配置资源权限”的表格中选择“待操作集群的名称
count++; counts.put(word, count); System.out.println("word: " + word + ", count: " + count); } 父主题:
使用Hue WebUI操作Hive表 在Hue WebUI使用HiveQL编辑器 在Hue WebUI使用元数据浏览器 在Hue WebUI使用文件浏览器 在Hue WebUI使用作业浏览器 Hue常用配置参数
使用BulkLoad工具批量更新HBase数据 使用BulkLoad工具批量删除HBase数据 使用BulkLoad工具查询HBase表的行统计数 BulkLoad工具配置文件说明 配置BulkloadTool工具支持解析自定义分隔符 父主题: HBase企业级能力增强
用户名。 keytab认证:keytab文件包含了用户principal和用户凭据的加密信息。使用keytab文件认证时,系统自动使用加密的凭据信息进行认证无需输入用户密码。主要在组件应用开发场景中使用“机机”用户进行认证。keytab文件也支持在kinit命令中使用。 普通模式
groupB。当配置为*时表示所有用户或用户组。 MRS 3.x之前版本:mapred MRS 3.x及之后版本: mapred supergroup,System_administrator_186 父主题: 使用MapReduce
API使用样例 Kafka 多线程Consumer API 使用样例 Kafka SimpleConsumer API使用样例 Kafka 样例工程配置文件说明 父主题: Kafka开发指南
WebUI使用HiveQL编辑器 在Hue WebUI使用SparkSql编辑器 在Hue WebUI使用元数据浏览器 在Hue WebUI使用文件浏览器 在Hue WebUI使用作业浏览器 在Hue WebUI使用HBase 父主题: 使用Hue(MRS 3.x及之后版本)
选择“HiveServer(角色) > 自定义”,对参数文件“hive-site.xml”添加自定义参数,设置“名称”为“hive.restrict.create.grant.external.table”,“值”为“true”。 选择“MetaStore(角色) > 自定义”,对参数文件“hivemetastore-site
新。 当更新字段为数值类型时,更新值需要为数值。 当更新字段为字符串类型时,更新操作不能为“-”。 样例 通过“CSV文件输入”算子,生成两个字段A和B。 源文件如下: 配置“更新域”算子,当发现值为test时,更新值,在test后面加上good。 转换后,输出A和B,结果如下:
e/conf/hbase-site.xml”配置文件中配置如下参数。 表1 HBase客户端操作重试超时相关配置 配置参数 描述 默认值 hbase.client.operation.timeout 客户端操作超时时间。需在配置文件中手动添加。 2147483647 ms hbase
对数据进行增删改查等操作。 Catalog:HetuEngine中一个catalog配置文件对应一个数据源,一个数据源可以有多个不同catalog配置,可以通过数据源的properties文件进行配置。 Schema:对应数据库的Schema名称。 Table:对应数据库的表名。
新。 当更新字段为数值类型时,更新值需要为数值。 当更新字段为字符串类型时,更新操作不能为“-”。 样例 通过“CSV文件输入”算子,生成两个字段A和B。 源文件如下: 配置“更新域”算子,当发现值为test时,更新值,在test后面加上good。 转换后,输出A和B,结果如下:
e/conf/hbase-site.xml”配置文件中配置如下参数。 表1 HBase客户端操作重试超时相关配置 配置参数 描述 默认值 hbase.client.operation.timeout 客户端操作超时时间。需在配置文件中手动添加。 2147483647 ms hbase
Connector方式。 在Flink实时写入数据到Doris的场景下,CheckPoint设置的时间需要考虑每批次数据量,如果每批次数据太小会造成大量小文件,推荐值为60s。 建议不使用insert values作为数据写入的主要方式,批量数据导入推荐使用StreamLoad、BrokerLoad或SparkLoad。
建表时分区不要超过10万个,分区太多会影响元数据加载速度,阻塞查询 Impala元数据和分区、文件数量正相关,太多分区会导致Impala元数据占用内存过大,刷新元数据时需要扫描的分区文件就越多,极大地降低查询效率。 建表时整数类型的分区键不补前置0,例如'hour=01'等分区
“USER”及“PASSWD”可在用户账号一览表中查看DBservice数据库默认用户及初始密码。 Hive元数据存放在外部的关系型数据库存储时,请通过如下步骤获取信息: 集群详情页的“数据连接”右侧单击“单击管理”。 在弹出页面中查看“数据连接ID”。 在MRS控制台,单击“数据连接”。
指集群部分功能不可用的告警,包括进程故障、周期备份任务失败、关键文件权限异常等,需要根据告警及时检查报告告警的对象并恢复。 一般 指不影响当前集群主要功能的告警,包括证书文件即将过期、审计日志转储失败、License文件即将过期等告警。 提示 指级别最低的一种告警,起到信息展示或信