检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
hadoop-<SSH_USER>-<process_name>-<hostname>.out HDFS运行环境信息日志。 hadoop.log Hadoop客户端操作日志。 hdfs-period-check.log 周期运行的脚本的日志记录。包括:自动均衡、数据迁移、JournalNode数据同步检测等。
Beeline version 1.1.0 by Apache Hive (可选)通过beeline -help命令查看关于客户端显示的设置。如下: -u <database url> the JDBC URL to connect to -n <username>
NettySink作为Netty的服务器端,内部NettyServer实现服务器功能;NettySource作为Netty的客户端,内部NettyClient实现客户端功能。 发布者 通过NettySink向下游Job发送数据的Job称为发布者。 订阅者 通过NettySource接收
若配置业务日志与TaskManager运行日志分开打印后,业务日志不输出至taskmanager.log,无法使用Web页面进行查看相应日志信息。 修改客户端的配置文件“conf/logback.xml”,在文件中添加如下日志配置信息,加粗标注部分根据需要进行修改。 <appender name="TEST"
若配置业务日志与TaskManager运行日志分开打印后,业务日志不输出至taskmanager.log,无法使用Web页面进行查看相应日志信息。 修改客户端的配置文件“conf/logback.xml”,在文件中添加如下日志配置信息,加粗标注部分根据需要进行修改。 <appender name="TEST"
permission 创建数据库时使用的权限 location 数据库的位置 comment 数据库的备注,比如描述 properties 数据库属性 返回结果 参数 描述 database 新创建的数据库的名字 例子 curl -i -u : --negotiate -X PUT -HC
该场景下MRS的优势如下所示。 低成本:利用OBS实现低成本存储。 海量数据分析:利用Hive实现TB/PB级的数据分析。 可视化的导入导出工具:通过可视化导入导出工具Loader,将数据导出到DWS,完成BI分析。 海量数据存储场景 用户拥有大量结构化数据后,通常需要提供基于索
Spark采用Master和Worker的模式,如图3所示。用户在Spark客户端提交应用程序,调度器将Job分解为多个Task发送到各个Worker中执行,各个Worker将计算的结果上报给Driver(即Master),Driver聚合结果返回给客户端。 图3 Spark的Master和Worker 在此结构中,有几个说明点:
若配置业务日志与TaskManager运行日志分开打印后,业务日志不输出至taskmanager.log,无法使用Web页面进行查看相应日志信息。 修改客户端的配置文件“conf/logback.xml”,在文件中添加如下日志配置信息,加粗标注部分根据需要进行修改。 <appender name="TEST"
就会出现Region中存在多个HFile的情况,从而影响读取的性能。所以如果读取的性能不理想的时候,也要考虑写入的配置是否合理。 读数据客户端调优 Scan数据时需要设置caching(一次从服务端读取的记录条数,默认是1),如果使用默认值读性能会降到极低。 当不需要读一条数据所
表输入 概述 “表输入”算子,将关系型数据库表的指定列按顺序转换成同等数量的输入字段。 输入与输出 输入:表列 输出:字段 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 输入字段 配置关系型数据库输入字段的相关信息: 位置:配置输入字段的位置。 字段名:配置输入字段名。
法将数据发送到各个分片。 该键是写分布式表保证数据均匀分布在各分片的唯一方式。 规则 不建议写分布式表。 由于分布式表写数据是异步方式,客户端SQL由Balancer路由到一个节点之后,一批写入数据会先落入写入的节点,随后根据分布式表schema定义数据分布规则,将数据异步发送到
若配置业务日志与TaskManager运行日志分开打印后,业务日志不输出至taskmanager.log,无法使用Web页面进行查看相应日志信息。 修改客户端的配置文件“conf/logback.xml”,在文件中添加如下日志配置信息,加粗标注部分根据需要进行修改。 <appender name="TEST"
Regions”列上Region的个数分布是否均衡。 是,执行20。 否,执行16。 以omm用户登录故障RegionServer节点。 进入客户端安装目录,设置环境变量。 cd 客户端安装目录 source bigdata_env kinit 归属于supergroup用户组或具备Global的Adm
<Kafka集群IP:21007> --consumer.config config/consumer.properties Shell命令需要在目录“客户端安装目录/Kafka/kafka/bin”下执行。 凡可指定“ * ”值以代表all value,且格式为“--参数 参数值”, 例如: --group
<Kafka集群IP:21007> --consumer.config config/consumer.properties Shell命令需要在目录“客户端安装目录/Kafka/kafka/bin”下执行。 凡可指定“ * ”值以代表all value,且格式为“--参数 参数值”, 例如: --group
ger WebUI上对指定service设置权限策略,Ranger插件会定期从RangerAdmin处更新策略并缓存在组件本地文件,当有客户端请求需要进行鉴权时,Ranger插件会对请求中携带的用户在策略中进行匹配,随后返回接受或拒绝。 组件每次启动都会检查组件默认的Ranger
resourcemanager.connect.retry-interval.ms,即重试次数=连接RM的等待时间最大值/重试连接RM的时间频率。 在Spark客户端机器中,通过修改“conf/yarn-site.xml”文件,添加并配置“yarn.resourcemanager.connect.max-wait
HBase本地二级索引介绍 场景介绍 HBase是基于Key-Value的分布式存储数据库,基于rowkeys对表中的数据按照字典进行排序。如果您根据指定的rowkey查询数据,或者扫描指定rowkey范围内的数据,HBase可以快速查找到需要读取的数据,从而提高效率。在大多数实
HBase本地二级索引介绍 场景介绍 HBase是基于Key-Value的分布式存储数据库,基于rowkeys对表中的数据按照字典进行排序。如果您根据指定的rowkey查询数据,或者扫描指定rowkey范围内的数据,HBase可以快速查找到需要读取的数据,从而提高效率。在大多数实