检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Records处理: 为了使数据处理应用程序为用户增值,不可避免地需要对数据进行某种程度的集成。在大多数情况下,数据质量问题源于生成源数据的上游(主要)系统。 有两种完全不同的方式处理Bad Data: 按照原始数据加载所有数据,之后进行除错处理。 在进入数据源的过程中,可以清理或擦除Bad Data,或者在发现Bad
and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"] projectId = "{project_id}"
配置HDFS详细参数。 user.keytab 对于Kerberos安全认证提供HDFS用户信息。 krb5.conf Kerberos server配置信息。 不同集群的“user.keytab”、“krb5.conf”不能共用。 “conf”目录下的“log4j.properti
path”属性和workflowAppUri属性的值保持一致。 执行流程文件 命令: oozie job -oozie https://oozie server hostname:port/oozie -config job.properties文件所在路径 -run 参数列表: 表2 参数列表
bigdata_env kinit developuser 启动流程。 命令: oozie job -oozie https://oozie server hostname:port/oozie -config job.properties文件所在路径 -run 参数列表: 表2 参数列表
在Manager界面,选择“集群 > 服务 > IoTDB > 实例”查看。 IoTDBServer RPC端口可在参数“IOTDB_SERVER_RPC_PORT”中自行配置。默认端口如下: 开源端口默认值为:6667 定制端口默认值为:22260 端口定制/开源区分:创建LT
count(empno) from carbon_table_MulTI_THread").show() } } 重置(Reset): RESET 系统响应 若运行成功,将记录在driver日志中。 若出现故障,将显示在用户界面(UI)中。 父主题: DML
[BLOOM | HBASE | GLOBAL_BLOOM | SIMPLE | GLOBAL_SIMPLE] 。 布隆过滤器消除了对外部系统的依赖,并存储在Parquet数据文件的页脚中。 BLOOM hoodie.index.bloom.num_entries 存储在布隆过滤器中的条目数。
Distributed DDL ALTER UPDATE queries are undesirable. ... 如果防御规则设置的是拦截,则命令执行失败,系统回显信息如下: ... DB::Exception: Distributed DDL ALTER TABLE UPDATE queries
view.acls.groups”配置指定修改Web UI任务明细的访问者列表和组列表。 配置描述 登录FusionInsight Manager系统,选择“集群 > 服务 > Spark2x > 配置”,单击“全部配置”,搜索acl,在对应的JobHistory,JDBCServer,
Submit任务不受影响 直接重启耗时约5分钟 滚动重启 滚动重启不影响任务 滚动重启2个实例约10分钟 Flink 直接重启 仅影响Flink Server任务,Flink Jar、Flink SQL任务不受影响 直接重启耗时约5分钟 滚动重启 不支持滚动重启 - Clickhouse 直接重启
Storage、Environment和Executors的信息进行查询,FusionInsight版本中添加了查询SQL、JDBC Server和Streaming的信息的REST接口。开源REST接口完整和详细的描述请参考官网上的文档以了解其使用方法:https://archive
<outputPath> 此命令包含了设置参数和提交job的操作,其中<inputPath>指HDFS文件系统中input的路径,<outputPath>指HDFS文件系统中output的路径。 在执行以上命令之前,需要把log1.txt和log2.txt这两个文件上传到HDFS
以下操作步骤以导入Java样例代码为例。操作流程如图1所示。 图1 导入样例工程流程 前提条件 确保本地环境的时间与MRS集群的时间差要小于5分钟,若无法确定,请联系系统管理员。MRS集群的时间可通过FusionInsight Manager页面右下角查看。 已准备开发环境及MRS集群相关配置文件,详情请参考准备Spark连接集群配置文件。
以下操作步骤以导入Java样例代码为例。操作流程如图1所示。 图1 导入样例工程流程 前提条件 确保本地环境的时间与MRS集群的时间差要小于5分钟,若无法确定,请联系系统管理员。MRS集群的时间可通过FusionInsight Manager页面右下角查看。 已准备开发环境及MRS集群相关配置文件,详情请参考准备Spark连接集群配置文件。
对应的连接的使用权限。 操作步骤 设置作业基本信息 登录“Loader WebUI”界面。 登录FusionInsight Manager系统,具体请参见访问集群Manager。 选择“集群 > 服务 > Loader”。 单击“LoaderServer(节点名称,主)”打开“Loader
flush.size 若MemStore的大小(单位:Byte)超过指定值,MemStore将被冲洗至磁盘。该参数值将被运行每个hbase.server.thread.wakefrequency的线程所检验。建议设置为HDFS块大小的整数倍,在内存足够put负载大情况下可以调整增大。 134217728
flush.size 如果MemStore的大小(单位:Byte)超过指定值,MemStore将被冲洗至磁盘。该参数值将被运行每个“hbase.server.thread.wakefrequency”的线程所检验。建议设置为HDFS块大小的整数倍,在内存足够Put负载大情况下可以调整增大该值。
登录FusionInsight Manager,选择“集群 > 服务 > Flume > 配置工具”。 图3 选择配置工具 “Agent名”选择“server”,然后选择要使用的source、channel以及sink,将其拖到右侧的操作界面中并将其连接。 例如采用Avro Source、File
时还会开启一个侦听器,等待JDBC客户端的连接和提交查询。所以,在配置ThriftServer的时候,至少要配置ThriftServer的主机名和端口,如果要使用Hive数据的话,还要提供Hive Metastore的URIs。 ThriftServer默认在安装节点上的1000