检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
从checkpoint恢复spark应用的限制 问题 Spark应用可以从checkpoint恢复,用于从上次任务中断处继续往下执行,以保证数据不丢失。但是,在某些情况下,从checkpoint恢复应用会失败。 回答 由于checkpoint中包含了spark应用的对象序列化信息、task执行状
park样例工程的配置文件目录中(通常为“resources”文件夹)。 复制解压目录下的“hosts”文件中的内容到客户端所在节点的hosts文件中。 在应用开发过程中,如需在本地Windows系统中调测应用程序,需要确保本地节点能与“hosts”文件中所列出的各主机在网络上互通。
使用SparkSql访问Hive的一个数据存放于OBS的一个分区表,但是运行速度却很慢,并且会大量调用OBS的查询接口。 SQL样例: select a,b,c from test where b=xxx 原因分析 按照设定,任务应该只扫描b=xxx的分区,但是查看任务日志可以发现
准备MRS节点引导操作脚本步骤如下: 上传所需安装包等文件至OBS文件系统。 正式编写脚本前,您需要将所需安装包、配置包的所有相关文件都上传到同Region的OBS文件系统中。 因为不同Region间有网络隔离,MRS虚拟机无法下载其他Region上的OBS文件。 脚本中如何从OBS文件系统下载文件。 您可以在
添加角色”。 填写角色的名称,例如developrole,单击“确定”保存角色。 在“配置资源权限”的表格中选择“待操作集群的名称 > ClickHouse > Clickhouse Scope”,勾选对应数据库的创建权限。单击对应的数据库名称,根据不同任务场景,勾选对应表的“读”、“写”权限,单击“确定”保存。
本地新建两个文本文件input_data1.txt和input_data2.txt,将log1.txt中的内容复制保存到input_data1.txt,将log2.txt中的内容复制保存到input_data2.txt。 在HDFS客户端路径下建立一个文件夹,“/tmp/input”,并上传input_data1
在安装客户端过程中,系统会自动配置客户端节点“hosts”文件,建议检查“/etc/hosts”文件内是否包含集群内节点的主机名信息,如未包含,需要手动复制解压目录下的“hosts”文件中的内容到客户端所在节点的hosts文件中,确保本地机器能与集群各主机在网络上互通。 父主题: 准备Doris应用开发环境
YARN队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。 操作前需要进行如下配置: 从MySQL数据库安装路径下获取MySQL客户端jar包(如mysqlclient-5.8.1.jar),将其保存在Loader服务主备节点的lib路径:“
YARN队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。 操作前需要进行如下配置: 从MySQL数据库安装路径下获取MySQL客户端jar包(如mysqlclient-5.8.1.jar),将其保存在Loader服务主备节点的lib路径:“
On Write 写时复制表也简称cow表,使用parquet文件存储数据,内部的更新操作需要通过重写原始parquet文件完成。 优点:读取时,只读取对应分区的一个数据文件即可,较为高效。 缺点:数据写入的时候,需要复制一个先前的副本再在其基础上生成新的数据文件,这个过程比较耗
进行应用开发时,需要同时准备代码的运行调测的环境,用于验证应用程序运行正常。 如果使用Linux环境调测程序,需在准备安装集群客户端的Linux节点并获取相关配置文件。 在节点中安装客户端,例如客户端安装目录为“/opt/client”。 客户端机器的时间与集群的时间要保持一致,时间差小于5分钟。
在“名称”填写一个作业的名称。 在“源连接”和“目的连接”选择对应的连接。 选择某个类型的连接,表示从指定的源获取数据,并保存到目的位置。 如果没有需要的连接,可单击“添加新连接”。 在“自”填写源连接的作业配置。 具体请参见Loader作业源连接配置说明。 在“至”填写目的连接的作业配置。
进行应用开发时,需要同时准备代码的运行调测的环境,用于验证应用程序运行正常。 如果使用Linux环境调测程序,需在准备安装集群客户端的Linux节点并获取相关配置文件。 在节点中安装客户端,例如客户端安装目录为“/opt/client”。 客户端机器的时间与集群的时间要保持一致,时间差小于5分钟。
"f1"创建dim_province表。 拷贝HBase配置文件至FlinkServer所在节点。 以客户端安装用户登录安装客户端的节点,拷贝HBase的“/opt/client/HBase/hbase/conf/”目录下的所有配置文件至部署FlinkServer的所有节点的一个空目录,如“/tmp
OBS连接是Loader与OBS进行数据交换的通道,配置参数如表1所示。 表1 obs-connector配置 参数 说明 名称 指定一个Loader连接的名称。 OBS服务器 输入OBS endpoint地址,一般格式为OBS.Region.DomainName。 例如执行如下命令查看OBS endpoint地址:
本章节指导用户通过租户资源绑定新增的Task节点,并提交Spark任务到新增的Task节点。 方案架构 租户是MRS大数据平台的核心概念,使传统的以用户为核心的大数据平台向以多租户为核心的大数据平台转变,更好的适应现代企业多租户应用环境,如图1所示。 图1 以用户为核心的平台和以多租户为核心的平台 对于
迁移工具时产生的错误日志。 日志级别 ClickHouse提供了如表3所示的日志级别。 运行日志的级别优先级从高到低分别是error、warning、trace、information、debug,程序会打印高于或等于所设置级别的日志,设置的日志等级越高,打印出来的日志就越少。 表3
hbase.examples”包的“TestMain”类main方法中的testHBaseDualReadSample注释,确保“com.huawei.bigdata.hbase.examples”包的“HBaseDualReadSample”类中的“IS_CREATE_CONNE
过界面图形化的方式查看ZooKeeper。 有关Hue的详细信息,请参见:http://gethue.com/。 Hue结构 Hue是建立在Django Python(开放源代码的Web应用框架)的Web框架上的Web应用程序,采用了MTV(模型M-模板T-视图V)的软件设计模式。
若使用Open JDK,请确保IntelliJ IDEA中的JDK配置为Open JDK。 不同的IntelliJ IDEA不要使用相同的workspace和相同路径下的示例工程。 安装Maven 开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 7-zip 用于解压“*.zip”和“*