GraphX 图并行计算 (二)

发表于 2020-10-27

GraphX 相关的图计算模型主要有两个: Google Pregel 和 GraphLab 团队的 GAS. Google PregelPregel 是 Google 提出的一个大规模分布式图处理算法.paper 地址: https://kowshik.github.io/JPregel/preg ...

阅读全文 »

启用 IPv6 (因为 IPv4 收费了)

发表于 2024-02-20

AWS 要开始对一些服务的公网 IPv4 进行收费了, 比如 LightSail,不过 IPv6 还是可以免费的, 之前一直偷懒, 没有换 IPv6,今天决定把 IPv6 用起来. 启用 IPv6ISP首先看网络业务提供商 ISP 是否支持, 这个可以看看 Modem IP 或路由器 WAN 口 ...

阅读全文 »

Hudi / Hbase / Hadoop 3 版本兼容问题

发表于 2024-01-24

环境:Hudi: 0.14Spark: 3.4HBase: 2.4.9Hadoop: 3 在使用 Hudi 建表和插入数据到 HDFS 时, 出现错误: Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.hdfs.client.Hd ...

阅读全文 »

【Spark】v3 AQE 实例 - 动态优化数据倾斜

发表于 2023-12-12

今天继续实验 AQE 的特性, 看看动态优化数据倾斜的实例. 运行items 和 sales 表数据继续用前一篇博客创建的, 需要注意的是 sales 表,s_item_id 为 100 的分区会远远大于其他分区, 存在数据倾斜, 如下: CREATE TABLE hive_niko_test.sa ...

阅读全文 »

【Spark】v3 AQE 实例 - 动态切换 Join 策略

发表于 2023-11-15

今天继续实验 AQE 的特性, 看看动态切换 Join 策略的实例. 运行items 和 sales 表数据继续用前一篇博客创建的, 开启AQE, 并提交以下查询: set spark.sql.adaptive.enabled = true;SELECT s_date, sum(s_quantit ...

阅读全文 »

【Spark】v3 AQE 实例 - 动态合并分区

发表于 2023-10-12

前面学习了 Spark 3 AQE 特性, 而在实际任务中是怎样的呢, 下面就来试试. 环境建表: CREATE DATABASE IF NOT EXISTS hive_niko_test;USE hive_niko_test; DROP TABLE IF EXISTS items;DROP TAB ...

阅读全文 »

【Spark】v3 - Adaptive Query Execution

发表于 2023-09-04

之前工作中 Spark 2 用的较多, 但新版本的 Spark 3 加入了 AQE 优化(全称 Adaptive Query Execution, 自适应查询执行), 这个特性还是很实用的. 在以前, cost-based optimization (CBO) 是 Spark SQL 优化的重要特 ...

阅读全文 »

【挖掘】VSM 和 tf_idf 应用于用户兴趣

发表于 2023-08-14

以前在学习 Lucene 和搜索引擎原理时, 了解过 Vector Space Model + tf_idf,不过今天的主角是用户兴趣挖掘, 是因为之前发现有些公司这样用了. tf_idf首先了解什么是 tf_idf. 在文本搜索引擎中, 我们一般会输入多个词语进行搜索(暂且把一个词语称为 te ...

阅读全文 »

【数仓】拉链表 (极限存储) 优化

发表于 2023-07-18

快照数据, 是数据仓库必不可少的一部分, 尤其是对一些业务来说, 比如贷款风控业务,常常需要申请贷款前一天的用户画像和相关特征的快照, 作为训练数据集. 最方便的, 比如每一天都存一份全量数据的快照, 容易实现和方便管理.然而这种方式对于较大的表来说 : 存储快照数据的成本是巨大的, 尤其在云上精 ...

阅读全文 »

【Docker】Swarm 部署 MySQL

发表于 2023-06-20

最近在用 Swarm 搭建一个新的大数据开发集群, 因为安装 Hive 需要用到 MySQL,为了方便部署和统一维护, 决定把 MySQL 也加入到 Swarm 部署环境中,而且后续要部署多版本的大数据组件, 为了环境隔离也会频繁用到. SwarmSwarm 是管理 Docker 集群的实用工具. ...

阅读全文 »