GraphX 图并行计算 (二) 发表于 2020-10-27 GraphX 相关的图计算模型主要有两个: Google Pregel 和 GraphLab 团队的 GAS. Google PregelPregel 是 Google 提出的一个大规模分布式图处理算法.paper 地址: https://kowshik.github.io/JPregel/preg ... 阅读全文 »
启用 IPv6 (因为 IPv4 收费了) 发表于 2024-02-20 AWS 要开始对一些服务的公网 IPv4 进行收费了, 比如 LightSail,不过 IPv6 还是可以免费的, 之前一直偷懒, 没有换 IPv6,今天决定把 IPv6 用起来. 启用 IPv6ISP首先看 网络业务提供商 ISP 是否支持, 这个可以看看 Modem IP 或 路由器 WAN 口 ... 阅读全文 »
Hudi / Hbase / Hadoop 3 版本兼容问题 发表于 2024-01-24 环境:Hudi: 0.14Spark: 3.4HBase: 2.4.9Hadoop: 3 在使用 Hudi 建表和插入数据到 HDFS 时, 出现错误: Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.hdfs.client.Hd ... 阅读全文 »
【Spark】v3 AQE 实例 - 动态优化数据倾斜 发表于 2023-12-12 今天继续实验 AQE 的特性, 看看动态优化数据倾斜的实例. 运行items 和 sales 表数据继续用前一篇博客创建的, 需要注意的是 sales 表,s_item_id 为 100 的分区会远远大于其他分区, 存在数据倾斜, 如下: CREATE TABLE hive_niko_test.sa ... 阅读全文 »
【Spark】v3 AQE 实例 - 动态切换 Join 策略 发表于 2023-11-15 今天继续实验 AQE 的特性, 看看动态切换 Join 策略的实例. 运行items 和 sales 表数据继续用前一篇博客创建的, 开启AQE, 并提交以下查询: set spark.sql.adaptive.enabled = true;SELECT s_date, sum(s_quantit ... 阅读全文 »
【Spark】v3 AQE 实例 - 动态合并分区 发表于 2023-10-12 前面学习了 Spark 3 AQE 特性, 而在实际任务中是怎样的呢, 下面就来试试. 环境建表: CREATE DATABASE IF NOT EXISTS hive_niko_test;USE hive_niko_test; DROP TABLE IF EXISTS items;DROP TAB ... 阅读全文 »
【Spark】v3 - Adaptive Query Execution 发表于 2023-09-04 之前工作中 Spark 2 用的较多, 但新版本的 Spark 3 加入了 AQE 优化(全称 Adaptive Query Execution, 自适应查询执行), 这个特性还是很实用的. 在以前, cost-based optimization (CBO) 是 Spark SQL 优化的重要特 ... 阅读全文 »
【挖掘】VSM 和 tf_idf 应用于用户兴趣 发表于 2023-08-14 以前在学习 Lucene 和搜索引擎原理时, 了解过 Vector Space Model + tf_idf,不过今天的主角是用户兴趣挖掘, 是因为之前发现有些公司这样用了. tf_idf首先了解什么是 tf_idf. 在文本搜索引擎中, 我们一般会输入多个词语进行搜索(暂且把一个词语称为 te ... 阅读全文 »
【数仓】拉链表 (极限存储) 优化 发表于 2023-07-18 快照数据, 是数据仓库必不可少的一部分, 尤其是对一些业务来说, 比如贷款风控业务,常常需要申请贷款前一天的用户画像和相关特征的快照, 作为训练数据集. 最方便的, 比如每一天都存一份全量数据的快照, 容易实现和方便管理.然而这种方式对于较大的表来说 : 存储快照数据的成本是巨大的, 尤其在云上精 ... 阅读全文 »
【Docker】Swarm 部署 MySQL 发表于 2023-06-20 最近在用 Swarm 搭建一个新的大数据开发集群, 因为安装 Hive 需要用到 MySQL,为了方便部署和统一维护, 决定把 MySQL 也加入到 Swarm 部署环境中,而且后续要部署多版本的大数据组件, 为了环境隔离也会频繁用到. SwarmSwarm 是管理 Docker 集群的实用工具. ... 阅读全文 »