vmdk 文件膨胀 (Thin-Provisioning)

发表于 2022-01-01

由于服务器集群中有个 VMWare 虚拟机占据 host 物理机(宿主机)很大空间, 检查后发现其实 guest OS 中的 used 数据空间很小, 与占据的 host 机物理空间大小之间的差距很大. 例1: 有一个 virtual disk(虚拟硬盘), maxsize 设置是1TB, .vm ...

阅读全文 »

GParted Live - 缩小分区

发表于 2021-12-23

GParted Live之前安装时 Linux 主分区给的太大, 现在需要进行缩小腾出空间作为其他用途. GParted Live 是一个简易OS, 可以烧录在 usb 盘上开机 boot 引导启动, 下载地址: gparted-live-xxx-amd64.iso. 这个 Live Linux ...

阅读全文 »

Hive 分区写入指定文件数以及陷阱

发表于 2021-11-20

Hive 写入动态分区时, 常常遇到小文件和文件数量过大的问题, 常用方法是: 利用 distribute by 来进行控制数据分发到 reducer 写文件的过程为了避免出现数据倾斜, distribute by 后面会跟上一个 rand() 随机数若要控制文件数, 可以在这个 rand( ...

阅读全文 »

SnappyData 大数据秒级检索

发表于 2021-10-02

SnappyData 是集成了分布式内存数据库和计算于一体的分析数据库,初次接触 SnappyData 是因为工作上有一个 ad-hoc 即时查询的需求,需要秒级返回十亿数据级特征中的 Top 1000 搜索结果, 还需要支持自定义计算逻辑.最后找到了 SnappyData, 那就来看看为什么它能满 ...

阅读全文 »

【数仓】事实表设计过程

发表于 2021-09-13

以下笔记来自 <阿里巴巴大数据实践>. 事实表的设计过程Kimball 对于维度模型设计采用四步设计方法, 但是在互联网大数据场景下, 可以进行一些改进. 1, 确定业务过程和事实表类型首先, 明确业务需求后, 对业务的生命周期进行分析,明确关键的业务步骤, 然后选择与需求有关的业务过程 ...

阅读全文 »

【数仓】事实表设计原则

发表于 2021-08-20

以下笔记来自 <阿里巴巴大数据实践>. 设计原则1, 尽可能包含所有与业务过程相关的事实事实表设计的目的是为了度量业务过程, 所以重点在于分析哪些事实与业务过程相关,尽量将其包含进事实表中, 可以冗余存储. 2, 只选择与业务过程相关的事实原则1是针对与业务过程相关的事实, 而不相关 ...

阅读全文 »

Vim _ 同步系统 ClipBoard (提前检查特性)

发表于 2021-07-15

Vim 同步系统 ClipBoard如何打通 vim 的寄存器和 Desktop 系统的 ClipBoard, 记得很久之前处理过 Vim 不支持系统粘贴板的问题,今天新装了系统, 再次碰到了, 以为自己的装机配置脚本出问题了, debug 了一阵子, 然后才想起原因,当时太忙没有写博客记录, 今 ...

阅读全文 »