vmdk 文件膨胀 (Thin-Provisioning) 发表于 2022-01-01 由于服务器集群中有个 VMWare 虚拟机占据 host 物理机(宿主机)很大空间, 检查后发现其实 guest OS 中的 used 数据空间很小, 与占据的 host 机物理空间大小 之间的差距很大. 例1: 有一个 virtual disk(虚拟硬盘), maxsize 设置是1TB, .vm ... 阅读全文 »
GParted Live - 缩小分区 发表于 2021-12-23 GParted Live之前安装时 Linux 主分区给的太大, 现在需要进行缩小腾出空间作为其他用途. GParted Live 是一个简易OS, 可以烧录在 usb 盘上开机 boot 引导启动, 下载地址: gparted-live-xxx-amd64.iso. 这个 Live Linux ... 阅读全文 »
Hive 分区写入指定文件数 以及陷阱 发表于 2021-11-20 Hive 写入动态分区时, 常常遇到小文件和文件数量过大的问题, 常用方法是: 利用 distribute by 来进行控制数据分发到 reducer 写文件的过程 为了避免出现数据倾斜, distribute by 后面会跟上一个 rand() 随机数 若要控制文件数, 可以在这个 rand( ... 阅读全文 »
SnappyData 大数据秒级检索 发表于 2021-10-02 SnappyData 是集成了分布式内存数据库和计算于一体的分析数据库,初次接触 SnappyData 是因为工作上有一个 ad-hoc 即时查询的需求,需要秒级返回十亿数据级特征中的 Top 1000 搜索结果, 还需要支持自定义计算逻辑.最后找到了 SnappyData, 那就来看看为什么它能满 ... 阅读全文 »
【数仓】事实表设计过程 发表于 2021-09-13 以下笔记来自 <阿里巴巴大数据实践>. 事实表的设计过程Kimball 对于维度模型设计采用四步设计方法, 但是在互联网大数据场景下, 可以进行一些改进. 1, 确定业务过程和事实表类型首先, 明确业务需求后, 对业务的生命周期进行分析,明确关键的业务步骤, 然后选择与需求有关的业务过程 ... 阅读全文 »
【数仓】事实表设计原则 发表于 2021-08-20 以下笔记来自 <阿里巴巴大数据实践>. 设计原则1, 尽可能包含所有与业务过程相关的事实事实表设计的目的是为了度量业务过程, 所以重点在于分析哪些事实与业务过程相关,尽量将其包含进事实表中, 可以冗余存储. 2, 只选择与业务过程相关的事实原则1是针对与业务过程相关的事实, 而不相关 ... 阅读全文 »
Vim _ 同步系统 ClipBoard (提前检查特性) 发表于 2021-07-15 Vim 同步系统 ClipBoard如何打通 vim 的寄存器和 Desktop 系统的 ClipBoard, 记得很久之前处理过 Vim 不支持系统粘贴板的问题,今天新装了系统, 再次碰到了, 以为自己的 装机配置脚本出问题了, debug 了一阵子, 然后才想起原因,当时太忙没有写博客记录, 今 ... 阅读全文 »
Bash - Here Documents & Strings 发表于 2021-06-09 Here Documents这是一种重定向, 可以让 shell 读取输入直至碰到某个词, 读取的内容会作为 standard input. 语法: [n]<<[-]word here-documentdelimiter 示例:➜ cat <<EOFhered ... 阅读全文 »
【数仓】数据质量保障 发表于 2021-05-04 以下笔记来自: <阿里大数据之路> 保障数据的哪些方面 完整性避免数据的缺失, 比如记录缺失、字段缺失等等, 这是最基础的数据保障之一. 准确性记录中的数据是否准确, 有无异常或错误.比如年龄为负数、下单时间为公司成立前、等等 在业务上属于错误的信息. 一致性比如 ID,对于同一份数 ... 阅读全文 »
htop 里内存使用类型对应的颜色 发表于 2021-04-17 htop 是 Linux 桌面常用的命令, 可以在一个面板里看到系统的运行概况,但是之前有个疑问, 这些不同颜色对应的是哪一类呢?今天刚好有空, 查文档没看到说明, 就推测了一下. 如上图是 htop 的内存部分, 下面再输出各个类型的内存使用情况: ➜ free -m --wide ... 阅读全文 »