149 lines
8.2 KiB
Markdown
149 lines
8.2 KiB
Markdown
|
---
|
|||
|
outline: [2,5]
|
|||
|
---
|
|||
|
|
|||
|
# ZFS 存储驱动程序
|
|||
|
ZFS 是下一代文件系统,支持许多高级存储技术,如卷管理、快照、校验和、压缩和重复数据删除、复制等。
|
|||
|
|
|||
|
它由 Sun Microsystems(现为 Oracle Corporation)创建,并根据 CDDL 许可证进行开源。由于 CDDL 和 GPL 之间的许可不兼容,ZFS 不能作为主线 Linux 内核的一部分提供。但是,ZFS On Linux (ZoL) 项目提供了树外内核模块和用户空间工具,这些工具可以单独安装。
|
|||
|
|
|||
|
ZFS on Linux (ZoL) 端口运行状况良好且日趋成熟。但是,目前不建议将 `zfs` Docker 存储驱动程序用于生产用途,除非您在 Linux 上具有丰富的 ZFS 使用经验。
|
|||
|
|
|||
|
:::warning 注意
|
|||
|
Linux 平台上还有一个 ZFS 的 FUSE 实现。不建议这样做。本机 ZFS 驱动程序 (ZoL) 经过了更多的测试,具有更好的性能,并且使用范围更广。本文档的其余部分涉及本机 ZoL 端口。
|
|||
|
:::
|
|||
|
|
|||
|
## 先决条件
|
|||
|
- ZFS 需要一个或多个专用块设备,最好是固态驱动器 (SSD)。
|
|||
|
- `/var/lib/docker/` 目录必须挂载在 ZFS 格式的文件系统上。
|
|||
|
- 更改存储驱动程序将使您已创建的任何容器在本地系统上都无法访问。使用 `docker save` 保存容器,并将现有镜像推送到 Docker Hub 或私有存储库,这样您以后就不需要重新创建它们。
|
|||
|
|
|||
|
:::warning 注意
|
|||
|
无需使用 `MountFlags=slave`,因为 `dockerd` 和 `containerd` 位于不同的挂载命名空间中。
|
|||
|
:::
|
|||
|
|
|||
|
## 使用 `zfs` 存储驱动程序配置 Docker
|
|||
|
1. 停止 Docker。
|
|||
|
2. 将 `/var/lib/docker/` 的内容复制到 `/var/lib/docker.bk`,并删除 `/var/lib/docker/` 的内容。
|
|||
|
```bash
|
|||
|
sudo cp -au /var/lib/docker /var/lib/docker.bk
|
|||
|
|
|||
|
sudo rm -rf /var/lib/docker/*
|
|||
|
```
|
|||
|
3. 在专用块设备或设备上创建新的 `zpool`,并将其挂载到 `/var/lib/docker/` 中。请确保指定了正确的设备,因为这是破坏性操作。此示例将两个设备添加到池中。
|
|||
|
```bash
|
|||
|
sudo zpool create -f zpool-docker -m /var/lib/docker /dev/xvdf /dev/xvdg
|
|||
|
```
|
|||
|
该命令将创建 `zpool` 并将其命名为 `zpool-docker`。该名称仅用于显示目的,您可以使用其他名称。使用 `zfs list` 检查池是否已正确创建和挂载。
|
|||
|
```bash
|
|||
|
sudo zfs list
|
|||
|
|
|||
|
NAME USED AVAIL REFER MOUNTPOINT
|
|||
|
zpool-docker 55K 96.4G 19K /var/lib/docker
|
|||
|
```
|
|||
|
4. 将 Docker 配置为使用 `zfs`。编辑 `/etc/docker/daemon.json` 并设置 `storage-driver` 添加到 `zfs`。如果文件之前为空,则现在应如下所示:
|
|||
|
```json
|
|||
|
{
|
|||
|
"storage-driver": "zfs"
|
|||
|
}
|
|||
|
```
|
|||
|
保存并关闭文件。
|
|||
|
5. 启动 Docker。使用 `docker info` 验证存储驱动程序是否为 `zfs`。
|
|||
|
```bash
|
|||
|
sudo docker info
|
|||
|
Containers: 0
|
|||
|
Running: 0
|
|||
|
Paused: 0
|
|||
|
Stopped: 0
|
|||
|
Images: 0
|
|||
|
Server Version: 17.03.1-ce
|
|||
|
Storage Driver: zfs
|
|||
|
Zpool: zpool-docker
|
|||
|
Zpool Health: ONLINE
|
|||
|
Parent Dataset: zpool-docker
|
|||
|
Space Used By Parent: 249856
|
|||
|
Space Available: 103498395648
|
|||
|
Parent Quota: no
|
|||
|
Compression: off
|
|||
|
<...>
|
|||
|
```
|
|||
|
## 管理 `zfs`
|
|||
|
### 增加正在运行的设备的容量
|
|||
|
要增加 `zpool` 的大小,您需要向 Docker 主机添加专用块设备,然后使用 `zpool add` 命令将其添加到 `zpool`:
|
|||
|
```bash
|
|||
|
sudo zpool add zpool-docker /dev/xvdh
|
|||
|
```
|
|||
|
### 限制容器的可写存储配额
|
|||
|
如果要按图像/数据集实施配额,则可以设置 `size` 存储选项来限制单个容器可用于其可写层的空间量。
|
|||
|
|
|||
|
编辑 `/etc/docker/daemon.json` 并添加以下内容:
|
|||
|
|
|||
|
```json
|
|||
|
{
|
|||
|
"storage-driver": "zfs",
|
|||
|
"storage-opts": ["size=256M"]
|
|||
|
}
|
|||
|
```
|
|||
|
|
|||
|
查看每个存储驱动程序的所有存储选项 [守护进程参考文档](https://docs.docker.com/reference/cli/dockerd/#daemon-storage-driver)
|
|||
|
|
|||
|
保存并关闭文件,然后重新启动 Docker。
|
|||
|
|
|||
|
## `zfs` storage 驱动程序的工作原理
|
|||
|
|
|||
|
ZFS 使用以下对象:
|
|||
|
|
|||
|
- Filesystems:精简配置,按需从 `zpool` 分配空间。
|
|||
|
- 快照:文件系统的只读空间高效时间点副本。
|
|||
|
- clones:快照的读写副本。用于存储与上一层的差异。
|
|||
|
|
|||
|
创建克隆的过程:
|
|||
|

|
|||
|
1. 从文件系统创建只读快照。
|
|||
|
2. 将从快照创建可写克隆。这包含与父图层的任何差异。
|
|||
|
|
|||
|
文件系统、快照和克隆都从底层 `zpool` 的
|
|||
|
|
|||
|
### 磁盘上的映像和容器层
|
|||
|
每个正在运行的容器的统一文件系统都挂载在 `/var/lib/docker/zfs/graph/` 中。请继续阅读,了解统一文件系统是如何组成的。
|
|||
|
### 图像分层和共享
|
|||
|
映像的基础层是 ZFS 文件系统。每个子层都是基于其下层的 ZFS 快照的 ZFS 克隆。容器是基于创建它的映像顶层的 ZFS 快照的 ZFS 克隆。
|
|||
|
|
|||
|
下图显示了如何将其与基于两层映像的正在运行的容器组合在一起。
|
|||
|
|
|||
|

|
|||
|
|
|||
|
当您启动容器时,将按顺序执行以下步骤:
|
|||
|
1. 映像的 Base Layer 作为 ZFS 文件系统存在于 Docker 主机上。
|
|||
|
2. 其他图像图层是托管其正下方图像图层的数据集的克隆。
|
|||
|
在图中,通过拍摄 Base Layer 的 ZFS 快照,然后从该快照创建克隆来添加 “Layer 1”。克隆是可写的,并按需占用 zpool 中的空间。快照是只读的,将 Base Layer 维护为不可变对象。
|
|||
|
3. 启动容器时,将在图像上方添加一个可写层。
|
|||
|
在图中,容器的读写层是通过创建映像顶层(第 1 层)的快照并从该快照创建克隆来创建的。
|
|||
|
4. 当容器修改其可写层的内容时,将为更改的块分配空间。默认情况下,这些块为 128k。
|
|||
|
|
|||
|
## 容器读取和写入如何与 `zfs` 配合使用
|
|||
|
### 读取文件
|
|||
|
每个容器的可写层都是一个 ZFS 克隆,它与创建容器的数据集(其父层的快照)共享其所有数据。读取操作速度很快,即使正在读取的数据来自深层。下图说明了数据块共享的工作原理:
|
|||
|
|
|||
|

|
|||
|
|
|||
|
### 写入文件
|
|||
|
编写新文件:从底层 `zpool` 按需分配空间 并且这些块直接写入容器的可写层。
|
|||
|
|
|||
|
修改现有文件:仅为更改的块分配空间,并且这些块使用写入时复制 (CoW) 策略写入容器的可写层。这样可以最小化层的大小并提高写入性能。
|
|||
|
|
|||
|
#### 删除文件或目录:
|
|||
|
- 删除存在于较低层中的文件或目录时,ZFS 驱动程序会掩盖容器的可写层中该文件或目录的存在,即使该文件或目录仍存在于较低的只读层中也是如此。
|
|||
|
- 如果在容器的可写层中创建并删除文件或目录,则 zpool 将回收这些块。
|
|||
|
|
|||
|
## ZFS 和 Docker 性能
|
|||
|
有几个因素会影响 Docker 的性能,使用 `ZFS` Storage 驱动程序。
|
|||
|
- 内存:内存对 ZFS 性能有重大影响。ZFS 最初是为具有大量内存的大型企业级服务器设计的。
|
|||
|
- ZFS 功能:ZFS 包括重复数据删除功能。使用此功能可以节省磁盘空间,但会占用大量内存。建议您为与 Docker 一起使用的 `zpool` 禁用此功能,除非您使用的是 SAN、NAS 或其他硬件 RAID 技术。
|
|||
|
- ZFS 缓存:ZFS 将磁盘块缓存在称为自适应替换缓存 (ARC) 的内存结构中。ZFS 的单副本 *ARC* 功能允许块的单个缓存副本由 的多个克隆共享。使用此功能,多个正在运行的容器可以共享缓存块的单个副本。此功能使 ZFS 成为 PaaS 和其他高密度使用案例的不错选择。
|
|||
|
- 碎片化:碎片化是写入时复制的自然副产品 像 ZFS 这样的文件系统。ZFS 通过使用 128k 的小块大小来缓解此问题。 ZFS 意图日志 (ZIL) 和写入的合并 (延迟写入) 有助于减少碎片化。您可以使用 `zpool status`。但是,如果不重新格式化和恢复文件系统,就无法对 ZFS 进行碎片整理。
|
|||
|
- 使用适用于 Linux 的本机 ZFS 驱动程序:由于性能不佳,因此不建议使用 ZFS FUSE 实现。
|
|||
|
|
|||
|
### 性能最佳实践
|
|||
|
- 使用快速存储:固态驱动器 (SSD) 提供比旋转磁盘更快的读取和写入速度。
|
|||
|
- 将卷用于写入密集型工作负载:卷为写入密集型工作负载提供最佳且最可预测的性能。这是因为它们绕过了存储驱动程序,并且不会产生精简配置和写入时复制引入的任何潜在开销。卷还有其他好处,例如允许您在容器之间共享数据,以及即使没有正在运行的容器正在使用卷也可以保留它们。
|