驱逐节点上pod（驱逐节点上的pod）

原标题：驱逐节点上pod（驱逐节点上的pod）

导读：

5分钟搞懂K8S的污点和容忍度(理论+实战)管理节点污点与Pod的容忍度是Kubernetes系统中的关键操作。通过调整节点的污点配置与Pod的容忍度设置，能够实现节点资源的...

5分钟搞懂K8S的污点和容忍度(理论+实战)

管理节点污点与Pod的容忍度是kubernetes 系统中的关键操作。通过调整节点的污点配置与POD的容忍度设置，能够实现节点资源的高效分配与pod的灵活调度。操作中，需注意污点与容忍度的匹配关系，确保系统运行的稳定与高效。

而污点容忍的作用举个例子，如果像上面污点一样设置了 NoSchedule 污点的节点，那么创建pod的时候是必不被调度到的，但是如果我使用污点容忍，那这个节点可以在设置 NoSchedule 污点的情况下可能又被调度，类似于亲和性那种作用。

Pod 的生命周期经历多个阶段，正常情况下，从 Pending 到 Running 只需几秒。然而，当遇到问题时，Pod 会停滞，直到问题得到解决。例如，当没有足够的节点资源，节点不可调度，或者由于污点和容忍度限制时，Pod 将保持 PEnding 状态。调度问题是最常见的原因。

年大厂实战场景面试题精析（附真题拆解）场景题1：高并发秒杀中的超卖与数据一致性挑战题目：“现有电商秒杀活动，预估峰值QPS 50K+。当前方案：redis 缓存库存，预扣减成功后异步写MQ通知下游扣减数据库库存。线上发现存在超卖（实际库存不足但下单成功）且偶发用户支付成功但库存未扣。

Kubernetes 核心 组件之kubelet工作机制简析

Kubelet作为KuberneTES 集群中的节点守护进程，其工作机制涉及多个方面，通过监听与同步API server的事件、执行Pod生命周期管理操作、监控资源与上报事件等流程，确保了Kubernetes集群的稳定性和高效性。深入理解kubelet的工作机制对于研发、运维人员来说至关重要，它有助于更好地管理集群、优化资源配置并提升系统的整体性能。

Kubelet 作为 Kubernetes 的执行器，几乎 Kubernetes 支持的所有功能都在 Kubelet 中有具体的实现方式。因此，掌握 kubelet 对于深入理解 Kubernetes 至关重要。通过了解 Kubelet 的架构、核心组件以及工作原理，可以更好地管理和维护 Kubernetes 集群中的容器化应用。

Kubelet是Kubernetes中运行在每个节点上的核心组件，主要负责管理节点上容器的运行，确保Pod按预期执行任务。下载和运行容器镜像Kubelet通过与Kubernetes API Server交互，获取Pod的定义信息（如容器镜像、资源限制等），并从镜像仓库下载所需的容器镜像。

总结kubelet 是 Kubernetes 中至关重要的组件，它负责在每个节点上管理和维护容器和 Pod。通过深入理解 kubelet 的作用、控制流程、监视机制、架构以及 CRI 接口，我们可以更好地理解和使用 Kubernetes。kubelet 的高效运行和稳定性能对于整个 Kubernetes 集群的稳定性和可靠性至关重要。

一次意想不到的pod内存驱逐问题

答案：此次Pod驱逐问题的原因是K8S集群中的kubelet服务未正确识别到节点内存扩容后的新配额，导致在内存使用达到原配额上限时触发了Pod驱逐。详细分析：案发现场：客户反馈门户网站无法打开，多个Pod状态为Evicted（驱逐）。

以下是三个大厂K8s集群故障案例：案例一：电商平台促销活动Pod驱逐故障问题现象：促销活动期间，超30%的Pod进入Evicted状态，多个Worker节点内存使用率超95%，用户支付失败率从0.1%升至15%。根因分析：节点内存不足触发kubelet主动驱逐机制，recommendation - Service的Pod内存占用异常高且未设置内存限制。

在Linux系统层面，内存不足导致进程被kill的现象较为常见。通过命令`dMESg | tail -N`，您可以查看近N行系统日志，寻找被kill的进程信息。

在Kubernetes（K8S）环境中，当Pod使用的内存超过其限制时，会发生内存溢出（OOM）并被K8S重启。这里讨论的是一个特殊的内存溢出案例，其特殊之处在于问题并非由Java 虚拟机（JVM）引起。问题背景 Pod内存分配：该服务所在的Pod被设置为2G内存限制，超过此限制将触发K8S的OOM重启机制。

Kubernetes OOM（内存不足）问题 Pod 中的每个容器都需要内存才能运行。当容器使用的内存超过其限制时，linux 内核的 OOM Killer 会终止该进程以回收内存。OOM 的触发条件：容器使用的内存超过其设置的 limits。节点上的内存资源不足，导致 Kubernetes 需要驱逐一些 Pod 以释放内存。

与内存不同，Kubernetes 不会因为限流而杀死 Pod。you can check CPU stATS in /sys/fs/cgroup/cpu/cpu.stat 正如我们在 limits 和 requests 文章中看到的，当我们想要限制进程的资源消耗时，设置 limits 或 requests 非常重要。

k8s挂载 文件夹为空?

如在/var/lib/Docker/overlay2和/var/log/或/var/log/journal下存放的大文件，可能导致集群异常或运行不正常。磁盘空间满载时，容器运行时目录所在磁盘空间的使用率过高，影响Pod的启动和运行，比如kubelet日志出现PLEG unhealthy状态。

**挂载问题**：检查Pod的挂载配置，确保/etc/profile所在的文件系统被正确挂载到Pod中。可能需要调整挂载路径或权限设置。 **环境变量设置**：确认Pod的环境变量配置是否正确，某些环境变量可能会影响对/ETC/profile的读取。

第一部分，只读层：它是这个容器的 rootfs 最下面的五层，对应的正是 ubuntu：latest 镜像的五层，挂载方式都是只读的（ro+wh，即 readonly+whiteout）这些层，都以增量的方式分别包含了 Ubuntu 操作系统的一部分第二部分，可读写层。（rw）在没有写入文件之前，这个目录是空的。

标签：节点内存 Kubernetes