如何监控pod运行状态，ip监视

原标题：如何监控pod运行状态，ip监视

导读：

使用metrics-server监控k8s的资源指标在部署文件的第 139 行，追加参数 --kubelet-insecure-tls。修改后的配置如下所示。完成参数添加后，...

使用metrics-server 监控k8s的资源 指标

在部署文件的第 139 行，追加参数 --kubelet-insecure-tls。修改后的配置如下所示。完成参数添加后，重新部署文件。随后，检查 Pod 运行状态，确认已正常启动。执行 kubectl top 命令成功获取资源指标。同时，通过代码方式获取资源指标，如使用相关工具或编写脚本进行监控。最后，推荐使用 DHorse 进行部署和监控应用，它能够有效管理 k8s 环境。

k8s提供top命令统计资源使用情况，包含node和POD子命令，显示节点和pod对象的资源使用信息。kubectl top命令依赖metrics接口，系统默认未安装，需单独部署。部署流程包括：下载metrics-server-components.yaml部署文件，修改镜像地址至国内镜像仓库，使用命令实现修改。部署metrics接口后，需查看该metric pod运行情况。

首先，需要搭建环境，确保所有的组件（Prometheus Server、Node Exporter、CADvisor、kube-state-metrics）都运行在各自指定的节点上。例如，prometheus Server部署在IP为191621的节点上，而kubernetes 集群的节点（如1916221213）则需要安装Node Exporter，用于收集节点级的监控数据。

HPA支持三种类型的metrics：一是预定义的Pod CPU利用率，二是自定义Pod的原始值计算，三是自定义对象的metrics。要实现资源监控，目标对象需配置resources.requests.cpu或resources.requests.memory，当CPU或内存使用超过预设百分比时，HPA会自动触发操作。

metrics-server 是 Kubernetes 生态中的一个重要组件，其主要的作用在于监测 Kubernetes的（node、pod）资源指标并提供监控系统做采集。Kubernetes 的许多特性都会依赖 metrics server，比如 kubectl top nodes/Pods 指令；比如 HPA 需要根据其获取资源利用率；再比如 Istio 的服务组件等。

从入门到精通:掌握Kubernetes探针的使用技巧

1、Liveness Probe Liveness Probe 主要用于检测容器是否存活。当探测失败，Kubernetes 将自动重启容器，确保应用程序处于健康状态。

2、对于就绪探针，可以使用HTTP get 请求作为检测方式。通过向容器的特定端口发送请求，并检查返回的状态码，Kubernetes可以判断容器是否已准备好接收流量。如果探测成功，容器将被标记为就绪；如果探测失败，则容器将被标记为未就绪。启动探针与就绪探针类似，但用于确保容器在启动后达到特定的状态。

3、启动容器时，可以为 Kubernetes 配置一个等待时间，经过等待时间后才可以执行第一次准备就绪检查。之后，它会周期性地调用探针，并根据就绪探针的结果采取行动。如果某个 pod 报告它尚未准备就绪，则会从该服务（Service）中删除该 pod。如果 pod 再次准备就绪，则重新添加 pod。

k8s中Pod状态及问题 排查 方法

1、含义：调度器未能将 Pod 调度到可用节点。可能原因：节点资源不足或 Pod 依赖的资源未准备好。排查方法：检查节点资源使用情况及资源预留情况，确保集群有足够的 CPU 和其他资源。CrashLoopBackoff 状态：含义：容器在启动后立即崩溃或退出。可能原因：容器配置错误、应用程序错误、内存不足或权限问题。

2、要排查镜像拉取问题，可使用kubectl describe pod命令检查pod事件，寻找“Failed to pull image”或“ImagePullBackOff”事件，表明镜像拉取存在问题。资源不足时，使用kubectl describe node命令检查节点资源状态。检查持久卷（PVC）状态，确保其STATUS为“Bound”，表明存储供应无问题。

3、Pod驱逐节点资源不足时，K8s驱逐内存敏感型Pod。优化资源配额和限制值，避免资源被耗尽。Pod失联 Pod处于Unknown状态，无法获取信息。检查Kubelet状态，修复节点问题。无法被删除 Pod执行删除操作后长时间处于Terminating状态。排查删除操作和集群状态，确保删除流程顺利。

zabbix支持对k8s监控吗?

ZABBix可以用来监控Kubernetes集群。Zabbix是一款开源的监控软件，它可以用来监控各种系统、网络和应用程序的性能，包括Kubernetes集群。

简介：一款由前GOOGLE 员工发布的开源监控系统，基于Go语言开发，受到Google与k8s的强大支持。学习资源：官方中文文档涵盖从入门到进阶的学习内容，包括核心概念、基础使用、实战项目等。Zabbix：简介：集监控、报警、管理于一体的开源分布式监控套件，功能强大、可扩展、灵活且用户友好。

监控中心采用Agent+Plugins设计模式，支持快速扩展各类监控对象的监控，解决Agent模式下组件对象监控数据采集问题。同时，通过协议/接口模式远程收集数据，解决无代理场景下的组件监控。

夜莺是一个分布式高可用运维监控系统，兼容物理机、虚拟机和K8S容器场景。它不仅监控，还具备CMDB与自动化运维功能，许多公司基于此开发自公司运维平台。与主流监控系统（如zabbix、Prometheus）相比，夜莺部署便捷，更贴合国人操作习惯，实践于多家大型公司线上环境（如美团、滴滴）。

云计算项目，包含大型网站高并发架构及自动化运维项目、公有云运维技术项目实战、web 安全渗透攻防项目实战，学完此阶段学员可以保证服务的在线率、提高网站的并发量、整合Kafka和ELK，进行日志采集平台的建设、Web安全渗透实验室构建。

Pod的生命周期

Pod 的生命周期包括创建、运行、终止或删除几个阶段：创建阶段：Pod 被创建后，会被赋予一个唯一的 ID。Pod 的状态通过 PodStatus 对象管理，其中包含一个 phase 字段，初始状态可能为 Pending，表示 Pod 正在被调度。

Pod 的生命周期包括创建、运行、终止或删除。Pod 被创建后，会被赋予一个唯一的 ID（UID）并被调度到节点。节点失效时，Pod 也会被计划删除。Pod 自身不具有自愈能力，当被调度到失效节点或因资源耗尽、节点维护被驱逐时，会被删除。Pod 实例由控制器管理，以应对随时可能丢弃的特性。

Pod生命周期是从创建到终止的整个过程，包括以下几个关键阶段和状态：创建阶段：客户端提交Pod创建请求到API Server。API Server生成并存储Pod的资源信息。调度器为Pod分配节点。Kubelet在分配的节点上启动容器，并向API Server报告状态。初始化容器运行：在主容器启动前，初始化容器按顺序执行。

Pod生命周期预设为从Pending阶段开始，只要至少一个主要容器启动成功，Pod状态进入Running。Pod状态取决于容器是否以失败状态结束，最终可能为Succeeded或Failed。Kubernetes监控Pod中每个容器状态，容器状态有三种。当容器配置了prestop回调，则在容器进入Terminated状态前执行此回调。

Pod健康检查介绍

1、在Kubernetes的生态系统中，Pod健康检查机制是确保容器健康运行的关键。默认情况下，kubelet依据容器运行状态来判断健康，但这不足以监控容器内部应用程序的健康状况，比如程序假死。由此引入了健康检查机制，它通过存活探测（livenessProbe）和就绪探测（readinessProbe）来监控容器的健康状态。

2、大概意思就是最开始前10s返回状态码200，10s过后就返回500的status_code了。所以当容器启动3秒后，kubelet开始执行健康检查。第一次健康监测会成功，因为是在10s之内，但是10s后，健康检查失败，因为现在返回的是一个错误的状态码了，所以kebelet将会杀掉和重启容器。

3、健康检查功能对于保障应用可用性和控制对外访问至关重要，分为存活探针、就绪探针和启动探针三种。选择合适探针需考虑应用启动阶段，确保应用在不同阶段都能顺利运行。实战部分通过模拟应用场景，展示了健康检查机制在实际部署中的应用与调试方法。

4、通过容器的IP地址和端口号执行TCP检查，如果能够建立TCP连接，则表明容器健康。资源文件定义访问8080端口，但是8080端口未开放，所以访问会超时，不能建立连接，命中检测，重启Pod 用于判断容器服务是否可用（Ready状态），达到Ready状态的Pod才可以接收请求。

5、ExecAction ：在容器内部执行一个命令，如果该命令的返回码为0 ，则表明容器健康。在下面的例子中，通过执行“cat /tmp/health”命令来判断一个容器运行是否正常。

6、在进行健康检查时，首先需要创建一个deployment和对应的Service。部署名为 nginx-healthcheck，Service也以同样的命名。接下来，使用kubectl命令查询Pod，确保部署正常运行。执行curl命令，通过访问Pod的IP地址来测试是否能成功获取Nginx中index.html的内容，表明部署健康且运行正常。