问题描述
节点上已经存在某个镜像了,但是拉取镜像时卡住:Pulling image …
故障排查三步走:
1、分类。故障排查的第一步是分类,缩小问题范围。
2、套路。不同问题,有不同的标准排查方法,详情可以参考阿里云ACK - 故障排除。
3、发散。百度+谷歌+ChatGPT,搜寻各种可能的解决办法并进行尝试。
本文中,我们主要学习故障排查的套路(标准流程)。
参考文档:
在 K8S 中,调度 是指将 Pod 放置到合适的节点上,以便对应节点上的 Kubelet 能够运行这些 Pod。
调度器通过 K8S 的监测(Watch)机制来发现集群中新创建且尚未被调度到节点上的 Pod,把它调度到一个合适的节点上运行。
K8S调度分为两个阶段:过滤和打分。过滤阶段会将所有满足 Pod 调度需求的节点选出来;在打分阶段会为 Pod 从所有可调度节点中选取一个最合适的节点。最后,会将pod调度到得分最高的节点上。
我们可以约束一个 Pod 限制其只能在特定的节点上运行,或优先在特定的节点上运行。具体方法包括:
我们也可以约束一些 Pod 不能在特定的节点上运行。具体方法是使用污点(taint)和容忍(tolerations)。
参考文档: