6000 端口占用导致 SLURM 卡死诊断一例
今天在组里的某个 GPU 集群上部署了一套 SLURM,方便多人使用。我本以为只是从已有集群复制配置、启动服务,十分钟之内就能搞定,没想到因为一个玄学的问题整整卡了一个多小时。
在 RTX 5090 (SM120) 上补全 NVFP4 量化相关 kernel
本文部分内容由 GPT 5.4 根据大纲写成,我进行了校对和风格修改。如仍有生硬之处,敬请谅解。本文中的 vibe coding 过程使用 GPT 5.4 / Claude Opus 4.6 完成,使用了 Cursor 和 Claude Code 作为不同阶段的辅助工具。
在 Kubernetes 上部署 JupyterHub 的经验记录
为了方便各类课程给学生提供开箱即用的 Python 环境,我在教学实验室的 Kubernetes 上(由杰哥强力驱动)部署了一套 JupyterHub,并进行了一些必要的自定义。本文介绍整个部署过程,并记录一些经验和踩过的坑。
IPMI SDR 和坑爹的 BMC 电源读数一例
最近组里新购入了一些杂牌 GPU 服务器,为了监控功耗,我部署了 Prometheus 社区的 ipmi_exporter 从 BMC 读取带外数据,并使用 Grafana 制作了 Dashboard。然而很快我就发现了奇怪的现象:
用于提供现代 PyPI 镜像的 NGINX 配置
众所周知,在镜像站界,PyPI 是个难伺候的主:大量的硬盘占用、巨大的流量、频繁的更新,还有不靠谱的同步工具 bandersnatch。你说为什么不靠谱?听说过其他 没有能力 删除上游删掉了的文件的同步工具吗?
共计 54 篇文章,7 页。