SC 19：我们赢了！

从 11/15 到 11/22 的一周多的时间里，超算队前往美国丹佛参加了 SC19 SCC。这是今年的第三场超算比赛，也是收官之战。由于在前两场都拿了第二，大家都格外期待这次的结果。我们最终不负众望，成功地得到了第一（Overall Winner），也是第二年蝉联了 SC SCC 的冠军。我比完赛写博客好像已经成了传统，居然还被人催更了。刚好回国这几天因为种种原因不太想认真工作，于是决定摸摸鱼写写这次比赛的回顾。

赛题

SC19 的赛题在暑假前就发布了，大约有以下部分：

性能测试
- HPL （7.5 pts）
- HPCG （7.5 pts）
- IO-500 （bonus 1~2 pts）
HPC 应用
- SST（体系结构模拟，15pts）
- VPIC（有限元计算，15pts）
- 神秘应用（15pts）
SC18 论文复现（15pts）
整体面试（15pts）
Poster（5pts）
Advisor Engagement（5pts）

关于机器

选型

不同于 ASC 和 ISC，我们在 SC 依旧是由比特大陆赞助，因此需要我们对机器配置进行规划。我一开始今年还是按照去年的经验，选择了超微的两款机型：2029GP-TR 是 2U 的机器，至多可以插 3 个 PCI-E x16 设备，我们用作 CPU 节点；4029GP-TRT 是 4U 的丹炉，至多可以插 8 块卡和 3 个 x8 设备（但还是 x16 的槽），我们用作 GPU 节点；CPU 一概配置为双路 8280，内存 32GB * 12；互联使用了最新的 Infiniband HDR。

然而第一版配置交出去以后问题立刻来了：真的太贵了。我掐指一算，似乎预算都花在 CPU 上了，于是又找陈老师从 Intel 顺利地借来了 12 块 8280（甚至还是 8280L）的工程样片。这下价格问题都解决了，但是又被告知 HDR 的卡和交换机都有很长的货期。无奈之下，我把卡换成了 HDR100（虽然速率一样，但是延时比 EDR 有优势），而交换机就好在现场从 Mellanox 借 EDR 了。而同时，hkz 他们因为另一个比赛从 Mellanox 弄到了一种神奇的 HDR100 卡，有两个 PCI-E x16 的接口；一查才知道，这是一种叫 Socket Direct 的技术，这样两个 CPU 都可以直接和卡通信。我们的插法也比较神奇，把它们插在丹炉的两个 x8 口上，这样事实上单个插槽的速率只剩下了一半，但是加起来还是能打满带宽。

安装与调试

机器在十月下旬运到学校，我们大概有一个多星期的时间调试。上面提到，我们其实并没有 IB 交换机，而 fgy 告诉我们这种卡支持 VPI 技术，在使用 QSFP56 物理层的情况下，能够随意将链路层在 IB 和以太网之间切换。而在以太网模式下，它支持 Host Chaining 功能，就是能够支持硬件的链转发。但是事实上这一功能非常缺乏文档，表现也非常玄学。首先，它需要特别的 MPI（即 Mellanox 的 HPC-X）才能正常工作；在普通的 MPI 点对点通信模式下，性能在包大小较大时会产生断崖式下跌（大概是因为以太网的 MTU 比 IB 小多了，于是 fallback 回了 TCP 模式），而一些集合通信需要配置极其复杂的 UCX 参数才能进行，性能更是不正常。来回折腾了三天以后，我们终于决定，放弃这个方法，直接上交换机；国内没有，我们就从 BIC 上飞了无数的线解决这个问题。

然而集群装上以后大家发现了一个问题：Intel RAPL 不好用了，看起来是被 BIOS 锁了。我们功耗控制非常依赖这个功能，而重新刷了 BIOS 也没有用。危难时刻，坏人站了出来，从网上找到了一个神秘的修改 AMI BIOS 的工具，把默认配置里面的 RAPL 打开，然后刷进机器……果然这世界上是有奇迹的。

机器运输的过程按下不表，确实很累也很麻烦，中间还因为箱子里夹带了锂电池（一起寄过去的电动螺丝刀里的）被机场打回过一次。比赛的前两天是装机时间。到现场以后一开始我们并没有找到它们，后来才在相隔挺远的新竹清华附近找到。现场装机过程比较顺利（flag），上电跑起来也看起来没什么问题（flag * 2），所以装机第一天晚上（周五）大家都回去睡觉了，晚上还参加了一个 SC Student Mixer，是请大家到酒吧吃东西（排队好长啊）和玩游戏（hkz 居然夹起来了一个球！）。

第二天各个应用都试着跑了跑，压了压复现的功耗，一切看起来都很好。直到下午 hkz 指出了一个问题：机器的功耗抖动非常严重，哪怕只是 ssh 到一台机器上都能引起将近 100W 的功耗尖峰，而 clush 一下就有将近 500W。我们多次测试，果然如此，于是大家慢慢开始慌了。再看 Grafana 里面的功耗日志，是在学校就有这样的情况，但我们并没有非常留意。而一旦这个问题无法解决，我们的很多应用就只能非常保守地跑，必然带来被动的局面。一开始，我发现 CPU 电源的 governor 不对，似乎是 BIOS 里面的 P States 没打开；打开之后，功耗抖动的问题消失了，但是尖峰问题依旧。我们也考虑更换备用机（多带了两个 CPU 节点）、拆掉多余的硬件控制变量（包括 SSD 和 IB 卡），但是问题并没有任何环节。此时已经是第二天晚上快十点了，第二天上午就要开始 benchmarking 了，而我们因为这个问题并没有认真地开始调。

手足无措之下，我做了一个 Arch 启动盘，把服务器从 U 盘启动，尖峰居然不会出现了！观察了二十分钟以后，我确定真的是消失了。对比了一下环境的差异，我灵机一动：会不会是 Debian 9.8 的内核太老了，和最新的 8280 CPU 有奇怪的兼容性问题？于是我立刻找了台机器从 backports 升级了最新的内核和 microcode，重启，问题解决！此时已经是晚上十一点多。大喜过望，我和傲傲留在现场，我负责升级机器，他负责之后的 benchmarking 调参。到一点左右，六台机器都升级完了（除了系统，还有显卡驱动、IB 驱动等），功耗问题彻底消失，并且待机功耗也减少了 200W 左右。到两点多，傲傲还在调 HPL（不停爆功耗），我没有太多事做就回去睡觉了。

装机的这两天还发生了一件有趣的事情：我忘了带 console 线，并且到处借不到，于是去 TUNA 技术群不抱希望地问了一下有没有人来 SC 的话能帮我捎一根。没想到真的有人响应了，并且还帮我问了个“搞网络的朋友”并且借到了。第二天，当一个带着 committee 手环的人（黄华）给我 console 线的时候，我确实非常震惊，惊讶程度不亚于后来知道这个“朋友”其实是江大的时候……果然 TUNA 群友是万能的啊。

比赛环节

Benchmarking

第三天几乎整天是 benchmarking，要跑 HPL、HPCG 和 IO-500 三个基准测试。前两者要求比较严格，两个测试之间间隔不能超过半小时；并且用于 benchmark 的硬件不能再有任何改动（包括重启）。因为前一天 cggg 把空调调得太高，这一天我醒过来的时候口干舌燥，头疼欲裂。虽然意识到自己发烧了，我还是硬着头皮去了赛场。

一开始我们的过程比较顺利，用一个多小时就跑完了 HPL 和 HPCG，并且结果得到了组委会的认可。于是我就闭着眼睛跑了一发 IO-500，得到了一个还不错的结果，就赶紧回去睡觉了。睡了两个多小时，打开微信一看：IB 卡从系统消失了，说是自己过热了。这可是一个大问题，没有 IB 卡我们肯定无法正常运行程序，而使用 PCI 子系统的 remove 和 rescan 也没法把它找回来，恐怕是只能重启了，但是重启意味着所有测试需要重新运行。这时候我才想起来，其实上午发生过一次这个问题，hkz 来的时候直接重启了，我也忽略了这件事情。问题的根源是，在 CPU 节点中，IB 卡被安装在 GPU 位，而我给复现题压功耗的时候想到没有 GPU 就把风扇完全关掉了。于是只要复现题稍微运行一段时间，IB 卡就会因为过热报警，然后自杀。

这时候是下午三点多，没有任何别的方法，痛定思痛，我们只好从头来过。然而上午还能顺利跑完的 HPCG 可能因为会场过热或者电压不稳定，连续爆了好几次。我们不敢再冒险，只能留着 100W 的裕量跑完了它，然后是 HPL 和 IO-500（这其中还发生我因为忘了放开 CPU 功耗限制让 IO-500 变得奇慢无比的乌龙）。好在结果没有太差，少了 5% 左右。有惊无险地交掉了结果，就等着晚上正式比赛开始了。

说到 IO-500，这是今年 SCC 新增的项目，只需要完整运行测试就可以得到 1 分的加分，而分数最高的队伍可以得到 2 分。要跑的就是这个程序，分成 ior 和 mdtest 两部分，分别测试文件读写带宽和元数据操作性能。测试总共分成 8 个阶段，原本每个写阶段都要跑 5 分钟成绩才有效，不过 SCC 的规则下只需要跑 30 秒。它的最终分数是带宽（单位 GB/s）和元数据性能（单位 kIOPS）的几何平均值，而这两个值本身又是它们对应所有阶段结果的几何平均。

我们最后选用了 Intel P4618 这款 SSD 用来单机跑测试，这几乎是市面上单盘性能最强的 NVMe SSD 了。结果换上以后发现居然默认配置根本跑不满 30 秒，需要通过调参增大程序的写入量才能解决。一开始跑出来的成绩并不理想，然后我就进入了艰苦的调参阶段，尝试了各种不同的参数组合（包括进程数量/每个进程的写入量/文件数量等等），也尝试了用两块盘做 RAID 之类或者换文件系统之类的方案。踩了无数的坑（尤其是不知为何它很容易让 EXT4 元数据损坏，所以我一度把它称为 Corrupt-500）以后，最后我还是乖乖选择了单盘 EXT4 的方案，挂载时开 noatime，并且测试前进行一次全盘 erase 和格式化。最后我们的得分是 30.56（带宽 3.08028 GB/s，IOPS 303.121 kiops），这也是我历史上跑出来过的最高的分数（之前即使两盘也没有过这么高的时候）。

到了现场我才发现，很多队伍都对 IO-500 有所准备，甚至有人带了 16 块 NVMe SSD 的阵列来跑。我看到这些配置的时候一度觉得不可能有希望得第一了，没想到最后的结果非常出人意料。当然在带宽上，我们的确远远比不过单机多盘或者多机 PFS 的队伍；但是 P4618 的随机性能实在强劲，IOPS 这一项吊打了所有队伍（第二高的南洋用了四块盘也只有我们的 64%，当然也可能是调参的问题）。拿到这部分的加分实属意外，这也意味着明年大家应该都能摸清门道，大概又会是一场腥风血雨吧（笑）。

神秘应用

第一天也发布了神秘应用，叫做 Sparkler，是一个用 CUBLAS 计算稠密矩阵乘法的程序。要求很简单，把给出的 testcase 都跑完，并且不让动代码。我第一天晚上很快就编译出来了，然后简单尝试了一下运行也没有问题。总共有四个点，分别是（1 GPU）几分钟、（2 GPU）十几分钟、（3 GPU）一个多小时、（6 GPU）五个小时。由于第一天晚上要跑复现，所以我就委托在场的人在我回去睡觉的时候穿插跑一些小点。第二天来的时候，复现已经跑完了，正当我愉快地起一个大点的时候……断电了！此时我们心中一阵暗爽（因为几乎没有丢失任何进度），然而电一恢复就因为我把 3 + 6 GPU 两个点一起跑而爆了一下功耗（事后被告知不扣分）。我手忙脚乱地掐掉了程序，发现它的功耗曲线实在是抖得厉害，就像是我们来的路上坐的飞机（大雾）。虽然大部分时间每个 GPU 的功耗都很低，满是冷不防就会出现一个峰；没有什么好办法，只能压着最高功耗慢慢跑跑了将近五个小时，然后交了结果。

SST

SST 全称是 Structural Simulation Toolkit，是一个模拟计算机系统结构的软件，代码都在这里。它分为两部分，Core（模拟引擎）和 Elements（各种组件）；各种 Elements 通过一致的接口连接起来，并通过事件驱动的方式进行模拟。比赛需要我们运行的组件是 Miranda（一个 pattern 驱动的 CPU 模拟器，能够产生访存序列）和 Ember（一个模拟 MPI 通信的网络组件）。赛前下发的 testcase 跑起来的结果让我们非常震惊，Miranda 的扩展性奇差，单进程和 20 进程花的时间没多少区别，大部分的时间都花在进程间同步上，可见负载不均衡问题的严重。当时我和傲傲都在 CNCC 愉快地玩耍，然后看到结果两个人集体开始自闭……它模拟的是一个 KNL 架构的 CPU，从中间对称地切开能够有一些作用，然而作用也不明显。正当我们继续自闭时，傲傲突然发现了 Miranda 里面一个神奇的依赖处理写得很愚蠢，改完了以后有 7 倍性能提升。大喜过望，我们开始继续 tune 它，我也改掉了一些奇怪的数据结构，获得了进一步优化。另一个比较有意思的改进是，它在打印日志的时候先生成再根据 log level 判断是不是打印，然而恰好有一些日志的生成非常慢……总之，我们对于 SST 的代码质量确实比较无语。

虽然做了优化，但是并不能根本上解决负载不均衡的问题，所以我们选择让 SST 在云上单进程尴尬并行。这次给的 case 之一就需要用 Miranda 跑 5760 组不同的参数组合找到最优的，于是傲傲愉快地写了一个脚本来做这件事情（听说有些队伍常使用一些启发式的方法剪枝，然而我和傲傲都觉得一把梭跑完就完事了）。每个 case 大概要跑十分钟左右，我们用了 88 个核来跑，所以十几个小时也就跑完了。另一个任务是两种大规模的 Ember 网络，都要求跑 10 个 iteration，基本上每个 iteration 的时间都要一个多小时。那怎么办…跑呗！

原本我们很开心地觉得，别的队大概是跑不完这么多种 case 的（毕竟我们有常数级别的优化）。然而等我们都跑完了挑出结果，为了验证正确性使用原版的 SST 一跑才发现，我们仿佛比原版变得更慢了……？不过这也是在预期之中的，没有带来太大的影响。我们只好从 interview 的 PPT 当中去掉了这部分优化的内容。话虽如此，我们 interview 的时候根本没有等来作者 Clay，唯一的印象是前一天我晚上他跑来问了一句我们是不是有任何问题。最后面试的成绩是 8/10，四周问了一圈，凡是说没有问题的队伍都是 8 分，很少有 7 或者 9 分的。好吧，大概作者就是比较懒吧。

复现（reproducibility challenge）

复现题是 SC 的特色，要求复现前一年 SC 某篇论文的结论，今年是要验证这篇文章中间关于扩展性的一些部分。与往年不同，大家预估今年的复现要全机跑将近十个小时，时间比较长。由于担心第一天晚上就断电，所以原本的计划是先跑小点，等断电以后再跑大点。然而机智的 cggg 在第一天凌晨发现 committee 只剩下了一个人值夜班，推断其实不会断电，于是就大胆地开始跑耗时比较长的点，于是顺利地在第二天早上的时候跑完了所有的点（然后过了一个多小时就断电了）。

作者石嘉（Jia Shi）在比赛的时候一直在现场，所以 zcg 和 zc 和他也进行了比较多的交流，获得了很多的帮助。他告诉我们其实他对这次的题目也一无所知，出题和判分都是由组委会来负责的。复现还有一个特别的要求就是要写报告，虽然提前写了一个框架，很多数据还是要等现场跑出来再填进去。于是咸鱼的我就当起了报告的 proofreader，挑出了不少或大或小的错。最神奇的是组委会说了这次的数据是 Mars，但是复现的两位同学一个人也没听见，都还是按照原来的写的 Moon，一度导致我怀疑我的记忆的确出现了偏差。复现的 interview 环节也比较神奇，来的评委并没有问任何关于技术细节的问题，而都是情怀关于复现的意义之类比较 general 的问题。

VPIC

VPIC（Vector Particle-In-Cell）是一个粒子物理模拟器，可以用于模拟核聚变之类的过程。郑总和 hkz 在赛前一直想弄明白它的原理，找了续老师一起读论文，但是因为专业不对口好像没有太大的帮助。后来续老师介绍了魏文崟同学一起来，他是这方面的专家，把原理安排得明明表白的（误）。

比赛的时候拿到题目，他们就大呼坑爹：因为组委会给出的步骤数量根本不可能跑完，并且每次 checkpoint 的时候都要产生大概 120GB 的文件。考虑到赛场到云的链路质量其实比较差，所以完全无法进行迁移。权衡了一下，他们就在云上跑了。然而过了一晚上，题目负责人突然发了一个公告说给错了规模，但是新的规模还是很难跑完（200W 步，每小时大概 3W 步），并且 checkpoint 还是比较大（20GB）。虽然如此，考虑到复现和神秘应用跑完还有三十多个小时，他们还是决定把题目搬到本地来跑（这可能也成了面试的时候一个亮点）。当然，过程并不顺利，一开始遇到了 ulimit 的问题，后来晚上又被突如其来的第二次断电浪费了几乎整个下午的进度。好在之后就比较顺利，我们到比赛结束的所有时间都在努力地跑 VPIC，最后大约跑了 120W 步。有很多其他队伍报告自己把 VPIC 的一部分计算（甚至是整个 kernel）移植到了 GPU 上，但是因为种种原因效果并不十分显著。最终 ETHZ 跑了大约 150W 步，我们是第二多的。题目负责人告诉我们他期望大家至少能跑 10W 步，最好的在 100W 左右，而我们已经超出了他的预期。而 interview 的时候，评委显然对我们对于物理背景的了解比较满意，说我们基本把他想问的都先说完了。

其他

SC 还有一个传统项目就是 Poster，很不幸的是今年做 poster 的锅又到了我的头上，而我又抄起了昌老师的祖传模板。其实做的时候就发现 SC18 的时候已经有很多队伍或多或少地借鉴了我们的内容或者版式，而今年等到大家的 Poster 都贴出来的时候……好吧我输了，有一个队伍几乎原封不动地使用了我们的设计和框架内容。看来明年祖传模板是没法用了，需要找人再设计一个新版的了。最后 Poster 的分数不是很高，甚至比那个借鉴我们的队更低，这就有一点令人难受了。

往年的 SC 有一个 engagement 项目，要求队员去听 SC 的一些 talk 然后回答一些问题。今年我们很开心地发现，这个项目变成了 advisor engagement，要求 advisor 参与会议并且写一个报告。各个参赛队伍看起来对此都很开心，并且在后面的总结会上强烈要求保留这个环节。

此外在没事的时候我还去 SC 的展区逛了逛，又见到了 ISC 的时候好多熟悉的厂商（甚至是一摸一样的展台布置）。据说华为其实是很大一片展区的，但是因为种种原因没能用上，就成了满满当当的展览区里面很大的一块休息区。

赛后

第三天晚上五点半，比赛结束了。大家都被要求离开自己的 booth。当晚我们去了 SC 组织的 dinner with interesting people，我和傲傲、张晨在一桌上，听一个澳大利亚的教授讲和小动物相处的日常（大雾），而后又跑去了 Mellanox 的一个晚宴蹭吃蹭喝。第二天一觉醒过来已经不早了，我和傲傲就去给几个机器换了 CPU（虽然有一台的螺丝坏了并不能打开）。中午有一个 Awards Lunchoen，大家吃了一些比较神秘的菜。

接下来就是颁奖典礼了，我们刚进去的时候，黄华神神秘秘地对我们说，让我们坐在靠边一点的位置比较方便，这时候大家其实已经难以抑制心中的激动了。场地还有一个比较神奇的设计，就是提词器会比主持人说的话快一些，于是我们也提前一点确认了这个好消息。当然，最高的 LINPACK 还是南洋莫属，但是他们的最高 HPCG 事实上并没有我们第一次跑出来的高。无论如何，结果是让所有人都开心的：我们终于摆脱了悬在头上的“三亚”的诅咒，在今年最后一场比赛拿回了冠军。很遗憾的是，郑总因为吃饭迷路的缘故浪费了一些时间，一直到上台领奖的时候还没有出现，直到我们拍照的时候才匆匆忙忙地冒了出来。

Awards Ceremony 结束以后是 SCC 总结会，每个队领到了属于自己的奖，我们是两个 IO-500 的奖，分别来自于 SCC 委员会和发起方。结束之后就是拆机环节，直到这时候我才发现好像我不知道应该把机器寄到哪里去……于是又是一通折腾，好在最后问题也顺利解决了。晚上是 SC 的 Technical Program Reception，是在一个飞行器博物馆里面吃喝玩乐+聊天，大家都玩得挺开心的。

第二天是周五，丹佛下起了大雪。上午 Mellanox 的人拉着我们去了车程半个多小时的 Outlets，本来没打算买东西的我看到价钱还是买了两双鞋。万万没想到我的同学们购买力纷纷爆表，某年级第一 xl 同学在前一天逛了半天的前提下，又在 Outlets 整整买买买了一天，晚上七点多才回来。当然，也有和我一样的两个人不能忍受逛街的生活，下午就回了，在 Denver 的 downtown 转了一圈。我主要去了 Denver Public Library，感叹它在归档方面工作之完善。原本打算晚上一起吃顿饭，没想到他们从 Outlets 回来以后又去了 Apple Store 继续买买买……！好吧，有钱人的生活毕竟不是我可以理解的，就像某 cggg 一天花了一万多一样。

第三天是出发的日子，原本没什么好说的，然而我又不幸遇到了奇怪的事情。我们原本是 DEN-SEA-PEK 两程，而我发现除了我之外所有人的第二程都因为超售没安排座位。正在担心这件事情的时候，我们的第一程飞到一半备降在了 SLC，理由居然是。。厕所坏了。虽然 Delta 给我们换了一架飞机，但是无论如何都赶不上第二程了。正在我们盘算在西雅图该怎么玩的时候，地勤告诉我们，下一架飞机会等我们，但需要我们跑快一点。不知道怀着怎么样的心情，大家经历了可能是人生中最短的转机（在两架飞机中间的时间不超过两分钟），终于是踏上了回国的航班。这时候大家发现，好几个没被安排座位的人被升到了超值经济舱。好吧，风水轮流转……

最后的总结

越写越长，一回头才发现其实大多数是废话。不管怎么样，我终于把想说的都说完了。这是我第一次去 SC，也会是最后一次以 SCC 队员的身份去了，这个结果确实也确实了了我的心愿。前两篇文章，我在结尾都写下了加油；这一次，我想大声地喊出：

我们是冠军！

上篇龙芯杯回顾

下篇博客主题更换