2020年是不平凡的一年,研三秋季学期末段便听说武汉出现疑似肺炎病毒,到后来波及全球,打乱了全世界的计划,同样包括我的一些计划。
本打算毕业典礼叫全家人一起去学校参加,给自己的求学生涯画上一个完美的句号,可惜计划赶不上变化。在家里呆了半年才返校,答辩也是线上完成的,在学校领了毕业证、处理了一些离校手续就在一周内匆匆离开。最想去学校的半年不得不在家里度过,回头想想确实很可惜,可惜一学期的校园时光,可惜没能跟生活了七年的南京的朋友们好好聚聚、道个别,可惜没能圆圆满满的完成毕业。校园生活已经翻篇,作为社畜的生活刚刚开始。
回顾在家里的几个月,最重要是事莫过于完成毕业论文,拖延症晚期的我在论文截止日期前一个月才开始写论文。现在想想幸好当时去了小冰家,那一个月在小冰妈妈的照顾下衣食无忧,潜心写论文。要是在自己家的话,还得每天自己做饭,又没人监督,怕是很难完成如此艰巨的任务(写的那么烂,还敢说艰巨。。)。当时的实验其实都做的差不多了,只是根据实验结果把文章写出来,结合一些学术论文和往年师兄们的论文,再开放一下思维、整理一下思路、拟好提纲,完成了雏形。后面修改着实让人心累,并且答辩前还在导师的要求下把实验工具以k8s原生的operator实现了,论文临提交前的那几天爆肝熬夜的日子真是让人头大。所幸最后顺利过关,也不枉三年的努力。
从学校匆匆离开后,便直奔深圳,从7月份加入商汤到现在这半年多时间里,学习了argo的设计实现,并运用到公司内部,argo是一个相当庞大的工作流控制组件,挺佩服开源社区做这份工作的一批人。公司以AI技术为核心,免不了有很多与训练相关的工作项,因为研究生阶段搞分布式DL调度的,来公司也顺理成章的维护起了pytorch-operator,还有对接一些pytorch的业务线。技术上没有多大突破,不过深入理解并掌握了k8s informer机制,算是一点点长进吧。
年末接触了一些强化学习相关的项目,还在继续开展,跟着周博磊老师的强化学习纲要课程并结合周志华老师的西瓜书一步一步学会马尔科夫决策过程(MDP)这一强化学习核心内容的原理及推导,以前看到数学公式就打退堂鼓,现在学会推导,感觉还是学到东西了。开会的时候提到Ray(一种分布式强化学习框架),想起18年看到的osdi的论文就是这篇,当时没怎么细看,这会把Ray的架构又看了一遍,也看到社区对于将Ray跑到k8s上的一些尝试,不过社区项目ray-operator最近被删除了,通过跟高策师兄交流知道ray-operator已经被放到ray里面了,通过python实现的。之所以不用golang以k8s原生的方式实现,好像是因为k8s原生方式对自动扩缩容不太友好,而ray的python包中可以通过autoscaler很好的实现自动扩缩容。
工作后每天都是两点一线,没什么娱乐项目,枯燥的生活下让我萌生了学习历史的想法,于是买了一套《白话资治通鉴》。现在后悔了,不是觉得不该买,而是觉得不该买白话版的,看起来真的没意思,现在又换成看电子书了。从三家分晋到汉文帝时期前后将近两百多年时间,见证了李悝、吴起变法带给魏国的变化;商鞅变法使得秦国一步步强大;纵横家周游列国、左右天下大局;稷下学宫促成百家争鸣;秦一统天下却二世而亡,仁义不施,而攻守之势异也;楚汉争雄,项羽毁于刚愎自用,四面楚歌,皆因不纳良言。天下已定,叔孙通修礼仪,历史评价褒贬不一;惠帝即位,萧规曹随,休养生息;吕氏乱政,周勃应高祖预言安定汉之基业;文帝即位,轻徭薄税,广纳谏言,政治随明,却文过饰非,旷世奇才贾谊,奈何屈于长沙。从贾谊的多篇论述及上书中可以看到贾谊目光之长远:对于文帝允许平民自铸钱币,贾谊看出钱币乃统治阶层命脉,不可交由平民私铸;对于农耕渐弱,贾谊假想若是出现大饥荒,国无余粮,何以赈灾。
历史看似有趣,实则无趣,因为当看过了王朝变更,会发现历史总是压着前人的车轨,国家权力集于一人之手的容错率太低了。
2021年,希望自己能把强化学习理解更透彻,多跟进一些调度相关的论文,20年只读了寥寥几篇论文(Prague,Ray)。
共勉!