接上篇:
- TensorFlow 拆包(一):Session.Run()
- TensorFlow 拆包(二):TF 的数据流模型实现
- TensorFlow 拆包(三):Graph 和 Node
- TensorFlow 拆包(四):Device
- TensorFlow 拆包(五):Distributed
本篇分析 TensorFlow 1.6.0 中的 RDMA 以及其他的传输优化的实现。
接上篇:
本篇分析 TensorFlow 1.6.0 中的 RDMA 以及其他的传输优化的实现。
接上篇:
单节点的运行流程基本上已经有个大体印象了,接着就要来拆我所关注的重点所在——分布式运行时了。
接上篇:
这篇要分析的是 TensorFlow 中跟计算设备相关的内容。
接上篇:
先来拆一下第一篇里面 DirectSession::Run
里面跑的那个 graph 里面到底都是些什么内容。
刚刚把《硬/软件接口》重新过完了一遍,觉得对微处理器中间的结构有点意犹未尽,真的是很有趣啊,然鹅翻开《量化分析方法》的目录看了看,又吓得我把书扔回去了……内容略多,留着慢慢看吧。
其实 Intel 历年处理器架构演变这事老早我就很好奇了,尤其在 SC17 上今年我们摸过的 Xeon Platinum 8176 那一代 CPU 性能比上代 E5-269x 暴涨了一大截,更是让人好奇这里面有些什么变化。
所以准备来理一理 Intel 处理器架构的演进史。
接上篇:
写着写着越写越多了,所以想想还是分成多篇来了,要不一页内容有点多。
从 Executor 的运行实现里面往下继续的时候遇到了点问题,代码里面有个叫 Frame 的概念,但是注释里面很多东西都写的不清不楚的,不知道在干吗,于是在网上找了点关于 TF 的整个控制流方面的资料:
核心的问题是从 TensorFlow 的循环控制里面引出来的,这块内容具体涉及到的也其实就是 TensorFlow 中的数据流模型的实现了,这里的数据流模型原型是基于 Jack Dennis 和 Arvind 等人所提出的数据流机。
18年的第一篇,开一个估计又是会持续超长时间的坑。
要来拆包 TensorFlow 啦。
嗯,话说这件事情前年、去年就一直在做,做完 RDMA 写完论文就扔一边了,也没再整理过。没想到之后的工作还是回到了这里,所以重新过一遍,也好好整理一下。