TensorFlow 拆包（八）：Dynamic Control Flow in Large-Scale Machine Learning

Posted on 2018-06-11 Edited on 2018-10-21 In Project

前篇：

严格上来说本篇不应该算在拆包里面，因为记的是 TF 团队最近发的一篇论文里面的东西。

前面拆包的第二篇记过关于 TensorFlow 中的数据流模型实现，实际上这套数据流模型已经是非常完备的，只是目前大家用 Python 搭出来的简单网络形式还很难把它的真正潜力发挥出来。

正当我们往这个方向做的时候，得，Google 发论文了。

TensorFlow 拆包（七）：Profiling 踩坑 & Benchmark

Posted on 2018-04-10 Edited on 2018-10-30 In Project

接上篇：

开始分析性能瓶颈了，本篇记录一下研究 TF 中自带的 Profiling 工具时遇到的几个坑点。

TensorFlow 拆包（六）：RDMA

Posted on 2018-03-12 Edited on 2018-09-23 In Project

接上篇：

本篇分析 TensorFlow 1.6.0 中的 RDMA 以及其他的传输优化的实现。

TensorFlow 拆包（五）：Distributed

Posted on 2018-03-09 Edited on 2018-09-23 In Project

接上篇：

单节点的运行流程基本上已经有个大体印象了，接着就要来拆我所关注的重点所在——分布式运行时了。

TensorFlow 拆包（四）：Device

Posted on 2018-03-07 Edited on 2018-09-23 In Project

接上篇：

这篇要分析的是 TensorFlow 中跟计算设备相关的内容。

TensorFlow 拆包（三）：Graph 和 Node

Posted on 2018-02-28 Edited on 2020-04-25 In Project

接上篇：

先来拆一下第一篇里面 DirectSession::Run 里面跑的那个 graph 里面到底都是些什么内容。

Intel 处理器架构演进

Posted on 2018-02-13 Edited on 2018-09-23 In Computer Architecture

刚刚把《硬/软件接口》重新过完了一遍，觉得对微处理器中间的结构有点意犹未尽，真的是很有趣啊，然鹅翻开《量化分析方法》的目录看了看，又吓得我把书扔回去了……内容略多，留着慢慢看吧。

其实 Intel 历年处理器架构演变这事老早我就很好奇了，尤其在 SC17 上今年我们摸过的 Xeon Platinum 8176 那一代 CPU 性能比上代 E5-269x 暴涨了一大截，更是让人好奇这里面有些什么变化。

所以准备来理一理 Intel 处理器架构的演进史。

计算机组成与设计.硬件/软件接口学习笔记（三）

Posted on 2018-02-12 Edited on 2018-09-23 In Computer Architecture

接上篇：

本篇为第六章的内容。

计算机组成与设计.硬件/软件接口学习笔记（二）

Posted on 2018-02-06 Edited on 2018-09-23 In Computer Architecture

重新理了一下，把内容分开，其实大部分内容都是以前记的，接上篇：

计算机组成与设计.硬件/软件接口学习笔记（一）

本篇为第四、五章开始。

TensorFlow 拆包（二）：TF 的数据流模型实现以及自动求导

Posted on 2018-01-23 Edited on 2018-11-09 In Project

接上篇：

TensorFlow 拆包（一）：Session.Run()

写着写着越写越多了，所以想想还是分成多篇来了，要不一页内容有点多。

Control Flow in TF

从 Executor 的运行实现里面往下继续的时候遇到了点问题，代码里面有个叫 Frame 的概念，但是注释里面很多东西都写的不清不楚的，不知道在干吗，于是在网上找了点关于 TF 的整个控制流方面的资料：

核心的问题是从 TensorFlow 的循环控制里面引出来的，这块内容具体涉及到的也其实就是 TensorFlow 中的数据流模型的实现了，这里的数据流模型原型是基于 Jack Dennis 和 Arvind 等人所提出的数据流机。