跳至主要内容

分布式系统领域的经典论文【转载】

作者:严林  编辑于 2015-05-08
链接:https://www.zhihu.com/question/30026369/answer/46476717
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

分布式系统在互联网时代,尤其是大数据时代到来之后,成为了每个程序员的必备技能之一。分布式系统从上个世纪80年代就开始有了不少出色的研究和论文,我在这里只列举最近15年范围以内我觉得有重大影响意义的15篇论文(15 within 15)。

1. The Google File System:
这是分布式文件系统领域划时代意义的论文,文中的多副本机制、控制流与数据流隔离和追加写模式等概念几乎成为了分布式文件系统领域的标准,其影响之深远通过其5000+的引用就可见一斑了,Apache Hadoop鼎鼎大名的HDFS就是GFS的模仿之作;

2. MapReduce: Simplified Data Processing on Large Clusters:
这篇也是Google的大作,通过Map和Reduce两个操作,大大简化了分布式计算的复杂度,使得任何需要的程序员都可以编写分布式计算程序,其中使用到的技术值得我们好好学习:简约而不简单!Hadoop也根据这篇论文做了一个开源的MapReduce;

3. Bigtable: A Distributed Storage System for Structured Data:
Google在NoSQL领域的分布式表格系统,LSM树的最好使用范例,广泛使用到了网页索引存储、YouTube数据管理等业务,Hadoop对应的开源系统叫HBase(我在前公司任职时也开发过一个相应的系统叫BladeCube,性能较HBase有数倍提升);

4. The Chubby lock service for loosely-coupled distributed systems:
Google的分布式锁服务,基于Paxos协议,这篇文章相比于前三篇可能知道的人就少了,但是其对应的开源系统zookeeper几乎是每个后端同学都接触过,其影响力其实不亚于前三篇;

5. Finding a Needle in Haystack: Facebook's Photo Storage:
facebook的在线图片存储系统,目前来看是对小文件存储的最好解决方案之一,facebook目前通过该系统存储了超过300PB的数据,一个师兄就在这个团队工作,听过很多有意思的事情(我在前公司的时候开发过一个类似的系统pallas,不仅支持副本,还支持Reed Solomon-LRC,性能也有较多优化);

6. Windows Azure Storage: a highly available cloud storage service with strong consistency:
windows azure的总体介绍文章,是一篇很好的描述云存储架构的论文,其中通过分层来同时保证可用性和一致性的思路在现实工作中也给了我很多启发;

7. GraphLab: A New Framework for Parallel Machine Learning:
CMU基于图计算的分布式机器学习框架,目前已经成立了专门的商业公司,在分布式机器学习上很有两把刷子,其单机版的GraphChi在百万维度的矩阵分解都只需要2~3分钟;

8. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing:
其实就是 Spark,目前这两年最流行的内存计算模式,通过RDD和lineage大大简化了分布式计算框架,通常几行scala代码就可以搞定原来上千行MapReduce代码才能搞定的问题,大有取代MapReduce的趋势;

9. Scaling Distributed Machine Learning with the Parameter Server:
百度少帅李沐大作,目前大规模分布式学习各家公司主要都是使用ps,ps具备良好的可扩展性,使得大数据时代的大规模分布式学习成为可能,包括Google的深度学习模型也是通过ps训练实现,是目前最流行的分布式学习框架,豆瓣的开源系统paracell也是ps的一个实现;

10. Dremel: Interactive Analysis of Web-Scale Datasets:
Google的大规模(近)实时数据分析系统,号称可以在3秒相应1PB数据的分析请求,内部使用到了查询树来优化分析速度,其开源实现为Drill,在工业界对实时数据分析也是比价有影响力;

11. Pregel: a system for large-scale graph processing:
Google的大规模图计算系统,相当长一段时间是Google PageRank的主要计算系统,对开源的影响也很大(包括GraphLab和GraphChi);

12. Spanner: Google's Globally-Distributed Database:
这是第一个全球意义上的分布式数据库,Google的出品。其中介绍了很多一致性方面的设计考虑,简单起见,还采用了GPS和原子钟确保时间最大误差在20ns以内,保证了事务的时间序,同样在分布式系统方面具有很强的借鉴意义;

13. Dynamo: Amazon’s Highly Available Key-value Store:
Amazon的分布式NoSQL数据库,意义相当于BigTable对于Google,于BigTable不同的是,Dynamo保证CAP中的AP,C通过vector clock做弱保证,对应的开源系统为Cassandra;

14. S4: Distributed Stream Computing Platform:
Yahoo出品的流式计算系统,目前最流行的两大流式计算系统之一(另一个是storm),Yahoo的主要广告计算平台;

15. Storm @Twitter:
这个系统不多说,开启了流式计算的新纪元,几乎是所有公司流式计算的首选,绝对值得关注;

评论里边 提到的两篇论文也挺不错的,一并补充在这里。
1. Large-scale cluster management at Google with Borg
2. F1 - The Fault-Tolerant Distributed RDBMS Supporting Google's Ad Business
 

Popular posts from 产品随想的博客

产品随想 | 周刊 第88期:抢救中文社科历史讲座

  抢救中文人文社科历史讲座   https://github.com/jeffyus/renwenjiangzuo 苹果公司的招聘理念就是两点。 (1)优秀人才是自我管理的,但需要领导者为大家提供一个共同目标。 (2) 只有某个人看到 Macintosh 电脑感到无比兴奋,我们才会雇佣他。 ————喬布斯 衡量一个人的领导能力的最好方法,就是看如果这个人休假了,他的下属在做什么。 优秀的产品经理和工程师可以休假一周,他管理的工作不发生任何问题。优秀的主管和技术负责人可以休假一个月。领导能力越优秀,休假的时间就越长。 -- Andrew Bosworth,Facebook 的 CEO ——可惡,想了想,好像還真是這樣 阅读不会过时,除非写作过时了。写作不会过时,除非思考过时了。(Reading won't be obsolete till writing is, and writing won't be obsolete till thinking is.) -- Paul Graham ——深刻 Cheetah   https://github.com/leetcode-mafia/cheetah Cheetah is an AI-powered macOS app designed to assist users during remote software engineering interviews by providing real-time, discreet coaching and live coding platform integration. 對面試官的要求,變更高了,哈哈哈 AI's Hardware Problem   https://asianometry.substack.com/p/ais-hardware-problem 有趣,瓶頸在內存 Clash 入土为安   https://gyrojeff.top/index.php/archives/Clash-入土为安/ 有趣的介紹 OP Vault ChatGPT   https://github.com/pashpashpash/vault-ai Give ChatGPT long-term memory using the ...

产品随想 | 周刊 第69期:Do not go gentle into that good night

Products Windows Apps That Amaze Us   https://amazing-apps.gitbook.io/windows-apps-that-amaze-us/ 令人精细的Windows App 文物出版社   https://book.douban.com/press/2456/ 这是一个宝藏出版社,出品书籍质量非常高,大开眼界 blind   https://www.teamblind.com/ 老外的匿名职场社交工具,挺有意思,看看硅谷的meme 中国科学技术大学测速网站   https://test.ustc.edu.cn/ 看着还不错,挺靠谱的 底层代码是LibreSpeed   https://github.com/librespeed/speedtest 能不能好好说话?   https://github.com/itorr/nbnhhsh 也是我的一个痛点 Tree Style Tab (aka TST)   https://github.com/piroor/treestyletab 一个超强的浏览器扩展插件,树状呈现浏览器标签 Failory Pitch Decks   https://www.failory.com/pitch-deck 超级多的融资计划投资板,Pitch Book AutoCut   https://github.com/mli/autocut 用文本编辑器剪视频 全网漫游指南   https://tagly.notion.site/tagly/a333efd8c3e54e12b123acd541e8d3e6 数字时代的指引,希望他们成功 IT eBooks   https://it-ebooks.info/ IT书籍下载 ToastFish   https://github.com/Uahh/ToastFish 一个利用摸鱼时间背单词的软件。 利用Win10通知栏,出现、背单词 Ideas 沈向洋:IDEA 如何找到创新的「甜区」   https://mp.weixin.qq.com/s/OlI5VUxQKU_ijWZClQCG0Q AIGC How Did Nor...

Steve Jobs introduced the iPhone on January 9, 2007.

This is a day I’ve been looking forward to for two and a half years. Link Every once in a while, a revolutionary product comes along that changes everything. And Apple has been— well, first of all, one’s very fortunate if you get to work on just one of these in your career. Apple’s been very fortunate. It’s been able to introduce a few of these into the world. In 1984, we introduced the Macintosh. It didn’t just change Apple, it changed the whole computer industry. In 2001, we introduced the first iPod, and it didn’t just change the way we all listen to music, it changed the entire music industry. Well, today, we’re introducing three revolutionary products of this class. The first one is a widescreen iPod with touch controls. The second is a revolutionary mobile phone. And the third is a breakthrough internet communications device. So, three things: a widescreen iPod with touch controls; a revolutionary mobile phone; and a breakthrough internet communicat...

可能比较危险的

全网监控公司: 1)中国厦门的美亚柏科 2)KIS(Knowlesys Intelligence System) 3)除中美之外的第三大AI监控技术供应商是:日本的NEC Corporation 中国的VPN公司: 1)VyprVPN、玲珑加速器 Point: 1)被GFW屏蔽的IP,反向也会无法访问大陆网络

《沸腾新十年》2007-2012

2007-2009 大幕拉启 早期玩iPhone的人觉得:它不支持复制粘贴、拍摄视频,也不能更改铃声、壁纸,还不能换电池、插存储卡,手机里的照片和备忘录等也没法复制到电脑中。(但它有Killing Feature是沉浸式的屏幕、上网功能) 在网龙的路演过程中,网龙创始人刘德建发现,在当时极为“高大上”的投资人群中,用iPhone已经蔚然成风 ──论有钱人带领的风潮 苹果早期是不支持第三方输入法的,这一问题要等到2014年iOS 8的推出才正式解决。 ──居然也封闭了整整七年 对于航班管家来说,好用户就是高频乘坐飞机出行的群体。以前,这个群体在哪里、如何捕捉,都是问题。但是iPhone的出现,天然筛选出了那些消费能力强劲的群体。 苹果公司和联通也在为没有好应用来推广iPhone而发愁,所以它们精选了6款应用。王江的航班管家和搜吃搜玩都得以入选,吃到了iPhone大推广时代的官方预装红利。 王江认为:“其实有了智能手机,才能说有了场景。你不拿着手机亲临其境,怎么叫场景呢? 触宝输入法,深合安卓早期创业的三大奥义:“高频、刚需、工具化”。 参赛是一个名利双收的大好机会,能帮助免费推广产品 魅族黄章对之前毫无保留地和雷军交流有些后悔:“我连M9的UI交互文档都发给过他,请他一起探讨。” 安卓早期的最大刚需之一是系统优化。 CyanogenMod因此成为当时全球最大的ROM开发和优化团队。 中国早期安卓生态的很大一部分是建立在CM的基础上的。最着名的有小米的MIUI团队、创新工场的点心团队、占据国内千元机市场的乐蛙OS团队等。 当时的盛大创新院群星璀璨,除了潘爱民和许式伟,还有樊一鹏“樊大师”,也有郝培强和霍炬,有极客余晟,有陆坚博士,有黄伟和吴义坚,有庄表伟,还有白宁等诸多牛人。 2012年夏天,华为的任正非在一个讲话中提到两个“备胎”计划,一个是关于芯片的,另一个就是关于操作系统的。 ──布局早在10年前 2009年,张一鸣决意离开饭否,转而去房产网站九九房,这是26岁的张一鸣从南开大学毕业后的4年里准备开启的第4段工作经历,每份工作平均也就一年多一点的时间。此时的张一鸣与大部分同龄人相比略显著急,稍显无措,全然没有日后那种长期思考的定力和耐性。 2009年12月底,王兴确定做美团。 ──原来也已经10年+ 2009年的“双11”购物节只是给淘宝商城团队找点事情的自我安慰...

Interview at the All Things Digital D5 Conference, Steve and Bill Gates spoke with journalists Kara Swisher and Walt Mossberg onstage in May 2007.

Kara Swisher: The first question I was interested in asking is what you think each has contributed to the computer and technology industry— starting with you, Steve, for Bill, and vice versa. Steve Jobs: Well, Bill built the first software company in the industry. And I think he built the first software company before anybody really in our industry knew what a software company was, except for these guys. And that was huge. That was really huge. And the business model that they ended up pursuing turned out to be the one that worked really well for the industry. I think the biggest thing was, Bill was really focused on software before almost anybody else had a clue that it was really the software that— KS: Was important? SJ: That’s what I see. I mean, a lot of other things you could say, but that’s the high-order bit. And I think building a company’s really hard, and it requires your greatest persuasive abilities to hire the best ...

ISSUU使用指南--木喵

作者: 木喵   出处: Wonderworks 问:issuu是什么? 答:Issuu是国外的一个在线文档共享网站,它是你的PDF文档发布专家。它类似于我们熟悉的youtube,但它共享的是文档、杂志之类的文本。 简而言之、同志们想看国外的各种杂志? 想找国外的汇报文本么? 想借鉴国外学生的作品集么? 那么你就要用到它啦~ 今天主要和大家讲两个方面 一、如何在pc端使用和下载issuu上的pdf文档 首先我们打开issuu的网址 https://issuu.com/ 我们可以很清楚的看到网页上呢都是国外的杂志以及一些作者自己制作的pdf文档 首先我们点击右上角的 sign up  然后填写相关信息注册一个账户: 注册完成之后我们就可以搜索我们想要找的资料: 比如说,我想找一些分析图的资料,我们就搜索: architecture diagram 然后我们就可以看到相关的文档了: 点击你所选择的文档, 好了问题来了: sorry,this publication is not available 这个时候!就需要在用pc端的我们做一件必不可少的事: 翻墙 然后我们就能将页面刷新粗来了 好、接下来是非常有建设性意义的一步 怎样把我们网页上的文件 下载下来 呢? 截图? no~no~no~ 接下来,让木喵告诉你怎么下载: 首先你需要复制上面的网址 然后将 https://wenfan.hk/issuu/index_link.php 在另一个网址中打开 将你之前复制的pdf的网址粘贴在下面的对话框中 点击 I‘m not a robot 再点击 get it 然后会出现一堆网址代码 我们 全选 打开你的迅雷点击 新建 将你之前的复制粘贴到下载链接里 然后呢~我们就全都下载成功啦~ 然后我们回到之前的网页向下看 我们可以看到有上传文档的作者(记得要关注哟) 然后还有 info   share   stack   ❤ 如果...

产品随想 | 周刊 第43期:历史上的今天

Products Huberman Lab   https://hubermanlab.com/ 一款聚焦于健康的播客 今日热榜   https://tophub.today/ 聚合展示,国内各热门榜单,对跟进热点非常有帮助,热点运营的好帮手 SketchyBar   https://github.com/FelixKratz/SketchyBar A highly customizable macOS status bar replacement Mac菜单栏定制 自定义程度很高,看作者展示的案例,暂时没想出这样的好处(不过应用本身的编辑,确实也没啥意义)生命在于折腾吧! Thanks-Mirror   https://github.com/eryajf/Thanks-Mirror 整理记录各个包管理器,系统镜像,以及常用软件的好用镜像,Thanks Mirror。 Musicn   https://github.com/zonemeen/musicn 一个下载高品质音乐的命令行工具,音乐来源: 咪咕 Planet Minecraft A creative Minecraft community fansite sharing maps, minecraft skins, resource packs, servers, mods, and more. 里面有很多动人的故事 可能是世界上最大的Minecraft社区,从2010年至今 The Uncensored Library   https://www.uncensoredlibrary.com/en blockworks   https://www.blockworks.uk/ "Distinctive maps for Minecraft that have educated players and risen to the level of art" 游戏也可以让人有更高的实现,而不仅仅是沉迷其中,国外游戏厂商比我们做的好太多 Minecraft_Memory_Bypass_GUI   https://github.com/xingchuanzhen/Minecraft_Memory_Bypass_GUI 绕过Minecraft...

Albert Einstein Said Death Is Not An End Can Prompt You To Find The Meaning and Purpose Of Your Life

原文Link: https://quotationize.com/albert-einstein-said-death-not-end/ 产品随想注: 爱因斯坦对于死亡的观点,深深影响了乔布斯  ---------------- Albert Einstein said death is not an end if we can live on in our children and the younger generation is a line taken from the letter which he wrote to the widow of physicist Heike Kamerlingh Onnes in 1926. Besides death, he also talked about afterlife, immortality and soul. If you have read through my authentic collection of Albert Einstein thoughts on God and religion , you would know that he rejected the formal, dogmatic religion. Einstein did not believe in immortality of the individual. According to him, there is no such thing as, punishment for misdeeds or rewards for good behavior in any afterlife. For him, the so-called Theosophy and Spiritualism, was no more than a symptom of weakness and confusion. As Einstein explained that since our inner experiences consist of reproductions, and combinations of sensory impressions, the concept of a soul with...

产品随想 | 读《中国是部金融史》:第二章 秦始皇统一了货币吗(秦朝)

战国时代什么最重要? 答:人才! 十地有的是,有人就能在土地上耕种,就能产出粮食。 积攒人品、招揽居民的方法,就是变法。魏国的李悝、赵国的公仲连、楚国的吴起、 韩国的申不害、齐国的邹忌⋯⋯七家诸侯都使出浑身解数鼓励别国的国民迁徙到自己的土地上—因为只有这样才能产出更多粮食,才能在战争的时候保证有兵源。 ──思路和现在的放开户口、人才引进,拉动GDP,是一样的 所谓抑商也就三条。 第一,秦国不能出现粮食贸易。(如果秦人买不到粮食就只能自己去种地,种地的人最实在) 第二,加重商税,重到任何贸易品种都无利可图。 第三,降低商人地位。战国七雄,只有在秦困,商人才与赘婿并列为最低等的网人。 货币是一枚一枚的铜钱,分散在国人手中,泰孝公如何能贪天下之利?只有禁绝货币,才能把所有利益都归于国君,国君才能更有势力(利出于一孔者,其国无敌) 商鞅从来没有“重农”。他真实的想法是:民弱国强、 国强民弱,所以,要想做最有权势的国君,就必须让天下人穷困(民弱国强、国强民弱, 故有道之国务在弱民)! 农、工、士、商四类人中,“农人〞必须依附于田宅,最缺乏流动性,手里也最没钱,是最容易管理的对象,也是最好的“弱民”。 据说,商鞅“重农"的功绩在于给全国农人分配士地;据说,商鞅治下,每个男丁可以分配到一百亩土地。“百亩之田、五商之宅”是战国时代孟子的理想,最早出子《周礼》,到了《汉书》中居然成为商鞅的土地分配标准。 就为这,商鞅被歌幼了几干年 ──蜜糖? 砒霜? 商鞅之所以敢如此放心大胆地盘剥,是因为控制单一的农户比控制强大的宗族容易许多。毕竞宗族力量在一定程度上可以对抗王室,而被拆分为一个个家庭,就没有任何能力对抗封建集权。 ──破宗族,分田地 至于农人,毫无血缘关系的五家被编成一“伍”。谁敢反抗,五个农户全体受罚, 一般情况下会全被诛杀。即使有人跑出了家乡,只要在秦国境内,没有良民证的人也难免被抓获。没有良民证的结果就是被杀掉。 ──看到“良民证”,我想到了“核酸码” 商鞅认为,笨的人好管理(民&则易治也)。《诗经》《尚书》是周朝文化的代表, 如果网人以《诗》《书》中的道理去蛊惑人心,有一个人,就能让上千人不再以耕战求富货;如果信奉《诗》《书》的人当了县官,就会有一个县的人不再尊敬国君;如果天下人都信奉《诗》《书》的道理,势必有人结党于下、议论政令,秦孝公的将不再是秦孝公的...