跳至主要内容

分布式系统领域的经典论文【转载】

作者:严林  编辑于 2015-05-08
链接:https://www.zhihu.com/question/30026369/answer/46476717
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

分布式系统在互联网时代,尤其是大数据时代到来之后,成为了每个程序员的必备技能之一。分布式系统从上个世纪80年代就开始有了不少出色的研究和论文,我在这里只列举最近15年范围以内我觉得有重大影响意义的15篇论文(15 within 15)。

1. The Google File System:
这是分布式文件系统领域划时代意义的论文,文中的多副本机制、控制流与数据流隔离和追加写模式等概念几乎成为了分布式文件系统领域的标准,其影响之深远通过其5000+的引用就可见一斑了,Apache Hadoop鼎鼎大名的HDFS就是GFS的模仿之作;

2. MapReduce: Simplified Data Processing on Large Clusters:
这篇也是Google的大作,通过Map和Reduce两个操作,大大简化了分布式计算的复杂度,使得任何需要的程序员都可以编写分布式计算程序,其中使用到的技术值得我们好好学习:简约而不简单!Hadoop也根据这篇论文做了一个开源的MapReduce;

3. Bigtable: A Distributed Storage System for Structured Data:
Google在NoSQL领域的分布式表格系统,LSM树的最好使用范例,广泛使用到了网页索引存储、YouTube数据管理等业务,Hadoop对应的开源系统叫HBase(我在前公司任职时也开发过一个相应的系统叫BladeCube,性能较HBase有数倍提升);

4. The Chubby lock service for loosely-coupled distributed systems:
Google的分布式锁服务,基于Paxos协议,这篇文章相比于前三篇可能知道的人就少了,但是其对应的开源系统zookeeper几乎是每个后端同学都接触过,其影响力其实不亚于前三篇;

5. Finding a Needle in Haystack: Facebook's Photo Storage:
facebook的在线图片存储系统,目前来看是对小文件存储的最好解决方案之一,facebook目前通过该系统存储了超过300PB的数据,一个师兄就在这个团队工作,听过很多有意思的事情(我在前公司的时候开发过一个类似的系统pallas,不仅支持副本,还支持Reed Solomon-LRC,性能也有较多优化);

6. Windows Azure Storage: a highly available cloud storage service with strong consistency:
windows azure的总体介绍文章,是一篇很好的描述云存储架构的论文,其中通过分层来同时保证可用性和一致性的思路在现实工作中也给了我很多启发;

7. GraphLab: A New Framework for Parallel Machine Learning:
CMU基于图计算的分布式机器学习框架,目前已经成立了专门的商业公司,在分布式机器学习上很有两把刷子,其单机版的GraphChi在百万维度的矩阵分解都只需要2~3分钟;

8. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing:
其实就是 Spark,目前这两年最流行的内存计算模式,通过RDD和lineage大大简化了分布式计算框架,通常几行scala代码就可以搞定原来上千行MapReduce代码才能搞定的问题,大有取代MapReduce的趋势;

9. Scaling Distributed Machine Learning with the Parameter Server:
百度少帅李沐大作,目前大规模分布式学习各家公司主要都是使用ps,ps具备良好的可扩展性,使得大数据时代的大规模分布式学习成为可能,包括Google的深度学习模型也是通过ps训练实现,是目前最流行的分布式学习框架,豆瓣的开源系统paracell也是ps的一个实现;

10. Dremel: Interactive Analysis of Web-Scale Datasets:
Google的大规模(近)实时数据分析系统,号称可以在3秒相应1PB数据的分析请求,内部使用到了查询树来优化分析速度,其开源实现为Drill,在工业界对实时数据分析也是比价有影响力;

11. Pregel: a system for large-scale graph processing:
Google的大规模图计算系统,相当长一段时间是Google PageRank的主要计算系统,对开源的影响也很大(包括GraphLab和GraphChi);

12. Spanner: Google's Globally-Distributed Database:
这是第一个全球意义上的分布式数据库,Google的出品。其中介绍了很多一致性方面的设计考虑,简单起见,还采用了GPS和原子钟确保时间最大误差在20ns以内,保证了事务的时间序,同样在分布式系统方面具有很强的借鉴意义;

13. Dynamo: Amazon’s Highly Available Key-value Store:
Amazon的分布式NoSQL数据库,意义相当于BigTable对于Google,于BigTable不同的是,Dynamo保证CAP中的AP,C通过vector clock做弱保证,对应的开源系统为Cassandra;

14. S4: Distributed Stream Computing Platform:
Yahoo出品的流式计算系统,目前最流行的两大流式计算系统之一(另一个是storm),Yahoo的主要广告计算平台;

15. Storm @Twitter:
这个系统不多说,开启了流式计算的新纪元,几乎是所有公司流式计算的首选,绝对值得关注;

评论里边 提到的两篇论文也挺不错的,一并补充在这里。
1. Large-scale cluster management at Google with Borg
2. F1 - The Fault-Tolerant Distributed RDBMS Supporting Google's Ad Business
 

Popular posts from 产品随想的博客

产品随想 | 周刊 第128期:将时间转化为知识和体验

自行车棚效应:我们为什么在小事上纠结,却对大事视而不见?   https://limboy.me/posts/bike-shedding Benz-Patent   https://www.mercedes-benz.com/en/innovation/milestones/benz-patent-motor-car/ 豐田博物館   https://toyota-automobile-museum.jp/tw/ 值得一去的汽车博物馆 一人公司   https://github.com/cyfyifanchen/one-person-company one-person-company, 一人公司 AI 工具系列 wujiaxian   https://wujiaxian.com/ 可能吧创始人的个人Blog,介绍自己的方式,很值得学习 日本京都10大設計熱點!「建築大師貝聿銘操刀美術館,皆川明設計旅館、選物店,還有全球最美的藍瓶咖啡店舖!」   https://www.elle.com/tw/life/style/g33846398/2020-kyoto-10-hotspots/ 京都真是非常美 Henry L. Stimson   https://en.wikipedia.org/wiki/Henry_L._Stimson?useskin=vector While Kyoto may have satisfied the military criteria for a useful target, Stimson objected, declaring in a meeting if the Interim Committee on June 1, 1945, "...there was one city that they must not bomb without my permission and that was Kyoto." 人性的努力保护了京都 Brooke Astor, 105, Aristocrat of the People, Dies   https://www.nytimes.com/2007/08/14/obituaries/14astor.html 值得尊敬...

产品随想 | 周刊 第127期:晨光只开一刻钟,但比千年松,并无甚不同

Cherry Studio   https://github.com/CherryHQ/cherry-studio Cherry Studio is a desktop client that supports for multiple LLM providers. Support deepseek-r1 Aalto Repository beta   https://repo.aalto.fi/ Images, sounds and videos from Aalto University 这个系列,价值极高 Nokia Design Archive   https://nokiadesignarchive.aalto.fi/ 芬兰这个国家很了不起 对话影石刘靖康:两代未出现划时代的产品,就会沦为平庸的品牌   https://www.geekpark.net/news/308996 还挺喜欢这个创始人的,有一种海盗的内涵 从哈佛、明星创业者到酷家乐副总裁,苏奇的传奇   https://app.modaiyun.com/mdy/article/3FO4K4W0M259 WHO关于猫狗咬伤、抓伤的处理建议 动物咬伤: https://www.who.int/zh/news-room/fact-sheets/detail/animal-bites 狂犬病: https://www.who.int/zh/news-room/fact-sheets/detail/rabies 关于狂犬病的10个事实: https://www.who.int/zh/news-room/facts-in-pictures/detail/rabies INDIGO 新年直播(2025)   https://www.youtube.com/live/ZIgPvSDGAfY 对2024年AI发展的回顾部分特别好 Artab   https://github.com/get-artab/artab Get Inspired by the World's Greatest Artworks Every Time You Open a New Tab. Extension Available for Chrome, Edge, and...

初识PAM

Pluggable Authentication Modules for Linux 可插拨认证模块 用户访问服务器,服务程序将请求发送至PAM模块

Tencent Q4 2022 Earnings Call Transcript

In addition, we're gaining user mind share in live events. For example, over 190 million viewers watched the 2023 CCTV Spring Festival Gala, via live streaming on Video Accounts. ──用户心智这么强,万万没想到 To conclude the strategy section, I would like to share with you our perspective on artificial intelligence, specifically the implications of foundation models for Tencent. The most important takeaway is that we expect AI to be a growth multiplier for us going forward. We have a long-standing experience in developing and adopting AI technologies, which has already benefited many of our businesses such as advertising games, short-form videos and cloud computing. ──AI作为收入倍增器,这一点上的思路,倒是和微软一致的 We experienced substantial demand for Video Accounts ads promising us to release more inventory and Video Accounts in-feed ads exceeded RMB1 billion in quarterly revenue. ──视频号信息流广告收入-单季度10亿 Within Business Services, we're actively helping automobile manufacturers such as NIO, BMW and GAC Motor, enhan...

ifconfig参数备忘

       主要指标说明: eth0/lo:网络接口名 Link encap:网络类型

产品随想 | 读《中国是部金融史》:第三章至第五章

  第三章 犯我货币者,虽强必诛(汉高祖一汉武帝) 刘邦大概没有想到,他的土地政策奠定了此后两千年的社会结构:皇帝是社会最高层,具有至高无上的权力;皇帝之下是三公九即等封建官僚,拿皇帝的钱,逐级管理小农;最底层是万千小农,他们对帝国纳税,用自己的血汗钱养活帝王与封建官僚。此后,中国封建社会结构始终没有摆脱“皇权一封建官僚一小农”这个三位一体的窠臼。 既然消灭了异姓王,正常思维应该是仿效秦始皇强化郡县制,但是这位平民皇帝选择了…条谁也想不到的道路,他分封自己的兄弟子侄为王,并与诸王约定,此后非我子孙称王,天下人都可以杀了他(非刘氏而王者,天下共击之)。刘邦亲眼目睹了秦帝困的分崩离析,危急时刻无人愿意支撑起破败的帝国。华竟,官僚靠薪水吃饭, 就算贪污的本事很大,也没有理由维护别人的一姓天下。 如果没有血浓于水的同姓诸侯王,汉帝国将来同样无法应对真正的危机。事实证明,分封刘氏诸王是对的,如果没有刘邦留下来的同姓诸侯,恐怕汉朝早就得跟着皇后吕雉姓“吕”了。 人们习惯于将刘邦的皇后吕雉称呼为“吕后〞,这是中国古代历史上第一位临朝称制的太后,另外两位要等到盛唐和晚清才能在本书中出镜,三位女强人都是中国货币史上浓墨重彩的人物。 然而,从吕雉开始,仅仅不到一个世纪, 破败的汉帝国就一跃变为当时世界上最强盛的国家,直接把打遍天下无敌手的匈奴骑兵赶到了西欧,让罗马帝国受尽了欺凌。吕后末年,西汉单个农业劳动力的原粮产量已经突破了三干四百斤,这不但是西欧一干五百年后的劳动生产率,也远高于1973年中四的劳动生产率(二千二百四十斤)。应该说,中西文明争霸就是从汉帝国驱赶匈奴开始的,在第一轮交锋中,西欧完败。 ──原来西汉能超过1978年,厉害 吕雉坚决执行了一项前无古人(后有来者)的税收政策—“十五而税一”,换算一下,吕雉时代庶人个人收入所得税税率为 6.6%,而且,没有累进税率。 《二年律令》彻底改变了中国历史的发展轨迹,秦人以军功授田,刘邦以服兵役为代价授田,只有到了吕雉才真正实现了全困范用的“均田“。这是中国历史上第一次以法律形式明确了土地私有制度,每一个最普通的庶人都获得了土地,整个社会实现了孟子的“百亩之田、五亩之宅”理想。这是无数先贤追求的大同世界梦想一“耕者有其田”,请注意,我没有说这是“耕者有其田"的雏形,而是实实在在的“耕者有其田"。 ──对汉朝,充满敬...

常用建筑素材站点

高大上的建筑竞赛效果图中的素材是如何收集的回答,感谢知乎 Vincent Ku 以下是之前搜寻过的素材网站,应该这些够用了 http:// skalgubbar.se/ http:// skalgubbrasil.tumblr.com / http://www. immediateentourage.com/ http://www. gobotree.com/ http://www. mrcutout.com/ http://www. cutoutlife.com/ http://www. nonscandinavia.com/ http://www. escalalatina.com/ http://www. mayang.com/textures/ind ex.htm http://www. textures.com/ ===== 感谢知友 @SJTUboy 补充 http:// maps.stamen.com/# watercolor/12/37.7706/-122.3782 http:// maps.stamen.com/m2i/# toner-background/2000:2000/10/31.1674/121.6063 作者:Vincent Ku 链接:https://www.zhihu.com/question/31584353/answer/73642305 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

The Little MongoDB Book

The Little MongoDB Book 基础 在一个MongoDB实例中可以有若干数据库或一个都没有,不过这里的数据库都是高层次容器,用来储存其他的所有数据 一个数据库可以有若干集合或者一个都没有, 集合由若干文档组成,也可以为空 文档由一个或更多的域组成 索引的意义 游标和以上概念不同,很重要但是常常被忽略,有一点很重要,每当向MongoDB索要数据时,总是返回一个游标 小结一下,MongoDB由数据库组成,数据库由集合组成,集合由文档组成。域组成了文档,集合可以被索引,从而提高了查找和排序的性能。最后,从MongoDB读取数据的时候是通过游标进行的,除非需要,游标不会真正去作读的操作 读到后面觉得实战意义不是很大,就跳过了

产品随想 | 周刊 第126期:Think of your life as a rainbow arcing across the horizon of this world

FolderPaint   https://github.com/MichaelTr7/FolderPaint Folder colour changing application for macOS. 乔布斯说:“对于我和苹果公司的许多人来说,索尼的盛田昭夫是最大的灵感来源之一。我希望我们今天的所想所为能让他会心一笑。” 乔布斯甚至从索尼挖走了一位顶级设计师。哈特穆特·艾斯林格被苹果挖走前,已在 100 多种索尼产品的创造中发挥了重要作用。 供职于索尼时,艾斯林格所在的设计工作室与管理办公室和工厂车间享有同等地位。他说,这样有助于促进公司生产和设计团队之间在一定程度上达成团结,这正是乔布斯试图重建的团结。 艾斯林格指出:“乔布斯有能力洞察事物的好坏,却不知道如何实现以及如何通过组织去构建。因此,我们向苹果提出的第一个建议是,赋予设计师一定的话语权。” 斯卡利表示,乔布斯和盛田之间的深厚友谊和相互敬重可以归结为对于设计的共同热忱。 “他们以非常积极的方式产生了共鸣”,斯卡利说,“两位来自不同文化背景的创始人共聚一堂,这是非常难能可贵的。他们讨论设计原则,却从不谈及商业模式。” “Think of your life as a rainbow arcing across the horizon of this world. You appear, have a chance to blaze in the sky, then you disappear.” City Lights Bookstore   https://en.wikipedia.org/wiki/City_Lights_Bookstore?useskin=vector 旧金山的城市之光独立书店 Vesuvio Cafe   https://en.wikipedia.org/wiki/Vesuvio_Cafe?useskin=vector 好奇怪,这家Cafe居然没有太多的介绍 “One of the things that I was fortunate of was to see and understand the context of San Francisco through the eyes of Steve Jobs,” Mr. Ive said. “He kn...