其实我自己对spark的应用场景是没什么需求的,但几个月前不知道怎么想的在edx上选了一门伯克利的spark课,所以就入了坑。一共五周,现在开到第三周,因为对python不熟加上记性也不好,先把其中比较干货的东西捡出来,此外剩下两周的课可能由于外出开会耽误。我没有计算机科学背景,所以仅按照自己理解与讲义来写,疏漏之处见谅。

Spark简介

Spark是用来解决大量数据处理问题的一个工具。由于现在数据产生非常快,单机在收集、储存与处理数据上是性能不足的。如果我们用集群的话收集与存储是没问题了,但如何快速处理数据让数据变成知识也是需要工具的。此外,集群出于成本考虑多采用分布式的结构,所以这个工具要做的就是从这些分布式集群中快速准确的提取信息,而这也是spark的设计初衷。

我们来理解一个分布计算场景:这里有一大段文本,我们把它们 …