File tree 1 file changed +1
-1
lines changed
1 file changed +1
-1
lines changed Original file line number Diff line number Diff line change 23
23
24
24
解决这个问题的初步想法是让每一个 transformation() 方法返回(new)一个 RDD。事实也基本如此,只是某些 transformation() 比较复杂,会包含多个子 transformation(),因而会生成多个 RDD。这就是* 实际 RDD 个数比我们想象的多一些* 的原因。
25
25
26
- ** 如何计算每个 RDD 中的数据?** 逻辑执行图实际上是 computing chain,那么 transformation() 的计算逻辑在哪里被 perform?每个 RDD 里有 compute() 方法,负责接收来自上一个 RDD 或者数据源的 input records,perfrom transformation() 的计算逻辑,然后输出 records。
26
+ ** 如何计算每个 RDD 中的数据?** 逻辑执行图实际上是 computing chain,那么 transformation() 的计算逻辑在哪里被 perform?每个 RDD 里有 compute() 方法,负责接收来自上一个 RDD 或者数据源的 input records,perform transformation() 的计算逻辑,然后输出 records。
27
27
28
28
产生哪些 RDD 与 transformation() 的计算逻辑有关,下面讨论一些典型的 [ transformation()] ( http://spark.apache.org/docs/latest/programming-guide.html#transformations ) 及其创建的 RDD。官网上已经解释了每个 transformation 的含义。iterator(split) 的意思是 foreach record in the partition。这里空了很多,是因为那些 transformation() 较为复杂,会产生多个 RDD,具体会在下一节图示出来。
29
29
You can’t perform that action at this time.
0 commit comments