大数据入门到精通7--对复合value做reducebykey

时间:2023-07-25 08:15:44

培训系列7--对复合value做reduce

1.做基础数据准备

val collegesRdd= sc.textFile("/user/hdfs/CollegeNavigator.csv")
val header= collegesRdd.first

val headerlessRdd= collegesRdd.filter( line=>{ line!= header } )

2.做map数据

val typeMapCount= headerlessRdd.map(line=>{

val strtype=line.split("\",\"")(3)  \\取类型字段

val strCount=line.split("\",\"")(7)

val stuCount=if (strCount.length()>0) strCount.toLong
else 0

\\以上是获取第7个字段,如果不为空的话取实际数据,如果为空取0
val strUnderCount=line.split("\",\"")(8)
val underCount=if (strUnderCount.length()>0) strUnderCount.toLong
else 0

\\以上是获取第8个字段,如果不为空的话取实际数据,如果为空取0
(strtype,(stuCount,underCount)
})

3.做reducebykey 对符合value操作

val typeReduceCount=typeMapCount.reduceByKey((sum,current)=>{
((sum._1+current._1),(sum._2+current._2))
})

对reduce by key 的操作的时候,不操作key,所以符合value,只需要一层就可以取得值,不需要实际嵌套两层,sum._2._1 反而是错误的。

因为是符合key,所以reducebykey的结果也是用括号括住的。