Nachfolgend finden Sie einige Lösungen. (GroupBy, FoldLeft, Aggregate, Spark)
val list: List[(String, String)] = List(("a","b"),("c","d"),("a","f"))
GroupBy-Variation
list.groupBy(_._1).map(v => (v._1, v._2.map(_._2)))
Variation links falten
list.foldLeft[Map[String, List[String]]](Map())((acc, value) => {
acc.get(value._1).fold(acc ++ Map(value._1 -> List(value._2))){ v =>
acc ++ Map(value._1 -> (value._2 :: v))
}
})
Aggregierte Variation - Ähnlich wie links falten
list.aggregate[Map[String, List[String]]](Map())(
(acc, value) => acc.get(value._1).fold(acc ++ Map(value._1 ->
List(value._2))){ v =>
acc ++ Map(value._1 -> (value._2 :: v))
},
(l, r) => l ++ r
)
Spark Variation - Für große Datenmengen (Konvertierung in eine RDD und in eine einfache Karte von RDD)
import org.apache.spark.rdd._
import org.apache.spark.{SparkContext, SparkConf}
val conf: SparkConf = new
SparkConf().setAppName("Spark").setMaster("local")
val sc: SparkContext = new SparkContext (conf)
// This gives you a rdd of the same result
val rdd: RDD[(String, List[String])] = sc.parallelize(list).combineByKey(
(value: String) => List(value),
(acc: List[String], value) => value :: acc,
(accLeft: List[String], accRight: List[String]) => accLeft ::: accRight
)
// To convert this RDD back to a Map[(String, List[String])] you can do the following
rdd.collect().toMap
Map[String, SeqView[String,Seq[_]]]
... ist das beabsichtigt?SeqView[String,Seq[_]]
ist auch einSeq[String]
. Im Nachhinein denke ich nicht, dass sich das lohnt, also habe ich das entferntview
.mapValues
wird trotzdem eine Ansicht über die Werte machen.x.groupBy(_._1).mapValues(_.map(_._2)).map(identity)
weil dermapValues
Ausdruck jedes Mal neu berechnet wird, wenn er verwendet wird. Siehe Issues.scala-lang.org/browse/SI-7005