Concatenate columns containing list values in Spark Dataframe

Question

I have a dataframe (spark) which has 2 columns each with list values. I want to create a new column which concatenates the 2 columns (as well as the list values inside the column). For e.g.

Column 1 has a row value - [A,B]

Column 2 has a row value - [C,D]

"The output should be in a new column i.e. "

Column 3(newly created column) with row value - [A,B,C,D]

Note:- Column values have values stored in LIST

Please help me implement this with pyspark. Thanks

Suresh · Accepted Answer · 2018-03-20 11:54:05Z

4

we can use an UDF as,

 >>> from pyspark.sql import functions as F
 >>> from pyspark.sql.types import *
 >>> udf1 = F.udf(lambda x,y : x+y,ArrayType(StringType()))
 >>> df = df.withColumn('col3',udf1('col1','col2'))

answered Mar 20, 2018 at 11:54

Suresh

5,8802 gold badges27 silver badges42 bronze badges

Sign up to request clarification or add additional context in comments.

Comments

Nikaido · Accepted Answer · 2022-01-12 15:03:38Z

0

as general rule, if you want to join more list columns, I suggest to use chain from itertools

from itertools import chain
concat_list_columns = F.udf(lambda *list_: chain(*list_), ArrayType(StringType()))

Because udf are heavy on memory, a better solution would be to use pyspark function concat:

from pyspark.sql import functions as F
F.concat(col1, col2, col3)

edited Jan 12, 2022 at 15:03

answered Jan 12, 2022 at 13:53

Nikaido

4,6675 gold badges36 silver badges51 bronze badges

Collectives™ on Stack Overflow

Concatenate columns containing list values in Spark Dataframe

2 Answers 2

Comments

Comments

Your Answer

Hot Network Questions

Collectives™ on Stack Overflow

2 Answers 2

Comments

Comments

Your Answer

Sign up or log in

Post as a guest

Related