How to join rows in pandas dataframe based on column value?

Question

I have a dataframe which looks like this:

time text
01.01.1970 abc
01.01.1970 cde
01.01.1970 fgh
01.01.1980 abc
01.01.1980 xyz

I would like to join the content in text based on column time. I want to join them separated by \n. How can I do this in order to get such a dataframe?

time text
01.01.1970 abc\ncde\nfgh
01.01.1980 abc\nxyz

I tried the following but I do not get what is expected but instead for every row in text I get: text\ntime.

out = (df.groupby('time', as_index=False)
       ['text'].agg(lambda x: '\n'.join(x.dropna())))

remove as_index=False.

Quang Hoang
– Quang Hoang

2022-07-11 14:49:35 +00:00
Commented Jul 11, 2022 at 14:49 — Quang Hoang
– Quang Hoang, Commented Jul 11, 2022 at 14:49
Why your provided groupby doesn't work as expected?

Ynjxsjmh
– Ynjxsjmh

2022-07-11 15:04:12 +00:00
Commented Jul 11, 2022 at 15:04 — Ynjxsjmh
– Ynjxsjmh, Commented Jul 11, 2022 at 15:04
Because there was as_index=False included.

Tobitor
– Tobitor

2022-07-11 15:06:08 +00:00
Commented Jul 11, 2022 at 15:06 — Tobitor
– Tobitor, Commented Jul 11, 2022 at 15:06

MAFiA303 · Accepted Answer · 2022-07-11 14:47:50Z

2

df.groupby('time')['text'].apply(lambda x: x.str.cat(sep='\n'))

output:

time    text
01.01.1970  "abc\ndef"
01.01.1980  "ghi\njkl"

answered Jul 11, 2022 at 14:47

MAFiA303

1,34713 silver badges11 bronze badges

Sign up to request clarification or add additional context in comments.

Comments

Marat · Accepted Answer · 2022-07-11 14:49:24Z

1

It's easier to drop NaNs before

df.dropna().groupby('time')['text'].agg('\n'.join)

answered Jul 11, 2022 at 14:49

Marat

15.9k3 gold badges44 silver badges53 bronze badges

1 Comment

Quang Hoang Over a year ago

This might not work as expected if data has other columns than the two included here. Plus, the solution is really something else.

Michael S. · Accepted Answer · 2022-07-11 15:09:17Z

0

This answer is longer/uglier than the others but it at least gives you back a dataframe similar to your starting one.

List = []
for x in df.time.unique():
    List.append([x , "\n".join(df[df.time == x].text.values)])
pd.DataFrame(List, columns = df.columns)

answered Jul 11, 2022 at 15:09

Michael S.

3,1485 gold badges21 silver badges37 bronze badges

Collectives™ on Stack Overflow

How to join rows in pandas dataframe based on column value?

3 Answers 3

Comments

1 Comment

Comments

Your Answer

Hot Network Questions

Collectives™ on Stack Overflow

3 Answers 3

Comments

1 Comment

Comments

Your Answer

Sign up or log in

Post as a guest

Related