Python Find duplicates across multiple columns

Question

How do i filter a dataframe to only show rows with duplicates across multiple columns?

Example dataframe:

col1 col2 col3
A1    B1   C1
A1    B1   C1
A1    B1   C2
A2    B2   C2

Expected output:

col1 col2 col3
A1    B1   C1
A1    B1   C1

My attempt:

df[df.duplicated(['col1', 'col2', 'col3'], keep=False)]

but this does not give expected outcome.

Peter Leimbigler · Accepted Answer · 2018-03-03 03:01:40Z

7

Your attempt df[df.duplicated(['col1', 'col2', 'col3'], keep=False)] works in my testing. You can leave out the column names:

df[df.duplicated(keep=False)]

answered Mar 3, 2018 at 3:01

Peter Leimbigler

11.1k1 gold badge27 silver badges39 bronze badges

Sign up to request clarification or add additional context in comments.

1 Answer 1