pandas-dev · svenharris · Oct 20, 2018 · Oct 20, 2018 · Oct 20, 2018 · WillAyd
diff --git a/doc/source/whatsnew/v0.24.0.txt b/doc/source/whatsnew/v0.24.0.txt
@@ -194,6 +194,7 @@ Other Enhancements
 - :meth:`Index.to_frame` now supports overriding column name(s) (:issue:`22580`).
 - New attribute :attr:`__git_version__` will return git commit sha of current build (:issue:`21295`).
 - Compatibility with Matplotlib 3.0 (:issue:`22790`).
+- :meth:`DataFrame.duplicated`, :meth:`Series.duplicated`, :meth:`Index.duplicated`, :meth:`MultiIndex.duplicated` now accept ``keep='all'`` to keep all duplicated values (:issue:`23251`)
 
 .. _whatsnew_0240.api_breaking:
 

diff --git a/pandas/_libs/hashtable_func_helper.pxi.in b/pandas/_libs/hashtable_func_helper.pxi.in
@@ -145,8 +145,8 @@ def duplicated_{{dtype}}({{scalar}}[:] values, object keep='first'):
 
     kh_resize_{{ttype}}(table, min(n, _SIZE_HINT_LIMIT))
 
-    if keep not in ('last', 'first', False):
-        raise ValueError('keep must be either "first", "last" or False')
+    if keep not in ('last', 'first', 'all', False):
+        raise ValueError('keep must be either "first", "last", "all" or False')
 
     if keep == 'last':
         {{if dtype == 'object'}}

diff --git a/pandas/core/algorithms.py b/pandas/core/algorithms.py
@@ -786,7 +786,7 @@ def duplicated(values, keep='first'):
           occurrence.
         - ``last`` : Mark duplicates as ``True`` except for the last
           occurrence.
-        - False : Mark all duplicates as ``True``.
+        - ``all``, False : Mark all duplicates as ``True``.
 
     Returns
     -------

diff --git a/pandas/core/base.py b/pandas/core/base.py
@@ -1252,6 +1252,9 @@ def drop_duplicates(self, keep='first', inplace=False):
             if self.is_unique:
                 return self._shallow_copy()
 
+        if keep not in ['first', 'last', False]:
+            raise ValueError('keep must be either "first", "last" or False')
+
         duplicated = self.duplicated(keep=keep)
         result = self[np.logical_not(duplicated)]
         if inplace:

diff --git a/pandas/core/frame.py b/pandas/core/frame.py
@@ -4414,6 +4414,9 @@ def drop_duplicates(self, subset=None, keep='first', inplace=False):
         if self.empty:
             return self.copy()
 
+        if keep not in ['first', 'last', False]:
+            raise ValueError('keep must be either "first", "last" or False')
+
         inplace = validate_bool_kwarg(inplace, 'inplace')
         duplicated = self.duplicated(subset, keep=keep)
 
@@ -4439,7 +4442,7 @@ def duplicated(self, subset=None, keep='first'):
               first occurrence.
             - ``last`` : Mark duplicates as ``True`` except for the
               last occurrence.
-            - False : Mark all duplicates as ``True``.
+            - ``all``, False : Mark all duplicates as ``True``.
 
         Returns
         -------

diff --git a/pandas/core/indexes/base.py b/pandas/core/indexes/base.py
@@ -4592,7 +4592,7 @@ def duplicated(self, keep='first'):
               occurrence.
             - 'last' : Mark duplicates as ``True`` except for the last
               occurrence.
-            - ``False`` : Mark all duplicates as ``True``.
+            - 'all', ``False`` : Mark all duplicates as ``True``.
 
         Examples
         --------

diff --git a/pandas/core/series.py b/pandas/core/series.py
@@ -1600,7 +1600,7 @@ def duplicated(self, keep='first'):
               occurrence.
             - 'last' : Mark duplicates as ``True`` except for the last
               occurrence.
-            - ``False`` : Mark all duplicates as ``True``.
+            - 'all', ``False`` : Mark all duplicates as ``True``.
 
         Examples
         --------

diff --git a/pandas/tests/frame/test_duplicates.py b/pandas/tests/frame/test_duplicates.py
@@ -46,6 +46,7 @@ def test_duplicated_do_not_fail_on_wide_dataframes():
 @pytest.mark.parametrize('keep, expected', [
     ('first', Series([False, False, True, False, True])),
     ('last', Series([True, True, False, False, False])),
+    ('all', Series([True, True, True, False, True])),
     (False, Series([True, True, True, False, True]))
 ])
 def test_duplicated_keep(keep, expected):
@@ -60,6 +61,7 @@ def test_duplicated_keep(keep, expected):
 @pytest.mark.parametrize('keep, expected', [
     ('first', Series([False, False, True, False, True])),
     ('last', Series([True, True, False, False, False])),
+    ('all', Series([True, True, True, False, True])),
     (False, Series([True, True, True, False, True]))
 ])
 def test_duplicated_nan_none(keep, expected):

diff --git a/pandas/tests/indexes/multi/test_duplicates.py b/pandas/tests/indexes/multi/test_duplicates.py
@@ -214,14 +214,15 @@ def f(a):
 @pytest.mark.parametrize('keep, expected', [
     ('first', np.array([False, False, False, True, True, False])),
     ('last', np.array([False, True, True, False, False, False])),
+    ('all', np.array([False, True, True, True, True, False])),
     (False, np.array([False, True, True, True, True, False]))
 ])
 def test_duplicated(idx_dup, keep, expected):
     result = idx_dup.duplicated(keep=keep)
     tm.assert_numpy_array_equal(result, expected)
 
 
-@pytest.mark.parametrize('keep', ['first', 'last', False])
+@pytest.mark.parametrize('keep', ['first', 'last', 'all', False])
 def test_duplicated_large(keep):
     # GH 9125
     n, k = 200, 5000

diff --git a/pandas/tests/series/test_duplicates.py b/pandas/tests/series/test_duplicates.py
@@ -119,6 +119,7 @@ def test_drop_duplicates_bool(keep, expected):
 @pytest.mark.parametrize('keep, expected', [
     ('first', Series([False, False, True, False, True], name='name')),
     ('last', Series([True, True, False, False, False], name='name')),
+    ('all', Series([True, True, True, False, True], name='name')),
     (False, Series([True, True, True, False, True], name='name'))
 ])
 def test_duplicated_keep(keep, expected):
@@ -131,6 +132,7 @@ def test_duplicated_keep(keep, expected):
 @pytest.mark.parametrize('keep, expected', [
     ('first', Series([False, False, True, False, True])),
     ('last', Series([True, True, False, False, False])),
+    ('all', Series([True, True, True, False, True])),
     (False, Series([True, True, True, False, True]))
 ])
 def test_duplicated_nan_none(keep, expected):