pandas-dev · cuchoi · Jun 7, 2019 · Jun 9, 2019 · Jun 9, 2019 · Sep 17, 2019
diff --git a/doc/source/whatsnew/v1.2.0.rst b/doc/source/whatsnew/v1.2.0.rst
@@ -341,11 +341,11 @@ Groupby/resample/rolling
 Reshaping
 ^^^^^^^^^
 
+- Bug in :meth:`DataFrame.crosstab` when duplicated row or column names were used (:issue:`22529`)
 - Bug in :meth:`DataFrame.pivot_table` with ``aggfunc='count'`` or ``aggfunc='sum'`` returning ``NaN`` for missing categories when pivoted on a ``Categorical``. Now returning ``0`` (:issue:`31422`)
 - Bug in :func:`union_indexes` where input index names are not preserved in some cases. Affects :func:`concat` and :class:`DataFrame` constructor (:issue:`13475`)
 - Bug in func :meth:`crosstab` when using multiple columns with ``margins=True`` and ``normalize=True`` (:issue:`35144`)
 - Bug in :meth:`DataFrame.agg` with ``func={'name':<FUNC>}`` incorrectly raising ``TypeError`` when ``DataFrame.columns==['Name']`` (:issue:`36212`)
--
 
 Sparse
 ^^^^^^

diff --git a/pandas/core/reshape/pivot.py b/pandas/core/reshape/pivot.py
@@ -5,6 +5,7 @@
     List,
     Optional,
     Sequence,
+    Set,
     Tuple,
     Union,
     cast,
@@ -19,6 +20,7 @@
 from pandas.core.dtypes.common import is_integer_dtype, is_list_like, is_scalar
 from pandas.core.dtypes.generic import ABCDataFrame, ABCSeries
 
+import pandas.core.algorithms as algos
 import pandas.core.common as com
 from pandas.core.frame import _shared_docs
 from pandas.core.groupby import Grouper
@@ -580,29 +582,39 @@ def crosstab(
     b      0  1  0
     c      0  0  0
     """
+    if values is None and aggfunc is not None:
+        raise ValueError("aggfunc cannot be used without values.")
+
+    if values is not None and aggfunc is None:
+        raise ValueError("values cannot be used without an aggfunc.")
+
     index = com.maybe_make_list(index)
     columns = com.maybe_make_list(columns)
 
-    rownames = _get_names(index, rownames, prefix="row")
-    colnames = _get_names(columns, colnames, prefix="col")
-
     common_idx = None
     pass_objs = [x for x in index + columns if isinstance(x, (ABCSeries, ABCDataFrame))]
     if pass_objs:
         common_idx = get_objs_combined_axis(pass_objs, intersect=True, sort=False)
 
-    data: Dict = {}
-    data.update(zip(rownames, index))
-    data.update(zip(colnames, columns))
-
-    if values is None and aggfunc is not None:
-        raise ValueError("aggfunc cannot be used without values.")
+    rownames = _get_names(index, rownames, prefix="row")
+    colnames = _get_names(columns, colnames, prefix="col")
 
-    if values is not None and aggfunc is None:
-        raise ValueError("values cannot be used without an aggfunc.")
+    # We create our own mapping of row and columns names
+    # to prevent issues with duplicate columns/row names. GH Issue: #22529
+    shared_col_row_names = set(rownames).intersection(set(colnames))
+    row_names_mapper, unique_row_names = _build_names_mapper(
+        rownames, shared_col_row_names, "row"
+    )
+    col_names_mapper, unique_col_names = _build_names_mapper(
+        colnames, shared_col_row_names, "col"
+    )
 
     from pandas import DataFrame
 
+    data = {
+        **dict(zip(unique_row_names, index)),
+        **dict(zip(unique_col_names, columns)),
+    }
     df = DataFrame(data, index=common_idx)
     original_df_cols = df.columns
 
@@ -615,8 +627,8 @@ def crosstab(
 
     table = df.pivot_table(
         ["__dummy__"],
-        index=rownames,
-        columns=colnames,
+        index=unique_row_names,
+        columns=unique_col_names,
         margins=margins,
         margins_name=margins_name,
         dropna=dropna,
@@ -635,6 +647,9 @@ def crosstab(
             table, normalize=normalize, margins=margins, margins_name=margins_name
         )
 
+    table = table.rename_axis(index=row_names_mapper, axis=0)
+    table = table.rename_axis(columns=col_names_mapper, axis=1)
+
     return table
 
 
@@ -733,3 +748,57 @@ def _get_names(arrs, names, prefix: str = "row"):
             names = list(names)
 
     return names
+
+
+def _build_names_mapper(
+    names: List[str], shared_col_row_names: Set[str], suffix: str
+) -> Tuple[Dict[str, str], List[str]]:
+    """
+    Given a list of row or column names, creates a mapper of unique names to
+    column/row names.
+
+    Parameters
+    ----------
+    names : list
+        Names to be deduplicated.
+    shared_col_row_names : set or list
+        Values used both in rows and columns, so need additional deduplication.
+    suffix : str
+        Suffix to deduplicate values in shared_col_row_names
+
+    Returns
+    -------
+    names_mapper: dict
+        The keys are the unique names and the values are the original names.
+    unique_names: list
+        Unique names in the same order that names came in
+    """
+    keys, counts = algos.value_counts_arraylike(names, dropna=False)
+    names_count = dict(zip(keys, counts))
+
+    names_mapper = {}
+    unique_names: List[str] = []
+    # We reverse the names so the numbers are in the order given by the user
+    for name in reversed(names):
+        mapped_name = name
+        name_count = names_count[name]
+
+        # Adds a number if name is duplicated within columns/rows
+        if name_count > 1:
+            mapped_name = "{mapped_name}_{name_count}".format(
+                mapped_name=mapped_name, name_count=name_count
+            )
+            names_count[name] -= 1
+
+        # Add suffix name if column is shared between column and rows
+        if name in shared_col_row_names:
+            mapped_name = "{mapped_name}_{suffix}".format(
+                mapped_name=mapped_name, suffix=suffix
+            )
+
+        names_mapper[mapped_name] = name
+
+        # Creates a list of the new names in the original order
+        unique_names.insert(0, mapped_name)
+
+    return names_mapper, unique_names
diff --git a/pandas/tests/reshape/test_crosstab.py b/pandas/tests/reshape/test_crosstab.py
@@ -533,17 +533,51 @@ def test_crosstab_with_numpy_size(self):
         )
         tm.assert_frame_equal(result, expected)
 
-    def test_crosstab_dup_index_names(self):
-        # GH 13279
-        s = Series(range(3), name="foo")
+    def test_crosstab_duplicated_row_and_col_names(self):
+        # We test that duplicated row or column names do not produce issues
+        # GH Issue: #22529, GH#13279
 
-        result = crosstab(s, s)
-        expected_index = Index(range(3), name="foo")
-        expected = DataFrame(
-            np.eye(3, dtype=np.int64), index=expected_index, columns=expected_index
+        # Same name in both rows and columns
+        s1 = Series(range(3), name="foo")
+        s2 = s1 + 1
+        expected = crosstab(s1, s2.rename("bar")).rename_axis(
+            columns={"bar": "foo"}, axis=1
+        )
+        result = crosstab(s1, s2)
+        tm.assert_frame_equal(result, expected)
+        assert result.index.names == ["foo"]
+        assert result.columns.names == ["foo"]
+
+        # Row names duplicated
+        s1 = Series(range(3), name="foo")
+        s2 = s1 + 1
+        s3 = Series(range(3), name="bar_col")
+
+        expected = crosstab([s1, s2.rename("bar")], s3).rename_axis(
+            index={"bar": "foo"}, axis=0
+        )
+        result = crosstab([s1, s2], s3)
+
+        tm.assert_frame_equal(result, expected)
+
+        assert result.index.names == ["foo", "foo"]
+        assert result.columns.names == ["bar_col"]
+
+        # Column names duplicated
+        s1 = Series(range(3), name="foo")
+        s2 = s1 + 1
+        s3 = Series(range(3), name="bar_row")
+
+        expected = crosstab(s3, [s1, s2.rename("bar")]).rename_axis(
+            columns={"bar": "foo"}, axis=1
         )
+        result = crosstab(s3, [s1, s2])
+
         tm.assert_frame_equal(result, expected)
 
+        assert result.index.names == ["bar_row"]
+        assert result.columns.names == ["foo", "foo"]
+
     @pytest.mark.parametrize("names", [["a", ("b", "c")], [("a", "b"), "c"]])
     def test_crosstab_tuple_name(self, names):
         s1 = Series(range(3), name=names[0])