DTA/TDA/PA use self._data instead of self.asi8 for self._ndarray (#36171)

jbrockmendel · web-flow · commit 971c60e4324f · 2020-09-07T16:46:33.000-04:00
diff --git a/pandas/core/arrays/datetimelike.py b/pandas/core/arrays/datetimelike.py
@@ -27,7 +27,7 @@
 from pandas.compat import set_function_name
 from pandas.compat.numpy import function as nv
 from pandas.errors import AbstractMethodError, NullFrequencyError, PerformanceWarning
-from pandas.util._decorators import Appender, Substitution
+from pandas.util._decorators import Appender, Substitution, cache_readonly
 from pandas.util._validators import validate_fillna_kwargs
 
 from pandas.core.dtypes.common import (
@@ -175,6 +175,14 @@ def _scalar_from_string(self, value: str) -> DTScalarOrNaT:
         """
         raise AbstractMethodError(self)
 
+    @classmethod
+    def _rebox_native(cls, value: int) -> Union[int, np.datetime64, np.timedelta64]:
+        """
+        Box an integer unboxed via _unbox_scalar into the native type for
+        the underlying ndarray.
+        """
+        raise AbstractMethodError(cls)
+
     def _unbox_scalar(self, value: DTScalarOrNaT) -> int:
         """
         Unbox the integer value of a scalar `value`.
@@ -458,18 +466,15 @@ class DatetimeLikeArrayMixin(
     # ------------------------------------------------------------------
     # NDArrayBackedExtensionArray compat
 
-    # TODO: make this a cache_readonly; need to get around _index_data
-    #  kludge in libreduction
-    @property
+    @cache_readonly
     def _ndarray(self) -> np.ndarray:
-        # NB: A bunch of Interval tests fail if we use ._data
-        return self.asi8
+        return self._data
 
     def _from_backing_data(self: _T, arr: np.ndarray) -> _T:
         # Note: we do not retain `freq`
-        # error: Too many arguments for "NDArrayBackedExtensionArray"
-        # error: Unexpected keyword argument "dtype" for "NDArrayBackedExtensionArray"
-        return type(self)(arr, dtype=self.dtype)  # type: ignore[call-arg]
+        return type(self)._simple_new(  # type: ignore[attr-defined]
+            arr, dtype=self.dtype
+        )
 
     # ------------------------------------------------------------------
 
@@ -526,7 +531,7 @@ def __array__(self, dtype=None) -> np.ndarray:
         # used for Timedelta/DatetimeArray, overwritten by PeriodArray
         if is_object_dtype(dtype):
             return np.array(list(self), dtype=object)
-        return self._data
+        return self._ndarray
 
     def __getitem__(self, key):
         """
@@ -536,7 +541,7 @@ def __getitem__(self, key):
 
         if lib.is_integer(key):
             # fast-path
-            result = self._data[key]
+            result = self._ndarray[key]
             if self.ndim == 1:
                 return self._box_func(result)
             return self._simple_new(result, dtype=self.dtype)
@@ -557,7 +562,7 @@ def __getitem__(self, key):
             key = check_array_indexer(self, key)
 
         freq = self._get_getitem_freq(key)
-        result = self._data[key]
+        result = self._ndarray[key]
         if lib.is_scalar(result):
             return self._box_func(result)
         return self._simple_new(result, dtype=self.dtype, freq=freq)
@@ -612,7 +617,7 @@ def __setitem__(
 
         value = self._validate_setitem_value(value)
         key = check_array_indexer(self, key)
-        self._data[key] = value
+        self._ndarray[key] = value
         self._maybe_clear_freq()
 
     def _maybe_clear_freq(self):
@@ -663,8 +668,8 @@ def astype(self, dtype, copy=True):
 
     def view(self, dtype=None):
         if dtype is None or dtype is self.dtype:
-            return type(self)(self._data, dtype=self.dtype)
-        return self._data.view(dtype=dtype)
+            return type(self)(self._ndarray, dtype=self.dtype)
+        return self._ndarray.view(dtype=dtype)
 
     # ------------------------------------------------------------------
     # ExtensionArray Interface
@@ -705,7 +710,7 @@ def _from_factorized(cls, values, original):
         return cls(values, dtype=original.dtype)
 
     def _values_for_argsort(self):
-        return self._data
+        return self._ndarray
 
     # ------------------------------------------------------------------
     # Validation Methods
@@ -722,7 +727,7 @@ def _validate_fill_value(self, fill_value):
 
         Returns
         -------
-        fill_value : np.int64
+        fill_value : np.int64, np.datetime64, or np.timedelta64
 
         Raises
         ------
@@ -736,7 +741,8 @@ def _validate_fill_value(self, fill_value):
             fill_value = self._validate_scalar(fill_value, msg)
         except TypeError as err:
             raise ValueError(msg) from err
-        return self._unbox(fill_value)
+        rv = self._unbox(fill_value)
+        return self._rebox_native(rv)
 
     def _validate_shift_value(self, fill_value):
         # TODO(2.0): once this deprecation is enforced, use _validate_fill_value
@@ -951,9 +957,9 @@ def value_counts(self, dropna=False):
         from pandas import Index, Series
 
         if dropna:
-            values = self[~self.isna()]._data
+            values = self[~self.isna()]._ndarray
         else:
-            values = self._data
+            values = self._ndarray
 
         cls = type(self)
 
@@ -1044,9 +1050,9 @@ def fillna(self, value=None, method=None, limit=None):
                 else:
                     func = missing.backfill_1d
 
-                values = self._data
+                values = self._ndarray
                 if not is_period_dtype(self.dtype):
-                    # For PeriodArray self._data is i8, which gets copied
+                    # For PeriodArray self._ndarray is i8, which gets copied
                     #  by `func`.  Otherwise we need to make a copy manually
                     # to avoid modifying `self` in-place.
                     values = values.copy()
diff --git a/pandas/core/arrays/datetimes.py b/pandas/core/arrays/datetimes.py
@@ -446,6 +446,10 @@ def _generate_range(
     # -----------------------------------------------------------------
     # DatetimeLike Interface
 
+    @classmethod
+    def _rebox_native(cls, value: int) -> np.datetime64:
+        return np.int64(value).view("M8[ns]")
+
     def _unbox_scalar(self, value):
         if not isinstance(value, self._scalar_type) and value is not NaT:
             raise ValueError("'value' should be a Timestamp.")
diff --git a/pandas/core/arrays/period.py b/pandas/core/arrays/period.py
@@ -253,6 +253,10 @@ def _generate_range(cls, start, end, periods, freq, fields):
     # -----------------------------------------------------------------
     # DatetimeLike Interface
 
+    @classmethod
+    def _rebox_native(cls, value: int) -> np.int64:
+        return np.int64(value)
+
     def _unbox_scalar(self, value: Union[Period, NaTType]) -> int:
         if value is NaT:
             return value.value
diff --git a/pandas/core/arrays/timedeltas.py b/pandas/core/arrays/timedeltas.py
@@ -271,6 +271,10 @@ def _generate_range(cls, start, end, periods, freq, closed=None):
     # ----------------------------------------------------------------
     # DatetimeLike Interface
 
+    @classmethod
+    def _rebox_native(cls, value: int) -> np.timedelta64:
+        return np.int64(value).view("m8[ns]")
+
     def _unbox_scalar(self, value):
         if not isinstance(value, self._scalar_type) and value is not NaT:
             raise ValueError("'value' should be a Timedelta.")
diff --git a/pandas/tests/frame/indexing/test_datetime.py b/pandas/tests/frame/indexing/test_datetime.py
@@ -23,7 +23,9 @@ def test_setitem(self, timezone_frame):
         b1 = df._mgr.blocks[1]
         b2 = df._mgr.blocks[2]
         tm.assert_extension_array_equal(b1.values, b2.values)
-        assert id(b1.values._data.base) != id(b2.values._data.base)
+        b1base = b1.values._data.base
+        b2base = b2.values._data.base
+        assert b1base is None or (id(b1base) != id(b2base))
 
         # with nan
         df2 = df.copy()