Some updates

lialan · lialan · commit c9db9bffd282 · 2025-05-01T14:26:29.000-04:00
diff --git a/mlir/lib/Dialect/MemRef/Transforms/FlattenMemRefs.cpp b/mlir/lib/Dialect/MemRef/Transforms/FlattenMemRefs.cpp
@@ -16,6 +16,7 @@
 #include "mlir/Dialect/MemRef/IR/MemRef.h"
 #include "mlir/Dialect/MemRef/Transforms/Passes.h"
 #include "mlir/Dialect/MemRef/Transforms/Transforms.h"
+#include "mlir/Dialect/MemRef/Utils/MemRefUtils.h"
 #include "mlir/Dialect/Utils/IndexingUtils.h"
 #include "mlir/Dialect/Utils/StaticValueUtils.h"
 #include "mlir/Dialect/Vector/IR/VectorOps.h"
@@ -38,141 +39,6 @@ namespace memref {
 
 using namespace mlir;
 
-static void setInsertionPointToStart(OpBuilder &builder, Value val) {
-  if (auto *parentOp = val.getDefiningOp()) {
-    builder.setInsertionPointAfter(parentOp);
-  } else {
-    builder.setInsertionPointToStart(val.getParentBlock());
-  }
-}
-
-OpFoldResult computeMemRefSpan(Value memref, OpBuilder &builder) {
-  Location loc = memref.getLoc();
-  MemRefType type = cast<MemRefType>(memref.getType());
-  ArrayRef<int64_t> shape = type.getShape();
-  
-  // Check for empty memref
-  if (type.hasStaticShape() && 
-      llvm::any_of(shape, [](int64_t dim) { return dim == 0; })) {
-    return builder.getIndexAttr(0);
-  }
-  
-  // Get strides of the memref
-  SmallVector<int64_t, 4> strides;
-  int64_t offset;
-  if (failed(type.getStridesAndOffset(strides, offset))) {
-    // Cannot extract strides, return a dynamic value
-    return Value();
-  }
-  
-  // Static case: compute at compile time if possible
-  if (type.hasStaticShape()) {
-    int64_t span = 0;
-    for (unsigned i = 0; i < type.getRank(); ++i) {
-      span += (shape[i] - 1) * strides[i];
-    }
-    return builder.getIndexAttr(span);
-  }
-  
-  // Dynamic case: emit IR to compute at runtime
-  Value result = builder.create<arith::ConstantIndexOp>(loc, 0);
-  
-  for (unsigned i = 0; i < type.getRank(); ++i) {
-    // Get dimension size
-    Value dimSize;
-    if (shape[i] == ShapedType::kDynamic) {
-      dimSize = builder.create<memref::DimOp>(loc, memref, i);
-    } else {
-      dimSize = builder.create<arith::ConstantIndexOp>(loc, shape[i]);
-    }
-    
-    // Compute (dim - 1)
-    Value one = builder.create<arith::ConstantIndexOp>(loc, 1);
-    Value dimMinusOne = builder.create<arith::SubIOp>(loc, dimSize, one);
-    
-    // Get stride
-    Value stride;
-    if (strides[i] == ShapedType::kDynamicStrideOrOffset) {
-      // For dynamic strides, need to extract from memref descriptor
-      // This would require runtime support, possibly using extractStride
-      // As a placeholder, return a dynamic value
-      return Value();
-    } else {
-      stride = builder.create<arith::ConstantIndexOp>(loc, strides[i]);
-    }
-    
-    // Add (dim - 1) * stride to result
-    Value term = builder.create<arith::MulIOp>(loc, dimMinusOne, stride);
-    result = builder.create<arith::AddIOp>(loc, result, term);
-  }
-  
-  return result;
-}
-
-static std::tuple<Value, OpFoldResult, SmallVector<OpFoldResult>, OpFoldResult,
-                  OpFoldResult>
-getFlatOffsetAndStrides(OpBuilder &rewriter, Location loc, Value source,
-                        ArrayRef<OpFoldResult> subOffsets,
-                        ArrayRef<OpFoldResult> subStrides = std::nullopt) {
-  auto sourceType = cast<MemRefType>(source.getType());
-  auto sourceRank = static_cast<unsigned>(sourceType.getRank());
-
-  memref::ExtractStridedMetadataOp newExtractStridedMetadata;
-  {
-    OpBuilder::InsertionGuard g(rewriter);
-    setInsertionPointToStart(rewriter, source);
-    newExtractStridedMetadata =
-        rewriter.create<memref::ExtractStridedMetadataOp>(loc, source);
-  }
-
-  auto &&[sourceStrides, sourceOffset] = sourceType.getStridesAndOffset();
-
-  auto getDim = [&](int64_t dim, Value dimVal) -> OpFoldResult {
-    return ShapedType::isDynamic(dim) ? getAsOpFoldResult(dimVal)
-                                      : rewriter.getIndexAttr(dim);
-  };
-
-  OpFoldResult origOffset =
-      getDim(sourceOffset, newExtractStridedMetadata.getOffset());
-  ValueRange sourceStridesVals = newExtractStridedMetadata.getStrides();
-  OpFoldResult outmostDim =
-      getDim(sourceType.getShape().front(),
-             newExtractStridedMetadata.getSizes().front());
-
-  SmallVector<OpFoldResult> origStrides;
-  origStrides.reserve(sourceRank);
-
-  SmallVector<OpFoldResult> strides;
-  strides.reserve(sourceRank);
-
-  AffineExpr s0 = rewriter.getAffineSymbolExpr(0);
-  AffineExpr s1 = rewriter.getAffineSymbolExpr(1);
-  for (auto i : llvm::seq(0u, sourceRank)) {
-    OpFoldResult origStride = getDim(sourceStrides[i], sourceStridesVals[i]);
-
-    if (!subStrides.empty()) {
-      strides.push_back(affine::makeComposedFoldedAffineApply(
-          rewriter, loc, s0 * s1, {subStrides[i], origStride}));
-    }
-
-    origStrides.emplace_back(origStride);
-  }
-
-  // Compute linearized index:
-  auto &&[expr, values] =
-      computeLinearIndex(rewriter.getIndexAttr(0), origStrides, subOffsets);
-  OpFoldResult linearizedIndex =
-      affine::makeComposedFoldedAffineApply(rewriter, loc, expr, values);
-
-  // Compute collapsed size: (the outmost stride * outmost dimension).
-  //SmallVector<OpFoldResult> ops{origStrides.front(), outmostDim};
-  //OpFoldResult collapsedSize = affine::computeProduct(loc, rewriter, ops);
-  OpFoldResult collapsedSize = computeMemRefSpan(source, rewriter);
-
-  return {newExtractStridedMetadata.getBaseBuffer(), linearizedIndex,
-          origStrides, origOffset, collapsedSize};
-}
-
 static Value getValueFromOpFoldResult(OpBuilder &rewriter, Location loc,
                                       OpFoldResult in) {
   if (Attribute offsetAttr = dyn_cast<Attribute>(in)) {
@@ -188,17 +54,36 @@ static std::pair<Value, Value> getFlattenMemrefAndOffset(OpBuilder &rewriter,
                                                          Location loc,
                                                          Value source,
                                                          ValueRange indices) {
-  auto &&[base, index, strides, offset, collapsedShape] =
-      getFlatOffsetAndStrides(rewriter, loc, source,
-                              getAsOpFoldResult(indices));
+  int64_t sourceOffset;
+  SmallVector<int64_t, 4> sourceStrides;
+  auto sourceType = cast<MemRefType>(source.getType());
+  if (failed(sourceType.getStridesAndOffset(sourceStrides, sourceOffset))) {
+    assert(false);
+  }
+
+  memref::ExtractStridedMetadataOp stridedMetadata =
+      rewriter.create<memref::ExtractStridedMetadataOp>(loc, source);
+
+  auto typeBit = sourceType.getElementType().getIntOrFloatBitWidth();
+  OpFoldResult linearizedIndices;
+  memref::LinearizedMemRefInfo linearizedInfo;
+  std::tie(linearizedInfo, linearizedIndices) =
+      memref::getLinearizedMemRefOffsetAndSize(
+          rewriter, loc, typeBit, typeBit,
+          stridedMetadata.getConstifiedMixedOffset(),
+          stridedMetadata.getConstifiedMixedSizes(),
+          stridedMetadata.getConstifiedMixedStrides(),
+          getAsOpFoldResult(indices));
 
   return std::make_pair(
       rewriter.create<memref::ReinterpretCastOp>(
           loc, source,
-          /* offset = */ offset,
-          /* shapes = */ ArrayRef<OpFoldResult>{collapsedShape},
-          /* strides = */ ArrayRef<OpFoldResult>{strides.back()}),
-      getValueFromOpFoldResult(rewriter, loc, index));
+          /* offset = */ linearizedInfo.linearizedOffset,
+          /* shapes = */ ArrayRef<OpFoldResult>{linearizedInfo.linearizedSize},
+          /* strides = */
+          ArrayRef<OpFoldResult>{
+              stridedMetadata.getConstifiedMixedStrides().back()}),
+      getValueFromOpFoldResult(rewriter, loc, linearizedIndices));
 }
 
 static bool needFlattening(Value val) {
@@ -313,8 +198,23 @@ struct FlattenSubview : public OpRewritePattern<memref::SubViewOp> {
     SmallVector<OpFoldResult> subOffsets = op.getMixedOffsets();
     SmallVector<OpFoldResult> subSizes = op.getMixedSizes();
     SmallVector<OpFoldResult> subStrides = op.getMixedStrides();
-    auto &&[base, finalOffset, strides, _, __] =
-        getFlatOffsetAndStrides(rewriter, loc, memref, subOffsets, subStrides);
+
+    // base, finalOffset, strides
+    memref::ExtractStridedMetadataOp stridedMetadata =
+        rewriter.create<memref::ExtractStridedMetadataOp>(loc, memref);
+
+    auto sourceType = cast<MemRefType>(memref.getType());
+    auto typeBit = sourceType.getElementType().getIntOrFloatBitWidth();
+    OpFoldResult linearizedIndices;
+    memref::LinearizedMemRefInfo linearizedInfo;
+    std::tie(linearizedInfo, linearizedIndices) =
+        memref::getLinearizedMemRefOffsetAndSize(
+            rewriter, loc, typeBit, typeBit,
+            stridedMetadata.getConstifiedMixedOffset(),
+            stridedMetadata.getConstifiedMixedSizes(),
+            stridedMetadata.getConstifiedMixedStrides(), op.getMixedOffsets());
+    auto finalOffset = linearizedInfo.linearizedOffset;
+    auto strides = stridedMetadata.getConstifiedMixedStrides();
 
     auto srcType = cast<MemRefType>(memref.getType());
     auto resultType = cast<MemRefType>(op.getType());
@@ -337,7 +237,7 @@ struct FlattenSubview : public OpRewritePattern<memref::SubViewOp> {
     }
 
     rewriter.replaceOpWithNewOp<memref::ReinterpretCastOp>(
-        op, resultType, base, finalOffset, finalSizes, finalStrides);
+        op, resultType, memref, finalOffset, finalSizes, finalStrides);
     return success();
   }
 };
@@ -364,12 +264,13 @@ struct FlattenMemrefsPass
 } // namespace
 
 void memref::populateFlattenMemrefsPatterns(RewritePatternSet &patterns) {
-  patterns
-      .insert<MemRefRewritePattern<memref::LoadOp>,
-              MemRefRewritePattern<memref::StoreOp>,
-              MemRefRewritePattern<vector::LoadOp>,
-              MemRefRewritePattern<vector::StoreOp>,
-              MemRefRewritePattern<vector::TransferReadOp>,
-              MemRefRewritePattern<vector::TransferWriteOp>, FlattenSubview>(
-          patterns.getContext());
+  patterns.insert<MemRefRewritePattern<memref::LoadOp>,
+                  MemRefRewritePattern<memref::StoreOp>,
+                  MemRefRewritePattern<vector::LoadOp>,
+                  MemRefRewritePattern<vector::StoreOp>,
+                  MemRefRewritePattern<vector::TransferReadOp>,
+                  MemRefRewritePattern<vector::TransferWriteOp>,
+                  MemRefRewritePattern<vector::MaskedLoadOp>,
+                  MemRefRewritePattern<vector::MaskedStoreOp>, FlattenSubview>(
+      patterns.getContext());
 }
diff --git a/mlir/test/Dialect/MemRef/flatten_memref.mlir b/mlir/test/Dialect/MemRef/flatten_memref.mlir
@@ -6,7 +6,7 @@ func.func @load_scalar_from_memref(%input: memref<4x8xf32, strided<[8, 1], offse
   %value = memref.load %input[%c1, %c2] : memref<4x8xf32, strided<[8, 1], offset: 100>>
   return %value : f32
 }
-// CHECK: func @load_scalar_from_memref
+// CHECK-LABEL: func @load_scalar_from_memref
 // CHECK: %[[C10:.*]] = arith.constant 10 : index
 // CHECK: %[[REINT:.*]] = memref.reinterpret_cast %arg0 to offset: [100], sizes: [32], strides: [1]
 // CHECK-SAME: memref<4x8xf32, strided<[8, 1], offset: 100>> to memref<32xf32, strided<[1], offset: 100>>
@@ -18,6 +18,7 @@ func.func @load_scalar_from_memref_static_dim_2(%input: memref<4x8xf32, strided<
   %value = memref.load %input[%col, %row] : memref<4x8xf32, strided<[8, 12], offset: 100>>
   return %value : f32
 }
+
 // CHECK: [[MAP:.+]] = affine_map<()[s0, s1] -> (s0 * 8 + s1 * 12)>
 // CHECK: func @load_scalar_from_memref_static_dim_2
 // CHECK-SAME: (%[[ARG0:.*]]: memref<4x8xf32, strided<[8, 12], offset: 100>>, %[[ARG1:.*]]: index, %[[ARG2:.*]]: index)
@@ -39,7 +40,7 @@ func.func @load_scalar_from_memref_dynamic_dim(%input: memref<?x?xf32, strided<[
 // CHECK-SAME: (%[[ARG0:.*]]: memref<?x?xf32, strided<[?, ?], offset: ?>>, %[[ARG1:.*]]: index, %[[ARG2:.*]]: index)
 // CHECK: %[[BASE:.*]], %[[OFFSET:.*]], %[[SIZES:.*]]:2, %[[STRIDES:.*]]:2 = memref.extract_strided_metadata %[[ARG0]]
 // CHECK: %[[IDX:.*]] = affine.apply #[[MAP]]()[%[[ARG2]], %[[STRIDES]]#0, %[[ARG1]], %[[STRIDES]]#1]
-// CHECK: %[[SIZE:.*]] = affine.apply #[[MAP1]]()[%[[STRIDES]]#0, %[[SIZES]]#0]
+// CHECK: %[[SIZE:.*]] = affine.apply #[[MAP1]]()[%[[SIZES]]#0, %[[SIZES]]#1]
 // CHECK: %[[REINT:.*]] = memref.reinterpret_cast %[[ARG0]] to offset: [%[[OFFSET]]], sizes: [%[[SIZE]]], strides: [%[[STRIDES]]#1]
 // CHECK: memref.load %[[REINT]][%[[IDX]]]
 
@@ -49,7 +50,9 @@ func.func @load_scalar_from_memref_subview(%input: memref<4x8xf32>, %row: index,
   %subview = memref.subview %input[%col, %row] [1, 1] [1, 1] : memref<4x8xf32> to memref<1x1xf32, strided<[8, 1], offset: ?>>
   return %subview : memref<1x1xf32, strided<[8, 1], offset: ?>>
 }
-// CHECK: func @load_scalar_from_memref_subview
+// CHECK-LABEL: func @load_scalar_from_memref_subview
+// CHECK-SAME: (%[[ARG0:.*]]: memref<4x8xf32>, %[[ARG1:.*]]: index, %[[ARG2:.*]]: index)
+// CHECK-NEXT: %[[REINT:.*]] = memref.reinterpret_cast %[[ARG0]] to offset: [0], sizes: [1, 1], strides: [8, 1]
 
 // -----
 
@@ -76,7 +79,7 @@ func.func @store_scalar_from_memref_dynamic_dim(%input: memref<?x?xf32, strided<
 // CHECK-SAME: (%[[ARG0:.*]]: memref<?x?xf32, strided<[?, ?], offset: ?>>, %[[ARG1:.*]]: index, %[[ARG2:.*]]: index, %[[ARG3:.*]]: f32)
 // CHECK: %[[BASE:.*]], %[[OFFSET:.*]], %[[SIZES:.*]]:2, %[[STRIDES:.*]]:2 = memref.extract_strided_metadata %[[ARG0]]
 // CHECK: %[[IDX:.*]] = affine.apply #[[MAP]]()[%[[ARG2]], %[[STRIDES]]#0, %[[ARG1]], %[[STRIDES]]#1]
-// CHECK: %[[SIZE:.*]] = affine.apply #[[MAP1]]()[%[[STRIDES]]#0, %[[SIZES]]#0]
+// CHECK: %[[SIZE:.*]] = affine.apply #[[MAP1]]()[%[[SIZES]]#0, %[[SIZES]]#1]
 // CHECK: %[[REINT:.*]] = memref.reinterpret_cast %[[ARG0]] to offset: [%[[OFFSET]]], sizes: [%[[SIZE]]], strides: [%[[STRIDES]]#1]
 // CHECK: memref.store %[[ARG3]], %[[REINT]][%[[IDX]]]
 
@@ -88,7 +91,7 @@ func.func @load_vector_from_memref(%input: memref<4x8xf32>) -> vector<8xf32> {
   %value = vector.load %input[%c3, %c6] : memref<4x8xf32>, vector<8xf32>
   return %value : vector<8xf32>
 }
-// CHECK: func @load_vector_from_memref
+// CHECK-LABEL: func @load_vector_from_memref
 // CHECK: %[[C30:.*]] = arith.constant 30
 // CHECK-NEXT: %[[REINT:.*]] = memref.reinterpret_cast %arg0 to offset: [0], sizes: [32], strides: [1]
 // CHECK-NEXT: vector.load %[[REINT]][%[[C30]]]
@@ -101,7 +104,7 @@ func.func @load_vector_from_memref_odd(%input: memref<3x7xi2>) -> vector<3xi2> {
   %value = vector.load %input[%c1, %c3] : memref<3x7xi2>, vector<3xi2>
   return %value : vector<3xi2>
 }
-// CHECK: func @load_vector_from_memref_odd
+// CHECK-LABEL: func @load_vector_from_memref_odd
 // CHECK: %[[C10:.*]] = arith.constant 10 : index
 // CHECK-NEXT: %[[REINT:.*]] = memref.reinterpret_cast
 // CHECK-NEXT: vector.load %[[REINT]][%[[C10]]]
@@ -126,10 +129,11 @@ func.func @store_vector_to_memref_odd(%input: memref<3x7xi2>, %value: vector<3xi
   vector.store %value, %input[%c1, %c3] : memref<3x7xi2>, vector<3xi2>
   return
 }
-// CHECK: func @store_vector_to_memref_odd
+// CHECK-LABEL: func @store_vector_to_memref_odd
+// CHECK-SAME: (%[[ARG0:.*]]: memref<3x7xi2>, %[[ARG1:.*]]: vector<3xi2>)
 // CHECK: %[[C10:.*]] = arith.constant 10 : index
 // CHECK-NEXT: %[[REINT:.*]] = memref.reinterpret_cast
-// CHECK-NEXT: vector.store %arg1, %[[REINT]][%[[C10]]] : memref<21xi2, strided<[1]>
+// CHECK-NEXT: vector.store %[[ARG1]], %[[REINT]][%[[C10]]] : memref<21xi2, strided<[1]>
 
 // -----
 
@@ -152,7 +156,7 @@ func.func @mask_store_vector_to_memref_odd(%input: memref<3x7xi2>, %value: vecto
   vector.maskedstore %input[%c1, %c3], %mask, %value  : memref<3x7xi2>, vector<3xi1>, vector<3xi2>
   return
 }
-// CHECK: func @mask_store_vector_to_memref_odd
+// CHECK-LABEL: func @mask_store_vector_to_memref_odd
 // CHECK-SAME: (%[[ARG0:.*]]: memref<3x7xi2>, %[[ARG1:.*]]: vector<3xi2>, %[[ARG2:.*]]: vector<3xi1>)
 // CHECK: %[[C10:.*]] = arith.constant 10 : index
 // CHECK-NEXT: %[[REINT:.*]] = memref.reinterpret_cast
@@ -178,7 +182,7 @@ func.func @mask_load_vector_from_memref_odd(%input: memref<3x7xi2>, %mask: vecto
   %result = vector.maskedload %input[%c1, %c3], %mask, %passthru : memref<3x7xi2>, vector<3xi1>, vector<3xi2> into vector<3xi2>
   return %result : vector<3xi2>
 }
-// CHECK: func @mask_load_vector_from_memref_odd
+// CHECK-LABEL: func @mask_load_vector_from_memref_odd
 // CHECK-SAME: (%[[ARG0:.*]]: memref<3x7xi2>, %[[MASK:.*]]: vector<3xi1>, %[[PASSTHRU:.*]]: vector<3xi2>)
 // CHECK: %[[C10:.*]] = arith.constant 10 : index
 // CHECK: %[[REINT:.*]] = memref.reinterpret_cast %[[ARG0]] to offset: [0], sizes: [21], strides: [1]
@@ -204,7 +208,7 @@ func.func @transfer_read_memref(%input: memref<4x8xi2>, %value: vector<8xi2>, %r
    %0 = vector.transfer_read %input[%col, %row], %c0 : memref<4x8xi2>, vector<8xi2>
    return %0 : vector<8xi2>
 }
-// CHECK: func @transfer_read_memref
+// CHECK-LABEL: func @transfer_read_memref
 // CHECK-SAME: (%[[ARG0:.*]]: memref<4x8xi2>, %[[ARG1:.*]]: vector<8xi2>, %[[ARG2:.*]]: index, %[[ARG3:.*]]: index)
 // CHECK: %[[C0:.*]] = arith.constant 0 : i2
 // CHECK: %[[IDX:.*]] = affine.apply #map()[%[[ARG3]], %[[ARG2]]]