intel
diff --git a/‎include/gc/Transforms/Passes.td
Lines changed: 1 addition & 1 deletion b/‎include/gc/Transforms/Passes.td
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/gc/Target/LLVM/XeVM/Target.cpp
Lines changed: 8 additions & 0 deletions b/‎lib/gc/Target/LLVM/XeVM/Target.cpp
Lines changed: 8 additions & 0 deletions
diff --git a/‎lib/gc/Transforms/GPU/CMakeLists.txt
Lines changed: 1 addition & 1 deletion b/‎lib/gc/Transforms/GPU/CMakeLists.txt
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/gc/Transforms/GPU/OCL/CMakeLists.txt
Lines changed: 1 addition & 1 deletion b/‎lib/gc/Transforms/GPU/OCL/CMakeLists.txt
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/gc/Transforms/GPU/OCL/GpuToGpuOcl.cpp
Lines changed: 44 additions & 14 deletions b/‎lib/gc/Transforms/GPU/OCL/GpuToGpuOcl.cpp
Lines changed: 44 additions & 14 deletions
diff --git a/‎lib/gc/Transforms/GPU/Pipeline.cpp
Lines changed: 8 additions & 7 deletions b/‎lib/gc/Transforms/GPU/Pipeline.cpp
Lines changed: 8 additions & 7 deletions
diff --git a/‎src/gc-gpu-runner/CMakeLists.txt
Lines changed: 9 additions & 7 deletions b/‎src/gc-gpu-runner/CMakeLists.txt
Lines changed: 9 additions & 7 deletions
diff --git a/‎src/gc-opt/gc-opt.cpp
Lines changed: 2 additions & 1 deletion b/‎src/gc-opt/gc-opt.cpp
Lines changed: 2 additions & 1 deletion
diff --git a/‎test/mlir/test/gc/Transforms/GPU/IMEX/gpu-to-gpuocl.mlir
Lines changed: 98 additions & 0 deletions b/‎test/mlir/test/gc/Transforms/GPU/IMEX/gpu-to-gpuocl.mlir
Lines changed: 98 additions & 0 deletions
@@ -74,7 +74,6 @@ def ConvertMemRefToCPURuntime : Pass<"convert-memref-to-cpuruntime", "func::Func
       "cpuruntime::CPURuntimeDialect"
   ];
 }
-#ifdef GC_USE_GPU
 
 #ifdef GC_USE_IMEX
 def LinalgToXeGPU : Pass<"linalg-to-xegpu", "func::FuncOp"> {
@@ -96,6 +95,7 @@ def LinalgToXeGPU : Pass<"linalg-to-xegpu", "func::FuncOp"> {
 }
 #endif
 
+#ifdef GC_USE_GPU
 def GpuToGpuOcl : Pass<"gpu-to-gpuocl", "ModuleOp"> {
   let summary = "Convert the GPU operations to GpuOclRuntime calls.";
   let description = [{
 
@@ -182,6 +182,14 @@ XeVMTargetAttrImpl::serializeToObject(Attribute attribute, Operation *module,
     return std::nullopt;
   }
 
+  gpuMod.walk([&](LLVM::LLVMFuncOp funcOp) {
+    if (funcOp->hasAttr(gpu::GPUDialect::getKernelFuncAttrName())) {
+      funcOp.setIntelReqdSubGroupSize(16);
+      return WalkResult::interrupt();
+    }
+    return WalkResult::advance();
+  });
+
   // TODO: reroute to another serializer for a different target?
   SpirSerializer serializer(*module, cast<XeVMTargetAttr>(attribute), options);
   serializer.init();
 
@@ -7,7 +7,7 @@ endif()
 set(OCL_PASSES_LIBS "")
 if(GC_ENABLE_GPU)
 add_subdirectory(OCL)
-set(OCL_PASSES_LIBS GcGpuOCLPasses)
+set(OCL_PASSES_LIBS GcGpuOclPasses)
 endif()
 
 gc_add_mlir_library(GcGpuPasses
 
@@ -1,4 +1,4 @@
-gc_add_mlir_library(GcGpuOCLPasses
+gc_add_mlir_library(GcGpuOclPasses
   GpuToGpuOcl.cpp
 
   DEPENDS
 
@@ -250,6 +250,8 @@ struct ConvertLaunch final : ConvertOpPattern<gpu::LaunchFuncOp> {
           isa<MemRefType>(type)) {
         MemRefDescriptor desc(arg);
         args.emplace_back(desc.alignedPtr(rewriter, loc));
+      } else if (isa<LLVM::LLVMPointerType>(type)) {
+        args.emplace_back(arg);
       } else {
         // Store the arg on the stack and pass the pointer
         auto ptr = rewriter.create<LLVM::AllocaOp>(
@@ -352,6 +354,42 @@ struct ConvertLaunch final : ConvertOpPattern<gpu::LaunchFuncOp> {
         .getResult();
   }
 
+  StringAttr getBinaryAttr(ConversionPatternRewriter &rewriter,
+                           gpu::LaunchFuncOp &gpuLaunch,
+                           StringAttr kernelModName) const {
+    StringAttr binaryAttr;
+    Operation *binaryStorageOp;
+#ifdef GC_USE_IMEX
+    binaryStorageOp = SymbolTable::lookupNearestSymbolFrom<gpu::GPUModuleOp>(
+        gpuLaunch, kernelModName);
+    if (!binaryStorageOp) {
+      gpuLaunch.emitOpError() << "Module " << kernelModName << " not found!";
+      return {};
+    }
+    binaryAttr = binaryStorageOp->getAttrOfType<StringAttr>("gpu.binary");
+    rewriter.eraseOp(binaryStorageOp);
+#else
+    binaryStorageOp = SymbolTable::lookupNearestSymbolFrom<gpu::BinaryOp>(
+        gpuLaunch, kernelModName);
+    if (!binaryStorageOp) {
+      gpuLaunch.emitOpError() << "Binary " << kernelModName << " not found!";
+      return {};
+    }
+    auto objects = cast<gpu::BinaryOp>(binaryStorageOp).getObjects();
+    if (objects.size() != 1) {
+      gpuLaunch.emitOpError() << "Many targets present in " << kernelModName
+                              << ", please use xevm only.";
+      return {};
+    }
+    binaryAttr = cast<gpu::ObjectAttr>(objects[0]).getObject();
+#endif
+    if (!binaryAttr) {
+      binaryStorageOp->emitOpError() << "missing binary.";
+      return {};
+    }
+    return binaryAttr;
+  }
+
   // Create a new kernel and save the pointer to the global variable
   // ...name_Ptr.
   bool createKernel(
@@ -360,24 +398,12 @@ struct ConvertLaunch final : ConvertOpPattern<gpu::LaunchFuncOp> {
       StringRef funcName,
       const std::function<SmallString<128> &(const char *chars)> &str) const {
     auto kernelModName = gpuLaunch.getKernelModuleName();
-    auto kernelMod = SymbolTable::lookupNearestSymbolFrom<gpu::GPUModuleOp>(
-        gpuLaunch, kernelModName);
-    if (!kernelMod) {
-      gpuLaunch.emitOpError() << "Module " << kernelModName << " not found!";
-      return false;
-    }
-    const auto binaryAttr = kernelMod->getAttrOfType<StringAttr>("gpu.binary");
-    if (!binaryAttr) {
-      kernelMod.emitOpError() << "missing 'gpu.binary' attribute";
-      return false;
-    }
-
+    auto binaryAttr = getBinaryAttr(rewriter, gpuLaunch, kernelModName);
     rewriter.setInsertionPointToStart(mod.getBody());
     // The kernel pointer is stored here
     rewriter.create<LLVM::GlobalOp>(loc, helper.ptrType, /*isConstant=*/false,
                                     LLVM::Linkage::Internal, str("Ptr"),
                                     rewriter.getZeroAttr(helper.ptrType));
-    rewriter.eraseOp(kernelMod);
 
     auto function = rewriter.create<LLVM::LLVMFuncOp>(
         loc, funcName,
@@ -415,7 +441,7 @@ struct ConvertLaunch final : ConvertOpPattern<gpu::LaunchFuncOp> {
     for (auto arg : gpuLaunch.getKernelOperands()) {
       auto type = arg.getType();
       size_t size;
-      if (isa<MemRefType>(type)) {
+      if (isa<MemRefType>(type) || isa<LLVM::LLVMPointerType>(type)) {
         size = 0; // A special case for pointers
       } else if (type.isIndex()) {
         size = helper.idxType.getIntOrFloatBitWidth() / 8;
@@ -452,6 +478,8 @@ struct ConvertLaunch final : ConvertOpPattern<gpu::LaunchFuncOp> {
           assert(getConstantIntValue(cast.getOperand(0)));
           value = helper.idxConstant(
               rewriter, loc, getConstantIntValue(cast.getOperand(0)).value());
+        } else {
+          value = rewriter.clone(*value.getDefiningOp())->getResult(0);
         }
         rewriter.create<LLVM::StoreOp>(loc, value, elementPtr);
       }
@@ -527,6 +555,8 @@ struct GpuToGpuOcl final : gc::impl::GpuToGpuOclBase<GpuToGpuOcl> {
       return;
     }
 
+    if (!helper.kernelNames.size())
+      return;
     // Add gpuOclDestructor() function that destroys all the kernels
     auto mod = llvm::dyn_cast<ModuleOp>(getOperation());
     assert(mod);
 
@@ -138,7 +138,6 @@ void registerIMEXPipeline() {
 #ifdef GC_USE_GPU
 void populateGPUPipeline(OpPassManager &pm,
                          const GPUPipelineOptions &pipelineOpts) {
-
   pm.addNestedPass<func::FuncOp>(createAddContextArg());
 
   pm.addPass(createConvertSCFToCFPass());
@@ -148,20 +147,22 @@ void populateGPUPipeline(OpPassManager &pm,
   pm.addPass(createArithToLLVMConversionPass());
   pm.addPass(createConvertFuncToLLVMPass());
   pm.addPass(createConvertMathToLLVMPass());
-  pm.addPass(createCSEPass());
+  pm.addPass(createReconcileUnrealizedCastsPass());
 
+  // Convert allocs, etc.
+  pm.addPass(createGpuToGpuOcl({pipelineOpts.callFinish}));
   pm.addPass(createGpuKernelOutliningPass());
   pm.addPass(createConvertXeVMToLLVMPass());
   pm.addPass(createGpuXeVMAttachTarget());
-  pm.addPass(createConvertGpuOpsToLLVMSPVOps());
-  pm.addPass(createGpuToLLVMConversionPass());
+  pm.addNestedPass<gpu::GPUModuleOp>(createConvertGpuOpsToLLVMSPVOps());
+  pm.addNestedPass<gpu::GPUModuleOp>(createConvertIndexToLLVMPass());
+  pm.addNestedPass<gpu::GPUModuleOp>(createArithToLLVMConversionPass());
   pm.addPass(createReconcileUnrealizedCastsPass());
-  pm.addPass(createCSEPass());
-  // Convert allocs, etc.
-  pm.addPass(createGpuToGpuOcl({pipelineOpts.callFinish}));
   pm.addPass(createGpuModuleToBinaryPass());
   // Convert launch given a binary.
   pm.addPass(createGpuToGpuOcl({pipelineOpts.callFinish}));
+  pm.addPass(createFinalizeMemRefToLLVMConversionPass());
+  pm.addPass(createReconcileUnrealizedCastsPass());
 }
 
 void registerGPUPipeline() {
 
@@ -15,14 +15,16 @@
 # SPDX-License-Identifier: Apache-2.0
 ################################################################################
 
-if(NOT GC_ENABLE_TOOLS OR NOT GC_ENABLE_GPU)
+if(GC_ENABLE_TOOLS AND GC_ENABLE_GPU)
+  gc_add_mlir_tool(gc-gpu-runner GpuRunner.cpp)
+  target_link_libraries(gc-gpu-runner PRIVATE
+    GcJitWrapper
+    GcGpuOclRuntime
+  )
+  mlir_check_all_link_libraries(gc-gpu-runner)
+else()
   message(STATUS "Gpu runner is not enabled.")
   return()
 endif()
 
-gc_add_mlir_tool(gc-gpu-runner GpuRunner.cpp)
-target_link_libraries(gc-gpu-runner PRIVATE
-  GcJitWrapper
-  GcGpuOclRuntime
-)
-mlir_check_all_link_libraries(gc-gpu-runner)
+
@@ -46,10 +46,11 @@ namespace mlir::gc {
 void registerCPUPipeline();
 #ifdef GC_USE_GPU
 void registerGPUPipeline();
+#endif
+
 #ifdef GC_USE_IMEX
 void registerIMEXPipeline();
 #endif
-#endif
 
 } // namespace mlir::gc
 
 
@@ -0,0 +1,98 @@
+// RUN: gc-opt %s --gpu-to-gpuocl | FileCheck %s
+
+module @test attributes {gpu.container_module} {
+  llvm.func @entry(%arg0: !llvm.ptr, %arg1: !llvm.ptr, %arg2: i64, %arg3: i64, %arg4: i64, %arg5: i64, %arg6: i64, %arg7: !llvm.ptr, %arg8: !llvm.ptr, %arg9: i64) attributes {llvm.emit_c_interface} {
+    %0 = llvm.mlir.undef : !llvm.struct<(ptr, ptr, i64, array<2 x i64>, array<2 x i64>)>
+    %1 = llvm.insertvalue %arg0, %0[0] : !llvm.struct<(ptr, ptr, i64, array<2 x i64>, array<2 x i64>)>
+    %2 = llvm.insertvalue %arg1, %1[1] : !llvm.struct<(ptr, ptr, i64, array<2 x i64>, array<2 x i64>)>
+    %3 = llvm.insertvalue %arg2, %2[2] : !llvm.struct<(ptr, ptr, i64, array<2 x i64>, array<2 x i64>)>
+    %4 = llvm.insertvalue %arg3, %3[3, 0] : !llvm.struct<(ptr, ptr, i64, array<2 x i64>, array<2 x i64>)>
+    %5 = llvm.insertvalue %arg4, %4[4, 0] : !llvm.struct<(ptr, ptr, i64, array<2 x i64>, array<2 x i64>)>
+    %6 = llvm.insertvalue %arg5, %5[3, 1] : !llvm.struct<(ptr, ptr, i64, array<2 x i64>, array<2 x i64>)>
+    %7 = llvm.insertvalue %arg6, %6[4, 1] : !llvm.struct<(ptr, ptr, i64, array<2 x i64>, array<2 x i64>)>
+    %8 = builtin.unrealized_conversion_cast %7 : !llvm.struct<(ptr, ptr, i64, array<2 x i64>, array<2 x i64>)> to memref<64x64xf32>
+    %gpu_mem = gpu.alloc  host_shared () : memref<64x64xf32>
+    gpu.memcpy  %gpu_mem, %8 : memref<64x64xf32>, memref<64x64xf32>
+    %9 = llvm.mlir.constant(32 : index) : i64
+    %10 = builtin.unrealized_conversion_cast %9 : i64 to index
+    %11 = llvm.mlir.constant(2 : index) : i64
+    %12 = builtin.unrealized_conversion_cast %11 : i64 to index
+    %13 = llvm.mlir.constant(1 : index) : i64
+    %14 = builtin.unrealized_conversion_cast %13 : i64 to index
+    gpu.launch_func  @entry_kernel::@entry_kernel blocks in (%12, %12, %14) threads in (%14, %14, %14)  args(%10 : index, %gpu_mem : memref<64x64xf32>)
+    gpu.memcpy  %8, %gpu_mem : memref<64x64xf32>, memref<64x64xf32>
+    gpu.dealloc  %gpu_mem : memref<64x64xf32>
+    llvm.return
+  }
+
+  gpu.module @entry_kernel attributes {gpu.binary = "Some SPIRV here \00"} {
+    gpu.func @entry_kernel(%arg0: index, %arg1: memref<64x64xf32>) kernel attributes {} {
+      gpu.return
+    }
+  }
+}
+
+// CHECK: llvm.mlir.global internal constant @gcGpuOclKernel_entry_kernel_SPIRV
+// CHECK: llvm.mlir.global internal constant @gcGpuOclKernel_entry_kernel_Name
+// CHECK: llvm.mlir.global internal @gcGpuOclKernel_entry_kernel_Ptr
+
+// CHECK: llvm.func @createGcGpuOclKernel_entry_kernel([[CTX:%.+]]: !llvm.ptr) -> !llvm.ptr
+// CHECK: [[NEW_PTR:%.+]] = llvm.call @gcGpuOclKernelCreate([[CTX]]
+// CHECK: [[ZERO:%.+]] = llvm.mlir.zero
+// CHECK: [[PTR_ADDR:%.+]] = llvm.mlir.addressof @gcGpuOclKernel_entry_kernel_Ptr
+// CHECK: [[CMPXCHG:%.+]] = llvm.cmpxchg [[PTR_ADDR]], [[ZERO]], [[NEW_PTR]]
+// CHECK: [[FLAG:%.+]] = llvm.extractvalue [[CMPXCHG]][1]
+// CHECK: llvm.cond_br [[FLAG]], [[BB1:\^.+]], [[BB2:\^.+]]
+// CHECK: [[BB1]]:
+// CHECK: llvm.return [[NEW_PTR]]
+// CHECK: [[BB2]]:
+// CHECK: [[ONE:%.+]] = llvm.mlir.constant(1 : i64) : i64
+// CHECK: [[ARRAY:%.+]] = llvm.alloca [[ONE]]
+// CHECK: [[ADDR:%.+]] = llvm.getelementptr [[ARRAY]]
+// CHECK: llvm.store [[NEW_PTR]], [[ADDR]]
+// CHECK: llvm.call @gcGpuOclKernelDestroy([[ONE]], [[ARRAY]])
+// CHECK: [[OLD_PTR:%.+]] = llvm.extractvalue [[CMPXCHG]][0]
+// CHECK: llvm.return [[OLD_PTR]]
+
+// CHECK: llvm.func internal @getGcGpuOclKernel_entry_kernel([[CTX:%.+]]: !llvm.ptr) -> !llvm.ptr attributes {always_inline}
+// CHECK: [[ZERO:%.+]] = llvm.mlir.zero
+// CHECK: [[PTR_ADDR:%.+]] = llvm.mlir.addressof @gcGpuOclKernel_entry_kernel_Ptr
+// CHECK: [[PTR:%.+]] = llvm.load [[PTR_ADDR]]
+// CHECK: [[ICMP:%.+]] = llvm.icmp "eq" [[PTR]], [[ZERO]]
+// CHECK: llvm.cond_br [[ICMP]], [[BB1:\^.+]], [[BB2:\^.+]]
+// CHECK: [[BB1]]:
+// CHECK: [[NEW_PTR:%.+]] = llvm.call @createGcGpuOclKernel_entry_kernel([[CTX]])
+// CHECK: llvm.return [[NEW_PTR]]
+// CHECK: [[BB2]]:
+// CHECK: llvm.return [[PTR]]
+
+// CHECK: llvm.func @entry(%arg0: !llvm.ptr, %arg1: !llvm.ptr, %arg2: i64, %arg3: i64, %arg4: i64, %arg5: i64, %arg6: i64, [[CTX:%.+]]: !llvm.ptr, %arg8: !llvm.ptr, %arg9: i64)
+// CHECK: [[SIZE:%.+]] = llvm.mlir.constant(16384 : i64) : i64
+// CHECK: llvm.call @gcGpuOclMallocShared([[CTX]], [[SIZE]])
+// CHECK: [[SIZE:%.+]] = llvm.mlir.constant(16384 : i64) : i64
+// CHECK: [[SRC:%.+]] = llvm.extractvalue
+// CHECK: [[DST:%.+]] = llvm.extractvalue [[GPU_MEMREF:%.+]][1]
+// CHECK: llvm.call @gcGpuOclMemcpy([[CTX]], [[SRC]], [[DST]], [[SIZE]])
+// CHECK: [[KERNEL:%.+]] = llvm.call @getGcGpuOclKernel_entry_kernel([[CTX:%.+]]) : (!llvm.ptr) -> !llvm.ptr
+// CHECK: llvm.call @gcGpuOclKernelLaunch([[CTX]], [[KERNEL]],
+// CHECK: [[SIZE:%.+]] = llvm.mlir.constant(16384 : i64) : i64
+// CHECK: [[SRC:%.+]] = llvm.extractvalue [[GPU_MEMREF:%.+]][1]
+// CHECK: [[DST:%.+]] = llvm.extractvalue
+// CHECK: llvm.call @gcGpuOclMemcpy([[CTX]], [[SRC]], [[DST]], [[SIZE]])
+// CHECK: [[GPU_PTR:%.+]] = llvm.extractvalue [[GPU_MEMREF:%.+]][0]
+// CHECK: llvm.call @gcGpuOclDealloc([[CTX]], [[GPU_PTR]])
+
+// CHECK: llvm.func @gcGpuOclKernelCreate
+// CHECK: llvm.func @gcGpuOclKernelDestroy
+// CHECK: llvm.func @gcGpuOclKernelLaunch
+
+
+// CHECK: llvm.func @gcGpuOclModuleDestructor()
+// CHECK: llvm.fence acquire
+// CHECK: [[PTR_ADDR:%.+]] = llvm.mlir.addressof @gcGpuOclKernel_entry_kernel_Ptr
+// CHECK: [[PTR:%.+]] = llvm.load [[PTR_ADDR]]
+// CHECK: [[ONE:%.+]] = llvm.mlir.constant(1 : i64) : i64
+// CHECK: [[ARRAY:%.+]] = llvm.alloca [[ONE]]
+// CHECK: [[ADDR:%.+]] = llvm.getelementptr [[ARRAY]]
+// CHECK: llvm.store [[PTR]], [[ADDR]]
+// CHECK: llvm.call @gcGpuOclKernelDestroy([[ONE]], [[ARRAY]])
Original file line number	Diff line number	Diff line change
`@@ -74,7 +74,6 @@ def ConvertMemRefToCPURuntime : Pass<"convert-memref-to-cpuruntime", "func::Func`
`74`	`74`	`"cpuruntime::CPURuntimeDialect"`
`75`	`75`	`];`
`76`	`76`	`}`
`77`		`-#ifdef GC_USE_GPU`
`78`	`77`
`79`	`78`	`#ifdef GC_USE_IMEX`
`80`	`79`	`def LinalgToXeGPU : Pass<"linalg-to-xegpu", "func::FuncOp"> {`
`@@ -96,6 +95,7 @@ def LinalgToXeGPU : Pass<"linalg-to-xegpu", "func::FuncOp"> {`
`96`	`95`	`}`
`97`	`96`	`#endif`
`98`	`97`
	`98`	`+#ifdef GC_USE_GPU`
`99`	`99`	`def GpuToGpuOcl : Pass<"gpu-to-gpuocl", "ModuleOp"> {`
`100`	`100`	`let summary = "Convert the GPU operations to GpuOclRuntime calls.";`
`101`	`101`	`let description = [{`
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-gc_add_mlir_library(GcGpuOCLPasses`
	`1`	`+gc_add_mlir_library(GcGpuOclPasses`
`2`	`2`	`GpuToGpuOcl.cpp`
`3`	`3`
`4`	`4`	`DEPENDS`