intel
diff --git a/‎IGC/Compiler/CISACodeGen/CodeSinking.cpp
Lines changed: 488 additions & 222 deletions b/‎IGC/Compiler/CISACodeGen/CodeSinking.cpp
Lines changed: 488 additions & 222 deletions
diff --git a/‎IGC/Compiler/CISACodeGen/CodeSinking.hpp
Lines changed: 27 additions & 9 deletions b/‎IGC/Compiler/CISACodeGen/CodeSinking.hpp
Lines changed: 27 additions & 9 deletions
diff --git a/‎IGC/Compiler/tests/CodeSinking/LoopSinking/adds-sinking-all-uniform.ll
Lines changed: 92 additions & 0 deletions b/‎IGC/Compiler/tests/CodeSinking/LoopSinking/adds-sinking-all-uniform.ll
Lines changed: 92 additions & 0 deletions
diff --git a/‎IGC/Compiler/tests/CodeSinking/LoopSinking/adds-sinking-uniform.ll
Lines changed: 90 additions & 0 deletions b/‎IGC/Compiler/tests/CodeSinking/LoopSinking/adds-sinking-uniform.ll
Lines changed: 90 additions & 0 deletions
diff --git a/‎IGC/Compiler/tests/CodeSinking/LoopSinking/adds-sinking.ll
Lines changed: 87 additions & 0 deletions b/‎IGC/Compiler/tests/CodeSinking/LoopSinking/adds-sinking.ll
Lines changed: 87 additions & 0 deletions
@@ -14,19 +14,21 @@ See LICENSE.TXT for details.
 ============================= end_copyright_notice ===========================*/
 
 #pragma once
+#include "Compiler/CISACodeGen/WIAnalysis.hpp"
 #include "common/LLVMWarningsPush.hpp"
 #include <llvm/Analysis/PostDominators.h>
 #include <llvm/Analysis/LoopInfo.h>
 #include "common/LLVMWarningsPop.hpp"
 
 namespace IGC {
 
-#define CODE_SINKING_MIN_SIZE  32
-
     class CodeSinking : public llvm::FunctionPass {
         llvm::DominatorTree* DT;
         llvm::PostDominatorTree* PDT;
         llvm::LoopInfo* LI;
+        llvm::AliasAnalysis* AA;
+        WIAnalysis* WI;
+
         const llvm::DataLayout* DL;  // to estimate register pressure
         CodeGenContext* CTX;
     public:
@@ -38,13 +40,19 @@ namespace IGC {
 
         virtual void getAnalysisUsage(llvm::AnalysisUsage& AU) const override {
             AU.setPreservesCFG();
+
             AU.addRequired<llvm::DominatorTreeWrapperPass>();
             AU.addRequired<llvm::PostDominatorTreeWrapperPass>();
             AU.addRequired<llvm::LoopInfoWrapperPass>();
+            AU.addRequired<llvm::AAResultsWrapperPass>();
+            AU.addRequired<WIAnalysis>();
             AU.addRequired<CodeGenContextWrapper>();
+
             AU.addPreserved<llvm::DominatorTreeWrapperPass>();
             AU.addPreserved<llvm::PostDominatorTreeWrapperPass>();
             AU.addPreserved<llvm::LoopInfoWrapperPass>();
+            AU.addPreserved<llvm::AAResultsWrapperPass>();
+            AU.addPreservedID(WIAnalysis::ID);
         }
     private:
         bool ProcessBlock(llvm::BasicBlock& blk);
@@ -61,12 +69,14 @@ namespace IGC {
         bool isSafeToMove(llvm::Instruction* inst,
             bool& reducePressure, bool& hasAliasConcern,
             llvm::SmallPtrSetImpl<llvm::Instruction*>& Stores);
+        bool isSafeToLoopSinkLoad(llvm::Instruction* I, llvm::Loop* Loop, llvm::AliasAnalysis* AA);
+        bool isAlwaysSinkInstruction(llvm::Instruction* I);
 
         /// local processing
         bool LocalSink(llvm::BasicBlock* blk);
         /// data members for local-sinking
-        llvm::SmallPtrSet<llvm::BasicBlock*, 8> localBlkSet;
-        llvm::SmallPtrSet<llvm::Instruction*, 8> localInstSet;
+        llvm::SmallPtrSet<llvm::BasicBlock*, 8> LocalBlkSet;
+        llvm::SmallPtrSet<llvm::Instruction*, 8> LocalInstSet;
         /// data members for undo
         std::vector<llvm::Instruction*> movedInsts;
         std::vector<llvm::Instruction*> undoLocas;
@@ -88,6 +98,12 @@ namespace IGC {
         typedef std::pair<llvm::Instruction*, llvm::Instruction*> InstPair;
         typedef smallvector<llvm::Instruction*, 4> InstVec;
 
+        // memoize all possible stores for every loop that is a candidate for sinking
+        typedef llvm::SmallVector<llvm::Instruction*, 32> StoresVec;
+        llvm::DenseMap<llvm::Loop*, StoresVec> MemoizedStoresInLoops;
+        llvm::SmallPtrSet<llvm::Loop*, 8> BlacklistedLoops;
+        const StoresVec getAllStoresInLoop(llvm::Loop* L);
+
         void appendIfNotExist(InstPair src, std::vector<InstPair> &instMap)
         {
             if (std::find(instMap.begin(), instMap.end(), src) == instMap.end())
@@ -123,12 +139,14 @@ namespace IGC {
         bool hoistCongruentPhi(llvm::Function& F);
 
         llvm::Loop* findLoopAsPreheader(llvm::BasicBlock& blk);
-        // move LI back into loops
-        bool loopSink(llvm::Loop* LoopWithPressure, bool SinkMultipleLevel);
+        // move LI back into loop
+        bool loopSink(llvm::Loop* LoopWithPressure);
         // pre-condition to sink an instruction into a loop
-        bool canLoopSink(llvm::Instruction* I, llvm::Loop* L);
-        bool LoopSinkInstructions(
-            llvm::SmallVector<llvm::Instruction*, 64> sinkCandidates, llvm::Loop* L);
+        bool isLoopSinkCandidate(llvm::Instruction* I, llvm::Loop* L);
+        bool loopSinkInstructions(
+            llvm::SmallVector<llvm::Instruction*, 64>& SinkCandidates,
+            llvm::SmallPtrSet<llvm::Instruction*, 32>& LoadChains,
+            llvm::Loop* L);
 
         // Move referencing DbgValueInst intrinsics calls after defining instructions
         void ProcessDbgValueInst(llvm::BasicBlock& blk);
 
@@ -0,0 +1,92 @@
+;=========================== begin_copyright_notice ============================
+;
+; Copyright (C) 2023 Intel Corporation
+;
+; SPDX-License-Identifier: MIT
+;
+;============================ end_copyright_notice =============================
+
+; REQUIRES: regkeys
+; RUN: igc_opt --regkey LoopSinkMinSave=1 --regkey LoopSinkMinSaveUniform=3 --regkey ForceLoopSink=1 --regkey CodeSinkingMinSize=10 %enable-basic-aa% --igc-wi-analysis --igc-code-sinking -S %s | FileCheck %s
+; We set LoopSinkMinSaveUniform=3, and check that only the case with saving 3 scalars is being sinked, when all the values are uniform
+define spir_kernel void @foo(float addrspace(1)* %in0, float addrspace(1)* %in1, float addrspace(1)* %out0, i32 %count, i16 %localIdX, i16 %localIdY, i16 %localIdZ) #0 {
+; CHECK-LABEL: @foo(
+; CHECK:  entry:
+; CHECK:    [[ADDR_1:%.*]] = getelementptr float, float addrspace(1)* [[IN0:%.*]], i32 0
+; CHECK:    [[ADDR_2:%.*]] = getelementptr float, float addrspace(1)* [[IN1:%.*]], i32 0
+; CHECK:    br label [[ENTRY_PREHEADER:%.*]]
+; CHECK:  entry_preheader:
+; CHECK:    [[L_1:%.*]] = load float, float addrspace(1)* [[ADDR_1]], align 16
+; CHECK:    [[L_2:%.*]] = load float, float addrspace(1)* [[ADDR_2]], align 16
+; not sinked
+; CHECK:    [[ADDF2_1:%.*]] = fadd float [[L_2]], 1.000000e+00
+; CHECK:    [[ADDF2_2:%.*]] = fadd float [[L_2]], 2.000000e+00
+; CHECK:    [[ADDF2_3:%.*]] = fadd float [[L_2]], 3.000000e+00
+; CHECK:  loop:
+; sinked:
+; CHECK:    [[ADDF1_1:%.*]] = fadd float [[L_1]], 1.000000e+00
+; CHECK:    [[ADDF1_2:%.*]] = fadd float [[L_1]], 2.000000e+00
+; CHECK:    [[ADDF1_3:%.*]] = fadd float [[L_1]], 3.000000e+00
+; CHECK:    [[ADDF1_4:%.*]] = fadd float [[L_1]], 4.000000e+00
+; CHECK:  afterloop:
+; CHECK:    ret void
+;
+entry:
+  %addr_1 = getelementptr float, float addrspace(1)* %in0, i32 0
+  %addr_2 = getelementptr float, float addrspace(1)* %in1, i32 0
+  br label %entry_preheader
+
+entry_preheader:                                  ; preds = %entry
+  %l_1 = load float, float addrspace(1)* %addr_1, align 16
+  %l_2 = load float, float addrspace(1)* %addr_2, align 16
+  %addf1_1 = fadd float %l_1, 1.0
+  %addf1_2 = fadd float %l_1, 2.0
+  %addf1_3 = fadd float %l_1, 3.0
+  %addf1_4 = fadd float %l_1, 4.0
+  %addf2_1 = fadd float %l_2, 1.0
+  %addf2_2 = fadd float %l_2, 2.0
+  %addf2_3 = fadd float %l_2, 3.0
+  br label %loop
+
+loop:                                             ; preds = %loop, %entry_preheader
+  %index = phi i32 [ 0, %entry_preheader ], [ %inc, %loop ]
+  %addff_1 = fadd float %addf1_1, %addf2_1
+  %addff_2 = fadd float %addff_1, %addf1_2
+  %addff_3 = fadd float %addff_2, %addf1_3
+  %addff_4 = fadd float %addff_3, %addf1_4
+  %addff_5 = fadd float %addff_4, %addf2_2
+  %res = fadd float %addff_5, %addf2_3
+
+  %out0_shifted = getelementptr float, float addrspace(1)* %out0, i32 %index
+  store float %res, float addrspace(1)* %out0_shifted, align 8
+  %cmptmp = icmp ult i32 %index, %count
+  %inc = add i32 %index, 1
+  br i1 %cmptmp, label %loop, label %afterloop
+
+afterloop:                                        ; preds = %loop
+  ret void
+}
+
+!IGCMetadata = !{!2}
+!igc.functions = !{!13}
+
+!2 = !{!"ModuleMD", !3}
+!3 = !{!"FuncMD", !4, !5}
+!4 = !{!"FuncMDMap[0]", void (float addrspace(1)*, float addrspace(1)*, float addrspace(1)*, i32, i16, i16, i16)* @foo}
+!5 = !{!"FuncMDValue[0]", !6, !7, !11, !12}
+!6 = !{!"localOffsets"}
+!7 = !{!"workGroupWalkOrder", !8, !9, !10}
+!8 = !{!"dim0", i32 0}
+!9 = !{!"dim1", i32 1}
+!10 = !{!"dim2", i32 2}
+!11 = !{!"funcArgs"}
+!12 = !{!"functionType", !"KernelFunction"}
+!13 = !{void (float addrspace(1)*, float addrspace(1)*, float addrspace(1)*, i32, i16, i16, i16)* @foo, !14}
+!14 = !{!15, !16}
+!15 = !{!"function_type", i32 0}
+!16 = !{!"implicit_arg_desc", !17, !18, !19, !20, !21}
+!17 = !{i32 0}
+!18 = !{i32 1}
+!19 = !{i32 7}
+!20 = !{i32 8}
+!21 = !{i32 9}
@@ -0,0 +1,90 @@
+;=========================== begin_copyright_notice ============================
+;
+; Copyright (C) 2023 Intel Corporation
+;
+; SPDX-License-Identifier: MIT
+;
+;============================ end_copyright_notice =============================
+
+; REQUIRES: regkeys
+; RUN: igc_opt --regkey LoopSinkMinSave=1 --regkey LoopSinkMinSaveUniform=10 --regkey ForceLoopSink=1 --regkey CodeSinkingMinSize=10 %enable-basic-aa% --igc-wi-analysis --igc-code-sinking -S %s | FileCheck %s
+; We set LoopSinkMinSaveUniform=10, but in this test uniform vs non-uniform results in sinking
+define spir_kernel void @foo(float addrspace(1)* %in0, float addrspace(1)* %in1, float addrspace(1)* %out0, i32 %count, i16 %localIdX, i16 %localIdY, i16 %localIdZ) #0 {
+; CHECK-LABEL: @foo(
+; CHECK-NEXT:  entry:
+; CHECK-NEXT:    [[LOCALIDX32:%.*]] = zext i16 [[LOCALIDX:%.*]] to i32
+; CHECK-NEXT:    [[NON_UNIFORM_ADDR_1:%.*]] = getelementptr float, float addrspace(1)* [[IN0:%.*]], i32 [[LOCALIDX32]]
+; CHECK-NEXT:    [[UNIFORM_ADDR_2:%.*]] = getelementptr float, float addrspace(1)* [[IN1:%.*]], i32 0
+
+; CHECK:       entry_preheader:
+; CHECK-NEXT:    [[NON_UNIFORM_LOAD_1:%.*]] = load float, float addrspace(1)* [[NON_UNIFORM_ADDR_1]], align 16
+; CHECK-NEXT:    [[UNIFORM_LOAD_2:%.*]] = load float, float addrspace(1)* [[UNIFORM_ADDR_2]], align 16
+
+; CHECK:         br label [[LOOP:%.*]]
+
+; CHECK:       loop:
+
+; this ADDF_1 should be sinked, it becomes free as l_1 is already used in the loop, so we decrease the pressure
+; CHECK:         [[ADDF_1:%.*]] = fadd float [[NON_UNIFORM_LOAD_1]], 1.000000e+00
+
+; this ADDFF_1 should be sinked:
+; it's i32,i32->i32, but the only parameter that is not used in the loop, is uniform
+; and the fadd is not, so we remove register pressure by sinking it
+
+; It wouldn't be sinked if didn't prove it's uniform
+; CHECK:         [[ADDFF_1:%.*]] = fadd float [[ADDF_1]], [[UNIFORM_LOAD_2]]
+
+; CHECK:       afterloop:
+;
+entry:
+  %localIdX32 = zext i16 %localIdX to i32
+  %addr_1 = getelementptr float, float addrspace(1)* %in0, i32 %localIdX32
+  %addr_2 = getelementptr float, float addrspace(1)* %in1, i32 0
+  br label %entry_preheader
+
+entry_preheader:                                  ; preds = %entry
+  %l_1 = load float, float addrspace(1)* %addr_1, align 16
+  %l_2 = load float, float addrspace(1)* %addr_2, align 16
+  %addf_1 = fadd float %l_1, 1.0
+  %addff_1 = fadd float %addf_1, %l_2
+  br label %loop
+
+loop:                                             ; preds = %loop, %entry_preheader
+  %index = phi i32 [ 0, %entry_preheader ], [ %inc, %loop ]
+  %addf_2 = fadd float %l_1, 2.0
+  %acc0 = fadd float %addf_1, %addf_2
+  %acc1 = fadd float %addf_2, %addff_1
+
+  %out0_shifted = getelementptr float, float addrspace(1)* %out0, i32 %index
+  store float %acc1, float addrspace(1)* %out0_shifted, align 8
+  %cmptmp = icmp ult i32 %index, %count
+  %inc = add i32 %index, 1
+  br i1 %cmptmp, label %loop, label %afterloop
+
+afterloop:                                        ; preds = %loop
+  ret void
+}
+
+!IGCMetadata = !{!2}
+!igc.functions = !{!13}
+
+!2 = !{!"ModuleMD", !3}
+!3 = !{!"FuncMD", !4, !5}
+!4 = !{!"FuncMDMap[0]", void (float addrspace(1)*, float addrspace(1)*, float addrspace(1)*, i32, i16, i16, i16)* @foo}
+!5 = !{!"FuncMDValue[0]", !6, !7, !11, !12}
+!6 = !{!"localOffsets"}
+!7 = !{!"workGroupWalkOrder", !8, !9, !10}
+!8 = !{!"dim0", i32 0}
+!9 = !{!"dim1", i32 1}
+!10 = !{!"dim2", i32 2}
+!11 = !{!"funcArgs"}
+!12 = !{!"functionType", !"KernelFunction"}
+!13 = !{void (float addrspace(1)*, float addrspace(1)*, float addrspace(1)*, i32, i16, i16, i16)* @foo, !14}
+!14 = !{!15, !16}
+!15 = !{!"function_type", i32 0}
+!16 = !{!"implicit_arg_desc", !17, !18, !19, !20, !21}
+!17 = !{i32 0}
+!18 = !{i32 1}
+!19 = !{i32 7}
+!20 = !{i32 8}
+!21 = !{i32 9}
@@ -0,0 +1,87 @@
+;=========================== begin_copyright_notice ============================
+;
+; Copyright (C) 2023 Intel Corporation
+;
+; SPDX-License-Identifier: MIT
+;
+;============================ end_copyright_notice =============================
+
+; REQUIRES: regkeys
+; RUN: igc_opt --regkey LoopSinkMinSave=4 --regkey ForceLoopSink=1 --regkey CodeSinkingMinSize=10 %enable-basic-aa% --igc-code-sinking -S %s | FileCheck %s
+define void @foo(float addrspace(1)* %in0, double addrspace(1)* %in1, float addrspace(1)* noalias %out0, i32 %count, i32 %offsetIn0, i32 %offsetIn2) {
+; CHECK-LABEL: @foo(
+; CHECK:       entry:
+; CHECK:         [[ADDR_1:%.*]] = getelementptr float, float addrspace(1)* [[IN0:%.*]], i32 0
+; CHECK:         [[ADDR_3:%.*]] = getelementptr float, float addrspace(1)* [[IN0]], i32 2
+; CHECK:         br label [[ENTRY_PREHEADER:%.*]]
+; CHECK:       entry_preheader:
+; CHECK:         [[L_1:%.*]] = load float, float addrspace(1)* [[ADDR_1]], align 16
+; CHECK:         [[L_3:%.*]] = load float, float addrspace(1)* [[ADDR_3]], align 16
+
+; this add is not beneficial to sink
+
+; CHECK:         [[ADDFF_1:%.*]] = fadd float [[L_3]], 1.000000e+00
+; CHECK:         br label [[LOOP:%.*]]
+; CHECK:       loop:
+
+; These 5 adds are beneficial to sink at once, because now only one value is alive in the loop (L_1), instead of 5
+
+; CHECK:         [[INDEX:%.*]] = phi i32 [ 0, [[ENTRY_PREHEADER]] ], [ [[INC:%.*]], [[LOOP]] ]
+; CHECK:         [[ADDF_2:%.*]] = fadd float [[L_1]], 2.000000e+00
+; CHECK:         [[ADDF_1:%.*]] = fadd float [[L_1]], 1.000000e+00
+; CHECK:         [[ACC0:%.*]] = fadd float [[ADDF_1]], [[ADDF_2]]
+; CHECK:         [[ADDF_3:%.*]] = fadd float [[L_1]], 3.000000e+00
+; CHECK:         [[ACC1:%.*]] = fadd float [[ACC0]], [[ADDF_3]]
+; CHECK:         [[ADDF_4:%.*]] = fadd float [[L_1]], 4.000000e+00
+; CHECK:         [[ACC2:%.*]] = fadd float [[ACC1]], [[ADDF_4]]
+; CHECK:         [[ADDF_5:%.*]] = fadd float [[L_1]], 5.000000e+00
+; CHECK:         [[ACC3:%.*]] = fadd float [[ACC2]], [[ADDF_5]]
+; CHECK:         [[ACC4:%.*]] = fadd float [[ACC2]], [[ADDFF_1]]
+; CHECK:         [[OUT0_SHIFTED:%.*]] = getelementptr float, float addrspace(1)* [[OUT0:%.*]], i32 [[INDEX]]
+; CHECK:         store float [[ACC4]], float addrspace(1)* [[OUT0_SHIFTED]], align 8
+; CHECK:         [[INC]] = add i32 [[INDEX]], 1
+; CHECK:         [[CMPTMP:%.*]] = icmp ult i32 [[INDEX]], [[COUNT:%.*]]
+; CHECK:         br i1 [[CMPTMP]], label [[LOOP]], label [[AFTERLOOP:%.*]]
+; CHECK:       afterloop:
+; CHECK:         ret void
+;
+entry:
+  %addr_1 = getelementptr float, float addrspace(1)* %in0, i32 0
+  %addr_3 = getelementptr float, float addrspace(1)* %in0, i32 2
+
+  %l_1 = load float, float addrspace(1)* %addr_1, align 16
+  %l_3 = load float, float addrspace(1)* %addr_3, align 16
+
+  br label %entry_preheader
+
+entry_preheader:                                  ; preds = %entry
+  %addf_1 = fadd float %l_1, 1.0
+  %addf_2 = fadd float %l_1, 2.0
+  %addf_3 = fadd float %l_1, 3.0
+  %addf_4 = fadd float %l_1, 4.0
+  %addf_5 = fadd float %l_1, 5.0
+
+  %addff_1 = fadd float %l_3, 1.0
+
+  br label %loop
+
+loop:                                             ; preds = %loop, %entry_preheader
+  %index = phi i32 [ 0, %entry_preheader ], [ %inc, %loop ]
+  %acc0 = fadd float %addf_1, %addf_2
+  %acc1 = fadd float %acc0, %addf_3
+  %acc2 = fadd float %acc1, %addf_4
+  %acc3 = fadd float %acc2, %addf_5
+
+  %acc4 = fadd float %acc2, %addff_1
+
+  %out0_shifted = getelementptr float, float addrspace(1)* %out0, i32 %index
+  store float %acc4, float addrspace(1)* %out0_shifted, align 8
+  %cmptmp = icmp ult i32 %index, %count
+  %inc = add i32 %index, 1
+  br i1 %cmptmp, label %loop, label %afterloop
+
+afterloop:                                        ; preds = %loop
+  ret void
+}
+
+!igc.functions = !{}