ROCm
diff --git a/‎library/src/contraction/contraction_selection.cpp‎
Lines changed: 2390 additions & 0 deletions b/‎library/src/contraction/contraction_selection.cpp‎
Lines changed: 2390 additions & 0 deletions
diff --git a/‎library/src/contraction/contraction_selection.hpp‎
Lines changed: 52 additions & 0 deletions b/‎library/src/contraction/contraction_selection.hpp‎
Lines changed: 52 additions & 0 deletions
diff --git a/‎library/src/contraction/contraction_solution_impl.hpp‎
Lines changed: 3 additions & 5 deletions b/‎library/src/contraction/contraction_solution_impl.hpp‎
Lines changed: 3 additions & 5 deletions
diff --git a/‎library/src/contraction/contraction_solution_instances.cpp‎
Lines changed: 48 additions & 0 deletions b/‎library/src/contraction/contraction_solution_instances.cpp‎
Lines changed: 48 additions & 0 deletions
diff --git a/‎library/src/contraction/device/CMakeLists.txt‎
Lines changed: 16 additions & 0 deletions b/‎library/src/contraction/device/CMakeLists.txt‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎library/src/contraction/device/device_contraction_bilinear_unary_m6_n6_k6_xdl_c_shuffle_bf16_bf16_bf16_bf16_kknn_instance.cpp‎
Lines changed: 76 additions & 0 deletions b/‎library/src/contraction/device/device_contraction_bilinear_unary_m6_n6_k6_xdl_c_shuffle_bf16_bf16_bf16_bf16_kknn_instance.cpp‎
Lines changed: 76 additions & 0 deletions
@@ -108,4 +108,56 @@ namespace hiptensor
                          hiptensorComputeDescriptor_t                            computeType,
                          const uint64_t                                          workspaceSize);
 
+    template <typename A,
+              typename B,
+              typename C,
+              typename D,
+              ContractionOpId_t ContractionOp,
+              typename ComputeType>
+    struct ActorCriticSelectionUnaryOps
+    {
+        static hiptensorStatus_t
+            selectWinner(ContractionSolution**                                   winner,
+                         std::unordered_map<size_t, ContractionSolution*> const& candidates,
+                         hiptensorDataType_t                                     typeA,
+                         std::vector<std::size_t> const&                         a_ms_ks_lengths,
+                         std::vector<std::size_t> const&                         a_ms_ks_strides,
+                         std::vector<int32_t> const&                             a_ms_ks_modes,
+                         hiptensorDataType_t                                     typeB,
+                         std::vector<std::size_t> const&                         b_ns_ks_lengths,
+                         std::vector<std::size_t> const&                         b_ns_ks_strides,
+                         std::vector<int32_t> const&                             b_ns_ks_modes,
+                         hiptensorDataType_t                                     typeD,
+                         std::vector<std::size_t> const&                         d_ms_ns_lengths,
+                         std::vector<std::size_t> const&                         d_ms_ns_strides,
+                         std::vector<int32_t> const&                             d_ms_ns_modes,
+                         hiptensorDataType_t                                     typeE,
+                         std::vector<std::size_t> const&                         e_ms_ns_lengths,
+                         std::vector<std::size_t> const&                         e_ms_ns_strides,
+                         std::vector<int32_t> const&                             e_ms_ns_modes,
+                         const uint64_t                                          workspaceSize);
+    };
+
+    hiptensorStatus_t
+        actorCriticModelUnaryOps(ContractionSolution**                           winner,
+                         std::unordered_map<size_t, ContractionSolution*> const& candidates,
+                         hiptensorDataType_t                                     typeA,
+                         std::vector<std::size_t> const&                         a_ms_ks_lengths,
+                         std::vector<std::size_t> const&                         a_ms_ks_strides,
+                         std::vector<int32_t> const&                             a_ms_ks_modes,
+                         hiptensorDataType_t                                     typeB,
+                         std::vector<std::size_t> const&                         b_ns_ks_lengths,
+                         std::vector<std::size_t> const&                         b_ns_ks_strides,
+                         std::vector<int32_t> const&                             b_ns_ks_modes,
+                         hiptensorDataType_t                                     typeD,
+                         std::vector<std::size_t> const&                         d_ms_ns_lengths,
+                         std::vector<std::size_t> const&                         d_ms_ns_strides,
+                         std::vector<int32_t> const&                             d_ms_ns_modes,
+                         hiptensorDataType_t                                     typeE,
+                         std::vector<std::size_t> const&                         e_ms_ns_lengths,
+                         std::vector<std::size_t> const&                         e_ms_ns_strides,
+                         std::vector<int32_t> const&                             e_ms_ns_modes,
+                         hiptensorComputeDescriptor_t                            computeType,
+                         const uint64_t                                          workspaceSize);
+
 } // namespace hiptensor
@@ -169,11 +169,9 @@ namespace hiptensor
                     = applyCKColMajorStridesOptimizationForContraction(normal_e_ms_ns_lengths);
 
             // Initialize the argument pointer
-            if constexpr(std::
-                             is_same_v<typename Traits::AOp,
-                                       ck::
-                                           tensor_operation::
-                                               element_wise::PassThrough> && std::is_same_v<typename Traits::BOp, ck::tensor_operation::element_wise::PassThrough> && (std::is_same_v<typename Traits::CDEOp, ck::tensor_operation::element_wise::Bilinear> || std::is_same_v<typename Traits::CDEOp, ck::tensor_operation::element_wise::BilinearComplex>))
+            if constexpr(std::is_same_v<typename Traits::AOp, ck::tensor_operation::element_wise::PassThrough> 
+                      && std::is_same_v<typename Traits::BOp, ck::tensor_operation::element_wise::PassThrough> 
+                      &&(std::is_same_v<typename Traits::CDEOp, ck::tensor_operation::element_wise::Bilinear> || std::is_same_v<typename Traits::CDEOp, ck::tensor_operation::element_wise::BilinearComplex>))
             {
                 Base::mInvokerArgPtr = std::move(deviceOp->MakeArgumentPointer(
                     A,
 
@@ -60,6 +60,18 @@ namespace hiptensor
                                           ck::tensor_operation::element_wise::Bilinear,
                                           ck::bhalf_t>());
 
+        registerSolutions(enumerateContractionSolutions<6,
+                                                        6,
+                                                        6,
+                                                        ck::bhalf_t,
+                                                        ck::bhalf_t,
+                                                        ck::Tuple<ck::bhalf_t>,
+                                                        ck::bhalf_t,
+                                                        CkHiptensorUnaryOp,
+                                                        CkHiptensorUnaryOp,
+                                                        CkBilinearUnary,
+                                                        ck::bhalf_t>());
+
         registerSolutions(
             enumerateContractionSolutions<6,
                                           6,
@@ -99,6 +111,18 @@ namespace hiptensor
                                           ck::tensor_operation::element_wise::Bilinear,
                                           ck::half_t>());
 
+        registerSolutions(enumerateContractionSolutions<6,
+                                                        6,
+                                                        6,
+                                                        ck::half_t,
+                                                        ck::half_t,
+                                                        ck::Tuple<ck::half_t>,
+                                                        ck::half_t,
+                                                        CkHiptensorUnaryOp,
+                                                        CkHiptensorUnaryOp,
+                                                        CkBilinearUnary,
+                                                        ck::half_t>());
+
         registerSolutions(
             enumerateContractionSolutions<6,
                                           6,
@@ -293,6 +317,18 @@ namespace hiptensor
                                           ck::tensor_operation::element_wise::Scale,
                                           ck::bhalf_t>());
 
+        registerSolutions(enumerateContractionSolutions<6,
+                                                        6,
+                                                        6,
+                                                        ck::bhalf_t,
+                                                        ck::bhalf_t,
+                                                        ck::Tuple<>,
+                                                        ck::bhalf_t,
+                                                        CkHiptensorUnaryOp,
+                                                        CkHiptensorUnaryOp,
+                                                        ck::tensor_operation::element_wise::Scale,
+                                                        ck::bhalf_t>());
+
         registerSolutions(
             enumerateContractionSolutions<6,
                                           6,
@@ -332,6 +368,18 @@ namespace hiptensor
                                           ck::tensor_operation::element_wise::Scale,
                                           ck::half_t>());
 
+        registerSolutions(enumerateContractionSolutions<6,
+                                                        6,
+                                                        6,
+                                                        ck::half_t,
+                                                        ck::half_t,
+                                                        ck::Tuple<>,
+                                                        ck::half_t,
+                                                        CkHiptensorUnaryOp,
+                                                        CkHiptensorUnaryOp,
+                                                        ck::tensor_operation::element_wise::Scale,
+                                                        ck::half_t>());
+
         registerSolutions(
             enumerateContractionSolutions<6,
                                           6,
 
@@ -141,6 +141,14 @@
      ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_bilinear_unary_m6_n6_k6_xdl_c_shuffle_bf16_bf16_bf16_bf16_compute_f32_knnn_instance.cpp
      ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_bilinear_unary_m6_n6_k6_xdl_c_shuffle_bf16_bf16_bf16_bf16_compute_f32_mknn_instance.cpp
      ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_bilinear_unary_m6_n6_k6_xdl_c_shuffle_bf16_bf16_bf16_bf16_compute_f32_mnnn_instance.cpp
+     ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_bilinear_unary_m6_n6_k6_xdl_c_shuffle_f16_f16_f16_f16_kknn_instance.cpp
+     ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_bilinear_unary_m6_n6_k6_xdl_c_shuffle_f16_f16_f16_f16_knnn_instance.cpp
+     ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_bilinear_unary_m6_n6_k6_xdl_c_shuffle_f16_f16_f16_f16_mknn_instance.cpp
+     ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_bilinear_unary_m6_n6_k6_xdl_c_shuffle_f16_f16_f16_f16_mnnn_instance.cpp
+     ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_bilinear_unary_m6_n6_k6_xdl_c_shuffle_bf16_bf16_bf16_bf16_kknn_instance.cpp
+     ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_bilinear_unary_m6_n6_k6_xdl_c_shuffle_bf16_bf16_bf16_bf16_knnn_instance.cpp
+     ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_bilinear_unary_m6_n6_k6_xdl_c_shuffle_bf16_bf16_bf16_bf16_mknn_instance.cpp
+     ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_bilinear_unary_m6_n6_k6_xdl_c_shuffle_bf16_bf16_bf16_bf16_mnnn_instance.cpp
      ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_scale_unary_m6_n6_k6_xdl_c_shuffle_f32_f32_f32_kkn_instance.cpp
      ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_scale_unary_m6_n6_k6_xdl_c_shuffle_f32_f32_f32_knn_instance.cpp
      ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_scale_unary_m6_n6_k6_xdl_c_shuffle_f32_f32_f32_mkn_instance.cpp
@@ -169,6 +177,14 @@
      ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_scale_unary_m6_n6_k6_xdl_c_shuffle_bf16_bf16_bf16_compute_f32_knn_instance.cpp
      ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_scale_unary_m6_n6_k6_xdl_c_shuffle_bf16_bf16_bf16_compute_f32_mkn_instance.cpp
      ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_scale_unary_m6_n6_k6_xdl_c_shuffle_bf16_bf16_bf16_compute_f32_mnn_instance.cpp
+     ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_scale_unary_m6_n6_k6_xdl_c_shuffle_f16_f16_f16_kkn_instance.cpp
+     ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_scale_unary_m6_n6_k6_xdl_c_shuffle_f16_f16_f16_knn_instance.cpp
+     ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_scale_unary_m6_n6_k6_xdl_c_shuffle_f16_f16_f16_mkn_instance.cpp
+     ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_scale_unary_m6_n6_k6_xdl_c_shuffle_f16_f16_f16_mnn_instance.cpp
+     ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_scale_unary_m6_n6_k6_xdl_c_shuffle_bf16_bf16_bf16_kkn_instance.cpp
+     ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_scale_unary_m6_n6_k6_xdl_c_shuffle_bf16_bf16_bf16_knn_instance.cpp
+     ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_scale_unary_m6_n6_k6_xdl_c_shuffle_bf16_bf16_bf16_mkn_instance.cpp
+     ${CMAKE_CURRENT_SOURCE_DIR}/device_contraction_scale_unary_m6_n6_k6_xdl_c_shuffle_bf16_bf16_bf16_mnn_instance.cpp     
      )
 
 add_hiptensor_component(hiptensor_contraction_instances ${CK_CONTRACTION_INSTANCE_SOURCES})
 
@@ -0,0 +1,76 @@
+/*******************************************************************************
+ *
+ * MIT License
+ *
+ * Copyright (C) 2023-2026 Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * Permission is hereby granted, free of charge, to any person obtaining a copy
+ * of this software and associated documentation files (the "Software"), to deal
+ * in the Software without restriction, including without limitation the rights
+ * to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+ * copies of the Software, and to permit persons to whom the Software is
+ * furnished to do so, subject to the following conditions:
+ *
+ * The above copyright notice and this permission notice shall be included in
+ * all copies or substantial portions of the Software.
+ *
+ * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+ * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+ * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+ * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+ * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+ * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
+ * THE SOFTWARE.
+ *
+ *******************************************************************************/
+
+#include <ck/ck.hpp>
+#include <ck/library/tensor_operation_instance/add_device_operation_instance.hpp>
+#include <ck/library/tensor_operation_instance/gpu/contraction/device_contraction_instance.hpp>
+#include <ck/tensor_operation/gpu/device/device_contraction_multiple_d.hpp>
+#include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
+
+#include "hiptensor_ck_types.hpp"
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace instance {
+
+// A[m0, m1, k0, k1] * B[n0, n1, k0, k1] + D[m0, m1, n0, n1] = E[m0, m1, n0, n1]
+// k/k/n/n are the fast changing dimension for A/B/D/E
+using device_contraction_bilinear_unary_m6_n6_k6_xdl_c_shuffle_bf16_bf16_bf16_bf16_kknn_instance =
+    device_contraction_kk_instance<BF16,
+                                   BF16,
+                                   F32,
+                                   BF16,
+                                   BF16_Tuple,
+                                   BF16,
+                                   BF16,
+                                   hiptensor::CkHiptensorUnaryOp,
+                                   hiptensor::CkHiptensorUnaryOp,
+                                   hiptensor::CkBilinearUnary,
+                                   6>;
+
+void add_device_contraction_bilinear_unary_m6_n6_k6_xdl_c_shuffle_bf16_bf16_bf16_bf16_kknn_instance(
+    std::vector<std::unique_ptr<DeviceContractionMultipleD<6,
+                                                           6,
+                                                           6,
+                                                           BF16,
+                                                           BF16,
+                                                           BF16_Tuple,
+                                                           BF16,
+                                                           hiptensor::CkHiptensorUnaryOp,
+                                                           hiptensor::CkHiptensorUnaryOp,
+                                                           hiptensor::CkBilinearUnary,
+                                                           BF16>>>& instances)
+{
+    add_device_operation_instances(
+        instances,
+        device_contraction_bilinear_unary_m6_n6_k6_xdl_c_shuffle_bf16_bf16_bf16_bf16_kknn_instance{});
+}
+
+} // namespace instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck