From dee3a83c1422ce9a7b940bcade7b437c1690dfd0 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E5=A7=9C=E6=B3=BD=E4=B8=9C?= <jiangzedong2@hisilicon.com>
Date: Wed, 13 Nov 2024 02:06:33 +0000
Subject: [PATCH 1/2] copy cube in
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: 姜泽东 <jiangzedong2@hisilicon.com>
---
 impl/matmul/matmul_impl.h                     |  78 ++++++------
 impl/matmul/modules/matmul_private_modules.h  |   8 ++
 impl/matmul/modules/matmul_subblock_info.h    |  36 ++++++
 impl/matmul/modules/matmul_tensor_info.h      | 118 ++++++++++++++++++
 impl/matmul/modules/matmul_var.h              | 106 ----------------
 .../copy_cube_in/batch/batch_copy_cube_in.h   |  30 +++--
 .../batch/batch_copy_cube_in_intf.h           |  89 +++++++++++++
 .../batch/batch_copy_cube_in_v200.h           |  30 +++--
 .../stage/copy_cube_in/copy_cube_in_from_l1.h |   7 +-
 .../stage/copy_cube_in/copy_cube_in_mdl.h     |   5 +-
 .../stage/copy_cube_in/copy_cube_in_norm.h    |  16 +--
 .../copy_cube_in/copy_cube_in_using_ub.h      |  19 +--
 .../stage/copy_cube_in/data_copy_wrapper.h    |  31 ++---
 lib/matmul/matmul.h                           |  23 ++++
 .../copy_cube_in/test_copy_cube_in_mdl.cpp    |  11 +-
 .../test_copy_cube_in_mdl_310p.cpp            |  11 +-
 .../copy_cube_in/test_copy_cube_in_norm.cpp   |  11 +-
 .../test_copy_cube_in_norm_310p.cpp           |  11 +-
 tests/matmul/test_matmul_var.cpp              |   7 +-
 19 files changed, 435 insertions(+), 212 deletions(-)
 create mode 100644 impl/matmul/modules/matmul_subblock_info.h
 create mode 100644 impl/matmul/modules/matmul_tensor_info.h
 create mode 100644 impl/matmul/modules/stage/copy_cube_in/batch/batch_copy_cube_in_intf.h
diff --git a/impl/matmul/matmul_impl.h b/impl/matmul/matmul_impl.h
index bf3552e9..0274e182 100644
--- a/impl/matmul/matmul_impl.h
+++ b/impl/matmul/matmul_impl.h
@@ -526,8 +526,8 @@ __aicore__ inline void MatmulImpl<A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, MM_
         batchA_ = var.tiling_.GetBatchNum();
         batchB_ = var.tiling_.GetBatchNum();
     }
-    MATMUL_MODULE(CopyCubeInA)->Init();
-    MATMUL_MODULE(CopyCubeInB)->Init();
+    MATMUL_MODULE(BatchCopyCubeInA)->Init();
+    MATMUL_MODULE(BatchCopyCubeInB)->Init();
 
     uint32_t lenFactor = 1;
 #if __CCE_AICORE__ >= 220
@@ -630,8 +630,8 @@ __aicore__ inline void MatmulImpl<A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, MM_
         batchB_ = var.tiling_.GetBatchNum();
     }
 
-    MATMUL_MODULE(CopyCubeInA)->Init();
-    MATMUL_MODULE(CopyCubeInB)->Init();
+    MATMUL_MODULE(BatchCopyCubeInA)->Init();
+    MATMUL_MODULE(BatchCopyCubeInB)->Init();
 
     uint32_t lenFactor = 1;
 #if __CCE_AICORE__ >= 220
@@ -1078,8 +1078,8 @@ template <class A_TYPE, class B_TYPE, class C_TYPE, class BIAS_TYPE, const auto&
     MATMUL_POLICY_TEMPLATE_OF(MATMUL_POLICY)>
 __aicore__ inline void MatmulImpl<A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, MM_CB, MATMUL_POLICY>::EndNorm()
 {
-    MATMUL_MODULE(CopyCubeInA)->Destroy();
-    MATMUL_MODULE(CopyCubeInB)->Destroy();
+    MATMUL_MODULE(ChosenCopyCubeInA)->Destroy();
+    MATMUL_MODULE(ChosenCopyCubeInB)->Destroy();
 
 #if __CCE_AICORE__ == 220
     if constexpr (ToMatmulConfig(MM_CFG).enableSetBias) {
@@ -1251,7 +1251,7 @@ __aicore__ inline void MatmulImpl<A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, MM_
             "When matrix A DType is int8, matrix A should not be transposed");});
     }
 #endif
-    MATMUL_MODULE(CopyCubeInA)->SetInput(gm.address_, isTransposeA);
+    MATMUL_MODULE(ChosenCopyCubeInA)->SetInput(gm.address_, isTransposeA);
     if constexpr (DoMatmulNorm(MM_CFG)) {
         IterateController::Reset();
     } else {
@@ -1365,7 +1365,7 @@ __aicore__ inline void MatmulImpl<A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, MM_
     ASCENDC_ASSERT((isTransposeB <= B_TYPE::isTrans), {
         KERNEL_LOG(KERNEL_ERROR, "It is not allowed to do B transpose when matmul B transpose is not defined.");
     });
-    MATMUL_MODULE(CopyCubeInB)->SetInput(gm.address_, isTransposeB);
+    MATMUL_MODULE(ChosenCopyCubeInB)->SetInput(gm.address_, isTransposeB);
     if constexpr (DoMatmulNorm(MM_CFG)) {
         IterateController::Reset();
     } else { 
@@ -2345,12 +2345,12 @@ __aicore__ inline void MatmulImpl<A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, MM_
 
     if constexpr (IsBasic(MM_CFG)) {
         if constexpr (NeedSetTail(MM_CFG)) {
-            a1 = MATMUL_MODULE(CopyCubeInA)->LoadData(0, 0, var.tailM_, var.tailK_);
+            a1 = MATMUL_MODULE(ChosenCopyCubeInA)->LoadData(0, 0, var.tailM_, var.tailK_);
             if constexpr (!ToMatmulConfig(MM_CFG).intraBlockPartSum) {
-                b1 = MATMUL_MODULE(CopyCubeInB)->LoadData(0, 0, var.tailK_, var.tailN_);
+                b1 = MATMUL_MODULE(ChosenCopyCubeInB)->LoadData(0, 0, var.tailK_, var.tailN_);
             } else {
                 if (intraBlockMatmul.fakeMsg) {
-                    b1 = MATMUL_MODULE(CopyCubeInB)->LoadData(0, 0, var.tailK_, var.tailN_);
+                    b1 = MATMUL_MODULE(ChosenCopyCubeInB)->LoadData(0, 0, var.tailK_, var.tailN_);
                 }
             }
             var.baseUseK_ = var.tailK_;
@@ -2358,12 +2358,12 @@ __aicore__ inline void MatmulImpl<A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, MM_
         } else {
             var.baseUseK_ = var.tiling_.GetBaseK();
             var.blockUseK_ = Ceil(var.baseUseK_, c0Size_);
-            a1 = MATMUL_MODULE(CopyCubeInA)->LoadData(0, 0, var.tiling_.GetBaseM(), var.tiling_.GetBaseK());
+            a1 = MATMUL_MODULE(ChosenCopyCubeInA)->LoadData(0, 0, var.tiling_.GetBaseM(), var.tiling_.GetBaseK());
             if constexpr(!ToMatmulConfig(MM_CFG).intraBlockPartSum) {
-                b1 = MATMUL_MODULE(CopyCubeInB)->LoadData(0, 0, var.tiling_.GetBaseK(), var.tiling_.GetBaseN());
+                b1 = MATMUL_MODULE(ChosenCopyCubeInB)->LoadData(0, 0, var.tiling_.GetBaseK(), var.tiling_.GetBaseN());
             } else if constexpr (ToMatmulConfig(MM_CFG).intraBlockPartSum) {
                 if (intraBlockMatmul.fakeMsg) {
-                    b1 = MATMUL_MODULE(CopyCubeInB)->LoadData(0, 0, var.tiling_.GetBaseK(), var.tiling_.GetBaseN());
+                    b1 = MATMUL_MODULE(ChosenCopyCubeInB)->LoadData(0, 0, var.tiling_.GetBaseK(), var.tiling_.GetBaseN());
                 }
             }
         }
@@ -2450,9 +2450,9 @@ __aicore__ inline void MatmulImpl<A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, MM_
             MatmulInstr::Compute(a1, b1, var.cMatrix_);
         }
 #endif
-        MATMUL_MODULE(CopyCubeInA)->ClearLoadData(a1);
+        MATMUL_MODULE(ChosenCopyCubeInA)->ClearLoadData(a1);
         if constexpr(!ToMatmulConfig(MM_CFG).intraBlockPartSum) {
-            MATMUL_MODULE(CopyCubeInB)->ClearLoadData(b1);
+            MATMUL_MODULE(ChosenCopyCubeInB)->ClearLoadData(b1);
         }
     } else { // not basic
         for (int k = 0; k < var.kIter_; k++) { // start reduce K axis
@@ -2466,12 +2466,12 @@ __aicore__ inline void MatmulImpl<A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, MM_
                 var.baseUseK_ = (k + 1 == var.kIter_) ? var.tailK_ : var.tiling_.GetBaseK();
             }
             var.blockUseK_ = Ceil(var.baseUseK_, c0Size_);
-            a1 = MATMUL_MODULE(CopyCubeInA)->LoadData(var.curM_, k, var.baseUseM_, var.baseUseK_);
+            a1 = MATMUL_MODULE(ChosenCopyCubeInA)->LoadData(var.curM_, k, var.baseUseM_, var.baseUseK_);
             if constexpr(!ToMatmulConfig(MM_CFG).intraBlockPartSum) {
-                b1 = MATMUL_MODULE(CopyCubeInB)->LoadData(k, var.curN_, var.baseUseK_, var.baseUseN_);
+                b1 = MATMUL_MODULE(ChosenCopyCubeInB)->LoadData(k, var.curN_, var.baseUseK_, var.baseUseN_);
             } else if constexpr (ToMatmulConfig(MM_CFG).intraBlockPartSum) {
                 if (intraBlockMatmul.fakeMsg) {
-                    b1 = MATMUL_MODULE(CopyCubeInB)->LoadData(k, var.curN_, var.baseUseK_, var.baseUseN_);
+                    b1 = MATMUL_MODULE(ChosenCopyCubeInB)->LoadData(k, var.curN_, var.baseUseK_, var.baseUseN_);
                 }
             }
             if constexpr (!IsStaticPaddingEnable(MM_CFG)) {
@@ -2571,9 +2571,9 @@ __aicore__ inline void MatmulImpl<A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, MM_
                 MatmulInstr::Compute(a1, b1, var.cMatrix_);
             }
 #endif
-            MATMUL_MODULE(CopyCubeInA)->ClearLoadData(a1, var.curM_, k);
+            MATMUL_MODULE(ChosenCopyCubeInA)->ClearLoadData(a1, var.curM_, k);
             if constexpr(!ToMatmulConfig(MM_CFG).intraBlockPartSum) {
-                MATMUL_MODULE(CopyCubeInB)->ClearLoadData(b1, k, var.curN_);
+                MATMUL_MODULE(ChosenCopyCubeInB)->ClearLoadData(b1, k, var.curN_);
             }
         }
     }
@@ -2678,8 +2678,8 @@ __aicore__ inline void MatmulImpl<A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, MM_
     LocalTensor<BiasT> bias;
     var.baseUseK_ = var.tailK_;
     var.blockUseK_ = Ceil(var.baseUseK_, c0Size_);
-    auto a1 = MATMUL_MODULE(CopyCubeInA)->LoadData(var.curM_, 0, var.baseUseM_, var.baseUseK_);
-    auto b1 = MATMUL_MODULE(CopyCubeInB)->LoadData(0, var.curN_, var.baseUseK_, var.baseUseN_);
+    auto a1 = MATMUL_MODULE(ChosenCopyCubeInA)->LoadData(var.curM_, 0, var.baseUseM_, var.baseUseK_);
+    auto b1 = MATMUL_MODULE(ChosenCopyCubeInB)->LoadData(0, var.curN_, var.baseUseK_, var.baseUseN_);
     // set addr
     MatmulInstr::sAL1K_ = var.blockUseK_ * c0Size_;
     MatmulInstr::sBL1K_ = var.blockUseK_ * c0Size_;
@@ -5002,7 +5002,7 @@ __aicore__ inline void MatmulImpl<A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, MM_
 #endif
 #if __CCE_AICORE__ == 200
     if constexpr (ToMatmulConfig(MM_CFG).enableSetBias) {
-        if (var.tiling_.IsBias()) {
+        if (var.enableBias_) {
             var.enableBias_ = true;
             if (batchIdx != 0 || splitOuterIdx != 0) {
                 var.biasGlobal_ += var.singleCoreN_;
@@ -5016,8 +5016,7 @@ __aicore__ inline void MatmulImpl<A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, MM_
     }
 #else
     if constexpr (ToMatmulConfig(MM_CFG).enableSetBias) {
-        if (var.tiling_.IsBias()) {
-            var.enableBias_ = true;
+        if (var.enableBias_) {
             int32_t offsetBias =
                 GetBatchIterateBiasOffset(batchNum, batchIdx, var.enableBias_, splitOuterIdx, splitSize);
             var.inputBias_ = var.cacheHeadBias_[offsetBias].address_;
@@ -5176,8 +5175,8 @@ __aicore__ inline void MatmulImpl<A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, MM_
         int32_t batchNum = batchA_ > batchB_ ? batchA_ : batchB_;
         int32_t splitSize = (batchNum >= 2) && (batchA_ % 2 == 0) && (batchB_ % 2 == 0)? 2 : 1;
         int32_t splitBatchNum = batchNum / splitSize;
-        auto matrixA = MATMUL_MODULE(CopyCubeInA)->AllocTensor();
-        auto matrixB = MATMUL_MODULE(CopyCubeInB)->AllocTensor();
+        auto matrixA = MATMUL_MODULE(BatchCopyCubeInA)->AllocTensor();
+        auto matrixB = MATMUL_MODULE(BatchCopyCubeInB)->AllocTensor();
 #if __CCE_AICORE__ >= 220
         // Transfer the batchNum Bias matrix to L1 at one time.
         if constexpr (ToMatmulConfig(MM_CFG).enableSetBias && 
@@ -5189,8 +5188,8 @@ __aicore__ inline void MatmulImpl<A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, MM_
         event_t eventIDMte2ToMte1 = static_cast<event_t>(GetTPipePtr()->FetchEventID(HardEvent::MTE2_MTE1));
         event_t eventIDMToMte1 = static_cast<event_t>(GetTPipePtr()->FetchEventID(HardEvent::M_MTE1));
         for (int32_t outer = 0; outer < splitSize; ++outer) {
-            MATMUL_MODULE(CopyCubeInA)->BatchLoad(matrixA, matrixStrideA, batchOuterIdx, outer, splitSize);
-            MATMUL_MODULE(CopyCubeInB)->BatchLoad(matrixB, matrixStrideB, batchOuterIdx, outer, splitSize);
+            MATMUL_MODULE(BatchCopyCubeInA)->BatchLoad(matrixA, matrixStrideA, batchOuterIdx, outer, splitSize);
+            MATMUL_MODULE(BatchCopyCubeInB)->BatchLoad(matrixB, matrixStrideB, batchOuterIdx, outer, splitSize);
             SetFlag<HardEvent::MTE2_MTE1>(eventIDMte2ToMte1);
             WaitFlag<HardEvent::MTE2_MTE1>(eventIDMte2ToMte1);
             ASSERT(batchA_ > 0 && batchB_ > 0 && (batchA_ % batchB_ == 0 || batchB_ % batchA_ == 0));
@@ -5245,8 +5244,8 @@ __aicore__ inline void MatmulImpl<A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, MM_
             }
         }
 #endif
-        MATMUL_MODULE(CopyCubeInA)->BatchDestroy();
-        MATMUL_MODULE(CopyCubeInB)->BatchDestroy();
+        MATMUL_MODULE(BatchCopyCubeInA)->BatchDestroy();
+        MATMUL_MODULE(BatchCopyCubeInB)->BatchDestroy();
     }
 }
 
@@ -5268,8 +5267,8 @@ __aicore__ inline void MatmulImpl<A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, MM_
         int32_t batchNum = batchA_ > batchB_ ? batchA_ : batchB_;
         int32_t splitSize = (batchNum >= 2) && (batchA_ % 2 == 0) && (batchB_ % 2 == 0)? 2 : 1;
         int32_t splitBatchNum = batchNum / splitSize;
-        auto matrixA = MATMUL_MODULE(CopyCubeInA)->AllocTensor();
-        auto matrixB = MATMUL_MODULE(CopyCubeInB)->AllocTensor();
+        auto matrixA = MATMUL_MODULE(BatchCopyCubeInA)->AllocTensor();
+        auto matrixB = MATMUL_MODULE(BatchCopyCubeInB)->AllocTensor();
 #if __CCE_AICORE__ >= 220
         // Transfer the batchNum Bias matrix to L1 at one time.
         if constexpr (ToMatmulConfig(MM_CFG).enableSetBias && 
@@ -5281,8 +5280,8 @@ __aicore__ inline void MatmulImpl<A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, MM_
         event_t eventIDMte2ToMte1 = static_cast<event_t>(GetTPipePtr()->FetchEventID(HardEvent::MTE2_MTE1));
         event_t eventIDMToMte1 = static_cast<event_t>(GetTPipePtr()->FetchEventID(HardEvent::M_MTE1));
         for (int32_t outer = 0; outer < splitSize; ++outer) {
-            MATMUL_MODULE(CopyCubeInA)->BatchLoad(matrixA, matrixStrideA, batchOuterIdx, outer, splitSize);
-            MATMUL_MODULE(CopyCubeInB)->BatchLoad(matrixB, matrixStrideB, batchOuterIdx, outer, splitSize);
+            MATMUL_MODULE(BatchCopyCubeInA)->BatchLoad(matrixA, matrixStrideA, batchOuterIdx, outer, splitSize);
+            MATMUL_MODULE(BatchCopyCubeInB)->BatchLoad(matrixB, matrixStrideB, batchOuterIdx, outer, splitSize);
             SetFlag<HardEvent::MTE2_MTE1>(eventIDMte2ToMte1);
             WaitFlag<HardEvent::MTE2_MTE1>(eventIDMte2ToMte1);
             ASSERT(batchA_ > 0 && batchB_ > 0 && (batchA_ % batchB_ == 0 || batchB_ % batchA_ == 0));
@@ -5328,8 +5327,8 @@ __aicore__ inline void MatmulImpl<A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, MM_
             }
         }
 #endif
-        MATMUL_MODULE(CopyCubeInA)->BatchDestroy();
-        MATMUL_MODULE(CopyCubeInB)->BatchDestroy();
+        MATMUL_MODULE(BatchCopyCubeInA)->BatchDestroy();
+        MATMUL_MODULE(BatchCopyCubeInB)->BatchDestroy();
     }
 }
 
@@ -6796,8 +6795,7 @@ __aicore__ inline void MatmulImpl<A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, MM_
     var.rightMatrix_.dataLen = bMatrixSingleBatchSize;
 #endif
     if constexpr (ToMatmulConfig(MM_CFG).enableSetBias) {
-        if (var.tiling_.IsBias()) {
-            var.enableBias_ = true;
+        if (var.enableBias_) {
             int32_t offsetBias =
                 GetBatchIterateBiasOffset(batchNum, batchIdx, var.enableBias_, splitOuterIdx, splitSize);
             var.inputBias_ = var.cacheHeadBias_[offsetBias].address_;
diff --git a/impl/matmul/modules/matmul_private_modules.h b/impl/matmul/modules/matmul_private_modules.h
index b7023312..fc9f2046 100644
--- a/impl/matmul/modules/matmul_private_modules.h
+++ b/impl/matmul/modules/matmul_private_modules.h
@@ -17,10 +17,13 @@
 
 #include "resource/cube_in_buffer/cube_in_buffer_params.h"
 #include "stage/copy_cube_in/copy_cube_in_params.h"
+#include "stage/copy_cube_in/batch/batch_copy_cube_in_intf.h"
 #include "stage/copy_cube_in/data_copy_wrapper.h"
 #include "stage/copy_cube_in/batch/batch_layout.h"
 #include "matmul_var.h"
 #include "stage/quant/quant_processor.h"
+#include "matmul_tensor_info.h"
+#include "matmul_subblock_info.h"
 
 namespace matmul {
 
@@ -36,11 +39,16 @@ struct MatmulPrivateModules {
     using MatmulVarC = MatmulVar<IMPL, MM_CFG, MatmulInputCType<C_TYPE, typename C_TYPE::T>>;
     using DataCopyUtilsA = DataCopyWrapper<IMPL, MM_CFG, MatmulInputAType<A_TYPE, typename A_TYPE::T>>;
     using DataCopyUtilsB = DataCopyWrapper<IMPL, MM_CFG, MatmulInputBType<B_TYPE, typename A_TYPE::T>>;
+    using MatmulTensorInfoA = MatmulTensorInfo<IMPL, MM_CFG, MatmulInputAType<A_TYPE, typename A_TYPE::T>>;
+    using MatmulTensorInfoB = MatmulTensorInfo<IMPL, MM_CFG, MatmulInputBType<B_TYPE, typename A_TYPE::T>>;
+    using MatmulSubBlockInfo = matmul::MatmulSubBlockInfo<IMPL, MM_CFG>;
     using BatchLayoutA = BatchLayout<IMPL, MatmulInputAType<A_TYPE, typename A_TYPE::T>>;
     using BatchLayoutB = BatchLayout<IMPL, MatmulInputBType<B_TYPE, typename A_TYPE::T>>;
     using DataWarp = matmul::DataWarp<IMPL, MM_CFG, C_TYPE::layout>;
     using QuantProcessor = matmul::QuantProcessor<IMPL, A_TYPE, C_TYPE, MM_CFG,
         matmul::MatmulFeatureTrait<MM_CFG>::GetCubeOutType()>;
+    using BatchCopyCubeInA = BatchCopyCubeIn<IMPL, MatmulInputAType<A_TYPE, typename A_TYPE::T>, MM_CFG>;
+    using BatchCopyCubeInB = BatchCopyCubeIn<IMPL, MatmulInputBType<B_TYPE, typename A_TYPE::T>, MM_CFG>;
 };
 }
 #endif // _MATMUL_PRIVATE_MODULES_H_
\ No newline at end of file
diff --git a/impl/matmul/modules/matmul_subblock_info.h b/impl/matmul/modules/matmul_subblock_info.h
new file mode 100644
index 00000000..4922616b
--- /dev/null
+++ b/impl/matmul/modules/matmul_subblock_info.h
@@ -0,0 +1,36 @@
+/**
+ * Copyright (c) 2024 Huawei Technologies Co., Ltd.
+ * This file is a part of the CANN Open Software.
+ * Licensed under CANN Open Software License Agreement Version 1.0 (the "License").
+ * Please refer to the License for details. You may not use this file except in compliance with the License.
+ * THIS SOFTWARE IS PROVIDED ON AN "AS IS" BASIS, WITHOUT WARRANTIES OF ANY KIND, EITHER EXPRESS OR IMPLIED,
+ * INCLUDING BUT NOT LIMITED TO NON-INFRINGEMENT, MERCHANTABILITY, OR FITNESS FOR A PARTICULAR PURPOSE.
+ * See LICENSE in the root of the software repository for the full text of the License.
+ */
+
+/*!
+ * \file matmul_subblock_info.h
+ * \brief matmul variable manager
+ */
+
+#ifndef IMPL_MATMUL_MODULES_MATMUL_SUBBLOCK_INFO_H
+#define IMPL_MATMUL_MODULES_MATMUL_SUBBLOCK_INFO_H
+
+#include "matmul_module.h"
+
+namespace matmul {
+template <typename IMPL, const auto &MM_CFG>
+class MatmulSubBlockInfo {
+public:
+    __aicore__ inline uint8_t GetSubBlockIdx() const
+    {
+        return MATMUL_CONST_PARAM_VAR.subBlockIdx_;
+    }
+
+    __aicore__ inline bool IsFakeIntraBlock() const
+    {
+        return MATMUL_CONST_INTRA_BLOCK.fakeMsg || MATMUL_CONST_PARAM_VAR.subBlockIdx_ == 0;
+    }
+};
+}      // namespace matmul
+#endif // IMPL_MATMUL_MODULES_MATMUL_SUBBLOCK_INFO_H
\ No newline at end of file
diff --git a/impl/matmul/modules/matmul_tensor_info.h b/impl/matmul/modules/matmul_tensor_info.h
new file mode 100644
index 00000000..487de9d2
--- /dev/null
+++ b/impl/matmul/modules/matmul_tensor_info.h
@@ -0,0 +1,118 @@
+/**
+ * Copyright (c) 2024 Huawei Technologies Co., Ltd.
+ * This file is a part of the CANN Open Software.
+ * Licensed under CANN Open Software License Agreement Version 1.0 (the "License").
+ * Please refer to the License for details. You may not use this file except in compliance with the License.
+ * THIS SOFTWARE IS PROVIDED ON AN "AS IS" BASIS, WITHOUT WARRANTIES OF ANY KIND, EITHER EXPRESS OR IMPLIED,
+ * INCLUDING BUT NOT LIMITED TO NON-INFRINGEMENT, MERCHANTABILITY, OR FITNESS FOR A PARTICULAR PURPOSE.
+ * See LICENSE in the root of the software repository for the full text of the License.
+ */
+
+/*!
+ * \file matmul_tensor_info.h
+ * \brief matmul variable manager
+ */
+
+#ifndef IMPL_MATMUL_MODULES_MATMUL_TENSOR_INFO_H
+#define IMPL_MATMUL_MODULES_MATMUL_TENSOR_INFO_H
+
+#include "matmul_module.h"
+
+namespace matmul {
+template <typename IMPL, const auto &MM_CFG, class INPUT_TYPE, typename = void>
+class MatmulTensorInfo {
+    using SrcT = typename INPUT_TYPE::T;
+public:
+    template <bool IS_INTRA_BLOCK = false>
+    __aicore__ inline __gm__ SrcT* GetGlobalAddr() const
+    {
+        if constexpr (IS_INTRA_BLOCK) {
+            return MATMUL_CONST_INTRA_BLOCK.aGlobal;
+        } else {
+            return MATMUL_CONST_PARAM_VAR.aGlobal_;
+        }
+    }
+
+    __aicore__ inline TBuffAddr GetLocalAddr() const
+    {
+        return MATMUL_CONST_PARAM_VAR.leftMatrix_;
+    }
+
+    template <bool IS_INTRA_BLOCK = false>
+    __aicore__ inline void SetGlobalAddr(__gm__ SrcT* srcGlobalAddr, bool isTranspose)
+    {
+        if constexpr (IS_INTRA_BLOCK) {
+            MATMUL_INTRA_BLOCK.aGlobal = srcGlobalAddr;
+            MATMUL_INTRA_BLOCK.isTransposeA = isTranspose;
+        } else {
+            MATMUL_PARAM_VAR.aGlobal_ = srcGlobalAddr;
+            MATMUL_PARAM_VAR.isTransposeA_ = isTranspose;
+        }
+    }
+
+    __aicore__ inline void SetLocalAddr(const TBuffAddr& address, bool isTranspose)
+    {
+        MATMUL_PARAM_VAR.leftMatrix_ = address;
+        MATMUL_PARAM_VAR.isTransposeA_ = isTranspose;
+    }
+
+    __aicore__ inline uint64_t GetSelfDefineData() const
+    {
+        return MATMUL_CONST_PARAM_VAR.dataPtr_;
+    }
+
+    __aicore__ inline uint64_t GetUserDefineInfo() const
+    {
+        return MATMUL_CONST_PARAM_VAR.tilingPtr_;
+    }
+};
+
+template <typename IMPL, const auto &MM_CFG, class INPUT_TYPE>
+class MatmulTensorInfo<IMPL, MM_CFG, INPUT_TYPE, enable_if_t<INPUT_TYPE::TAG == InputTypeTag::B>> {
+    using SrcT = typename INPUT_TYPE::T;
+public:
+    template <bool IS_INTRA_BLOCK = false>
+    __aicore__ inline __gm__ SrcT* GetGlobalAddr() const
+    {
+        if constexpr (IS_INTRA_BLOCK) {
+            return MATMUL_CONST_INTRA_BLOCK.bGlobal;
+        } else {
+            return MATMUL_CONST_PARAM_VAR.bGlobal_;
+        }
+    }
+
+    __aicore__ inline TBuffAddr GetLocalAddr() const
+    {
+        return MATMUL_CONST_PARAM_VAR.rightMatrix_;
+    }
+
+    template <bool IS_INTRA_BLOCK = false>
+    __aicore__ inline void SetGlobalAddr(__gm__ SrcT* srcGlobalAddr, bool isTranspose)
+    {
+        if constexpr (IS_INTRA_BLOCK) {
+            MATMUL_INTRA_BLOCK.bGlobal = srcGlobalAddr;
+            MATMUL_INTRA_BLOCK.isTransposeB = isTranspose;
+        } else {
+            MATMUL_PARAM_VAR.bGlobal_ = srcGlobalAddr;
+            MATMUL_PARAM_VAR.isTransposeB_ = isTranspose;
+        }
+    }
+
+    __aicore__ inline void SetLocalAddr(const TBuffAddr& address, bool isTranspose)
+    {
+        MATMUL_PARAM_VAR.rightMatrix_ = address;
+        MATMUL_PARAM_VAR.isTransposeB_ = isTranspose;
+    }
+
+    __aicore__ inline uint64_t GetSelfDefineData() const
+    {
+        return MATMUL_CONST_PARAM_VAR.dataPtr_;
+    }
+
+    __aicore__ inline uint64_t GetUserDefineInfo() const
+    {
+        return MATMUL_CONST_PARAM_VAR.tilingPtr_;
+    }
+};
+}      // namespace matmul
+#endif // IMPL_MATMUL_MODULES_MATMUL_TENSOR_INFO_H
\ No newline at end of file
diff --git a/impl/matmul/modules/matmul_var.h b/impl/matmul/modules/matmul_var.h
index 36181b4c..bdc2c359 100644
--- a/impl/matmul/modules/matmul_var.h
+++ b/impl/matmul/modules/matmul_var.h
@@ -29,39 +29,6 @@ public:
         return MATMUL_CONST_PARAM_VAR.tiling_;
     }
 
-    template <bool IS_INTRA_BLOCK = false>
-    __aicore__ inline __gm__ SrcT* GetGlobalAddr() const
-    {
-        if constexpr (IS_INTRA_BLOCK) {
-            return MATMUL_CONST_INTRA_BLOCK.aGlobal;
-        } else {
-            return MATMUL_CONST_PARAM_VAR.aGlobal_;
-        }
-    }
-
-    __aicore__ inline TBuffAddr GetLocalAddr() const
-    {
-        return MATMUL_CONST_PARAM_VAR.leftMatrix_;
-    }
-
-    template <bool IS_INTRA_BLOCK = false>
-    __aicore__ inline void SetGlobalAddr(__gm__ SrcT* srcGlobalAddr, bool isTranspose)
-    {
-        if constexpr (IS_INTRA_BLOCK) {
-            MATMUL_INTRA_BLOCK.aGlobal = srcGlobalAddr;
-            MATMUL_INTRA_BLOCK.isTransposeA = isTranspose;
-        } else {
-            MATMUL_PARAM_VAR.aGlobal_ = srcGlobalAddr;
-            MATMUL_PARAM_VAR.isTransposeA_ = isTranspose;
-        }
-    }
-
-    __aicore__ inline void SetLocalAddr(const TBuffAddr& address, bool isTranspose)
-    {
-        MATMUL_PARAM_VAR.leftMatrix_ = address;
-        MATMUL_PARAM_VAR.isTransposeA_ = isTranspose;
-    }
-
     template <bool IS_TRANS = false, bool IS_INTRA_BLOCK = false>
     __aicore__ inline int32_t GetOrgHeight()
     {
@@ -311,26 +278,6 @@ public:
         return IsTranspose<IS_INTRA_BLOCK>();
     }
 
-    __aicore__ inline uint64_t GetSelfDefineData() const
-    {
-        return MATMUL_CONST_PARAM_VAR.dataPtr_;
-    }
-
-    __aicore__ inline uint64_t GetUserDefineInfo() const
-    {
-        return MATMUL_CONST_PARAM_VAR.tilingPtr_;
-    }
-
-    __aicore__ inline uint8_t GetSubBlockIdx() const
-    {
-        return MATMUL_CONST_PARAM_VAR.subBlockIdx_;
-    }
-
-    __aicore__ inline bool IsFakeIntraBlock() const
-    {
-        return MATMUL_CONST_INTRA_BLOCK.fakeMsg || MATMUL_CONST_PARAM_VAR.subBlockIdx_ == 0;
-    }
-
 #if __CCE_AICORE__ < 220
     __aicore__ inline LocalTensor<uint8_t> GetLocalWorkspace(int offset) const
     {
@@ -384,39 +331,6 @@ public:
         return MATMUL_CONST_PARAM_VAR.tiling_;
     }
 
-    template <bool IS_INTRA_BLOCK = false>
-    __aicore__ inline __gm__ SrcT* GetGlobalAddr() const
-    {
-        if constexpr (IS_INTRA_BLOCK) {
-            return MATMUL_CONST_INTRA_BLOCK.bGlobal;
-        } else {
-            return MATMUL_CONST_PARAM_VAR.bGlobal_;
-        }
-    }
-
-    __aicore__ inline TBuffAddr GetLocalAddr() const
-    {
-        return MATMUL_CONST_PARAM_VAR.rightMatrix_;
-    }
-
-    template <bool IS_INTRA_BLOCK = false>
-    __aicore__ inline void SetGlobalAddr(__gm__ SrcT* srcGlobalAddr, bool isTranspose)
-    {
-        if constexpr (IS_INTRA_BLOCK) {
-            MATMUL_INTRA_BLOCK.bGlobal = srcGlobalAddr;
-            MATMUL_INTRA_BLOCK.isTransposeB = isTranspose;
-        } else {
-            MATMUL_PARAM_VAR.bGlobal_ = srcGlobalAddr;
-            MATMUL_PARAM_VAR.isTransposeB_ = isTranspose;
-        }
-    }
-
-    __aicore__ inline void SetLocalAddr(const TBuffAddr& address, bool isTranspose)
-    {
-        MATMUL_PARAM_VAR.rightMatrix_ = address;
-        MATMUL_PARAM_VAR.isTransposeB_ = isTranspose;
-    }
-
     template <bool IS_TRANS = false, bool IS_INTRA_BLOCK = false>
     __aicore__ inline int32_t GetOrgHeight()
     {
@@ -666,26 +580,6 @@ public:
         return !IsTranspose<IS_INTRA_BLOCK>();
     }
 
-    __aicore__ inline uint64_t GetSelfDefineData() const
-    {
-        return MATMUL_CONST_PARAM_VAR.dataPtr_;
-    }
-
-    __aicore__ inline uint64_t GetUserDefineInfo() const
-    {
-        return MATMUL_CONST_PARAM_VAR.tilingPtr_;
-    }
-
-    __aicore__ inline uint8_t GetSubBlockIdx() const
-    {
-        return MATMUL_CONST_PARAM_VAR.subBlockIdx_;
-    }
-
-    __aicore__ inline bool IsFakeIntraBlock() const
-    {
-        return MATMUL_CONST_INTRA_BLOCK.fakeMsg || MATMUL_CONST_PARAM_VAR.subBlockIdx_ == 0;
-    }
-
 #if __CCE_AICORE__ < 220
     __aicore__ inline LocalTensor<uint8_t> GetLocalWorkspace(int offset) const
     {
diff --git a/impl/matmul/modules/stage/copy_cube_in/batch/batch_copy_cube_in.h b/impl/matmul/modules/stage/copy_cube_in/batch/batch_copy_cube_in.h
index 24593841..39d8a24c 100644
--- a/impl/matmul/modules/stage/copy_cube_in/batch/batch_copy_cube_in.h
+++ b/impl/matmul/modules/stage/copy_cube_in/batch/batch_copy_cube_in.h
@@ -15,14 +15,18 @@
 #ifndef IMPL_MATMUL_MODULES_STAGE_COPY_CUBE_IN_BATCH_BATCH_COPY_CUBE_IN_H
 #define IMPL_MATMUL_MODULES_STAGE_COPY_CUBE_IN_BATCH_BATCH_COPY_CUBE_IN_H
 
-#include "../copy_cube_in_intf.h"
+#include "batch_copy_cube_in_intf.h"
 #include "batch_layout.h"
+#include "../data_copy_wrapper.h"
+#include "../../../resource/cube_in_buffer/cube_in_buffer.h"
+#include "../copy_cube_in_params.h"
+#include "../../../matmul_var.h"
 
 namespace matmul {
 // Specialized Template Class of Batch Matmul CopyIn
 // Batch Matmul ND Format Data CopyIn From GM/UB
 template <typename IMPL, class INPUT_TYPE, const auto& MM_CFG>
-class CopyCubeIn<IMPL, INPUT_TYPE, MM_CFG,
+class BatchCopyCubeIn<IMPL, INPUT_TYPE, MM_CFG,
                 enable_if_t<!MatmulFeatureTrait<MM_CFG>::IsNeedUB() &&
                                   GetCopyCubeInType<INPUT_TYPE, MM_CFG>() == CopyCubeInType::BMM &&
                                   INPUT_TYPE::format == CubeFormat::ND>>
@@ -36,8 +40,8 @@ class CopyCubeIn<IMPL, INPUT_TYPE, MM_CFG,
     using SrcT = typename INPUT_TYPE::T;
 
 public:
-    inline __aicore__ CopyCubeIn() = default;
-    inline __aicore__ ~CopyCubeIn() = default;
+    inline __aicore__ BatchCopyCubeIn() = default;
+    inline __aicore__ ~BatchCopyCubeIn() = default;
 
     __aicore__ inline void Init()
     {
@@ -49,7 +53,7 @@ public:
 
     __aicore__ inline void SetInput(__gm__ SrcT *srcGlobalAddr, bool isTranspose = false)
     {
-        MATMUL_MODULE(MatmulVar)->SetGlobalAddr(srcGlobalAddr, isTranspose);
+        MATMUL_MODULE(MatmulTensorInfo)->SetGlobalAddr(srcGlobalAddr, isTranspose);
         MATMUL_MODULE(CubeInBuffer)->Reset();
     }
 
@@ -82,7 +86,7 @@ public:
     __aicore__ inline LocalTensor<TransT> LoadData(int curRow, int curCol, int tileHeight, int tileWidth)
     {
         LocalTensor<TransT> localTensor;
-        localTensor.SetAddr(MATMUL_MODULE(MatmulVar)->GetLocalAddr());
+        localTensor.SetAddr(MATMUL_MODULE(MatmulTensorInfo)->GetLocalAddr());
         return localTensor;
     }
 
@@ -130,7 +134,7 @@ private:
         for (int32_t idx = 0; idx < iterNum; ++idx) {
             dstOffset += iterOffset;
             GlobalTensor<SrcT> srcGlobal;
-            srcGlobal.SetGlobalBuffer(MATMUL_MODULE(MatmulVar)->GetGlobalAddr());
+            srcGlobal.SetGlobalBuffer(MATMUL_MODULE(MatmulTensorInfo)->GetGlobalAddr());
             srcGlobal.SetAddr(iterOffset + batchOffset);
             if (srcStride >= UINT16_MAX) {
                 for (int i = 0; i < batchNum; ++i) {
@@ -169,13 +173,13 @@ class CopyCubeIn<IMPL, INPUT_TYPE, MM_CFG,
     MATMUL_USE_MODULE_ON(CubeInBuffer, INPUT_TYPE::TAG);
     MATMUL_USE_MODULE_ON(BatchLayout, INPUT_TYPE::TAG);
     MATMUL_USE_MODULE_ON(DataCopyUtils, INPUT_TYPE::TAG);
-    MATMUL_USE_MODULE_ON(CopyCubeInParams, INPUT_TYPE::TAG);
+    MATMUL_USE_MODULE_ON(MatmulTensorInfo, INPUT_TYPE::TAG);
     using TransT = typename INPUT_TYPE::TRANS_T;
     using SrcT = typename INPUT_TYPE::T;
 
 public:
-    inline __aicore__ CopyCubeIn() = default;
-    inline __aicore__ ~CopyCubeIn() = default;
+    inline __aicore__ BatchCopyCubeIn() = default;
+    inline __aicore__ ~BatchCopyCubeIn() = default;
 
     __aicore__ inline void Init()
     {
@@ -187,7 +191,7 @@ public:
 
     __aicore__ inline void SetInput(__gm__ SrcT *srcGlobalAddr, bool isTranspose = false)
     {
-        MATMUL_MODULE(MatmulVar)->SetGlobalAddr(srcGlobalAddr, isTranspose);
+        MATMUL_MODULE(MatmulTensorInfo)->SetGlobalAddr(srcGlobalAddr, isTranspose);
         MATMUL_MODULE(CubeInBuffer)->Reset();
     }
 
@@ -215,7 +219,7 @@ public:
     __aicore__ inline LocalTensor<TransT> LoadData(int curRow, int curCol, int tileHeight, int tileWidth)
     {
         LocalTensor<TransT> localTensor;
-        localTensor.SetAddr(MATMUL_MODULE(MatmulVar)->GetLocalAddr());
+        localTensor.SetAddr(MATMUL_MODULE(MatmulTensorInfo)->GetLocalAddr());
         return localTensor;
     }
 
@@ -257,7 +261,7 @@ private:
         bool iskRowDirec = IS_KROW && IsSameTypeV<TransT, int8_t>;
 
         GlobalTensor<SrcT> srcGlobal;
-        srcGlobal.SetGlobalBuffer(MATMUL_MODULE(MatmulVar)->GetGlobalAddr());
+        srcGlobal.SetGlobalBuffer(MATMUL_MODULE(MatmulTensorInfo)->GetGlobalAddr());
         srcGlobal.SetAddr(batchOffset);
 
         int32_t alignHeight = CeilAlign(height, BLOCK_CUBE);
diff --git a/impl/matmul/modules/stage/copy_cube_in/batch/batch_copy_cube_in_intf.h b/impl/matmul/modules/stage/copy_cube_in/batch/batch_copy_cube_in_intf.h
new file mode 100644
index 00000000..396b4bd5
--- /dev/null
+++ b/impl/matmul/modules/stage/copy_cube_in/batch/batch_copy_cube_in_intf.h
@@ -0,0 +1,89 @@
+/**
+ * Copyright (c) 2024 Huawei Technologies Co., Ltd.
+ * This file is a part of the CANN Open Software.
+ * Licensed under CANN Open Software License Agreement Version 1.0 (the "License").
+ * Please refer to the License for details. You may not use this file except in compliance with the License.
+ * THIS SOFTWARE IS PROVIDED ON AN "AS IS" BASIS, WITHOUT WARRANTIES OF ANY KIND, EITHER EXPRESS OR IMPLIED,
+ * INCLUDING BUT NOT LIMITED TO NON-INFRINGEMENT, MERCHANTABILITY, OR FITNESS FOR A PARTICULAR PURPOSE.
+ * See LICENSE in the root of the software repository for the full text of the License.
+ */
+/*!
+* \file batch_copy_cube_in_intf.h
+* \brief
+*/
+
+#ifndef IMPL_MATMUL_MODULES_STAGE_BATCH_COPY_CUBE_IN_COPY_CUBE_IN_INTF_H_
+#define IMPL_MATMUL_MODULES_STAGE_BATCH_COPY_CUBE_IN_COPY_CUBE_IN_INTF_H_
+
+namespace matmul {
+using namespace AscendC;
+
+template <typename IMPL, class INPUT_TYPE, const auto &MM_CFG, typename = void>
+class BatchCopyCubeIn
+{
+    using TransT = typename INPUT_TYPE::TRANS_T;
+    using SrcT = typename INPUT_TYPE::T;
+public:
+    __aicore__ inline BatchCopyCubeIn() = default;
+    __aicore__ inline ~BatchCopyCubeIn() = default;
+    /**
+     * @description: Init of BatchCopyCubeIn
+     * @return: void
+     */
+    __aicore__ inline void Init() {}
+
+    /**
+     * @description: Set input global address
+     * @param: address: Global address input through SetTensorA or SetTensorB
+     * @param: srcGlobalAddr: true if input tensor is transposed
+     * @return: void
+     */
+    __aicore__ inline void SetInput(__gm__ SrcT* srcGlobalAddr, bool isTranspose) {}
+
+    __aicore__ inline LocalTensor<TransT> AllocTensor(int32_t iterIndex = 0) {}
+
+    __aicore__ inline void BatchLoad(LocalTensor<TransT>& dstTensor, const uint32_t matrixStride,
+                                     const int32_t outerIdx, const int32_t splitIdx, const int32_t splitSize) {}
+
+    /**
+     * @description: Load input data to L1
+     * @param: curRow: The row index of the matrixA/B to be loaded at current iterate
+     * @param: curCol: The column index of the matrixA/B to be loaded at current iterate
+     * @param: tileHeight: The height of the matrixA/B tiles to be loaded at current iterate
+     * @param: tileWidth: The width of the matrixA/B tiles to be loaded at current iterate
+     * @return: Tensor on L1
+     */
+    __aicore__ inline LocalTensor<TransT> LoadData(int curRow, int curCol, int tileHeight, int tileWidth) {
+        ASCENDC_ASSERT((false), {
+            KERNEL_LOG(KERNEL_ERROR, "Matching error. This is an empty implementation.");
+        });
+        return NULL_TENSOR<TransT>;
+    }
+
+    /**
+     * @description: Release tensor on l1 at one compute end
+     * @param: tensor: The tensor on l1 need to be released
+     * @param: curRow: The row index of the matrixA/B at current iterate
+     * @param: curCol: The column index of the matrixA/B at current iterate
+     * @return: void
+     */
+    __aicore__ inline void ClearLoadData(const LocalTensor<TransT>& tensor = NULL_TENSOR<TransT>,
+        int32_t curRow = 0, int32_t curCol = 0) {}
+
+    /*
+     * @description: Reset buffer status used in copy in
+     * @return: void
+    */
+   __aicore__ inline void Reset() {}
+    
+    /**
+     * @description: Destory tensor on l1 at iterate end
+     * @return: void
+     */
+    __aicore__ inline void Destroy() {}
+
+    __aicore__ inline void BatchDestroy() {}
+};
+
+}
+#endif // _BATCH_COPY_CUBE_IN_INTF_H_
\ No newline at end of file
diff --git a/impl/matmul/modules/stage/copy_cube_in/batch/batch_copy_cube_in_v200.h b/impl/matmul/modules/stage/copy_cube_in/batch/batch_copy_cube_in_v200.h
index 2d96842b..e7ebbea1 100644
--- a/impl/matmul/modules/stage/copy_cube_in/batch/batch_copy_cube_in_v200.h
+++ b/impl/matmul/modules/stage/copy_cube_in/batch/batch_copy_cube_in_v200.h
@@ -15,14 +15,18 @@
 #ifndef IMPL_MATMUL_MODULES_STAGE_COPY_CUBE_IN_BATCH_BATCH_COPY_CUBE_IN_V200_H
 #define IMPL_MATMUL_MODULES_STAGE_COPY_CUBE_IN_BATCH_BATCH_COPY_CUBE_IN_V200_H
 
-#include "../copy_cube_in_intf.h"
+#include "batch_copy_cube_in_intf.h"
 #include "batch_layout.h"
+#include "../data_copy_wrapper.h"
+#include "../../../resource/cube_in_buffer/cube_in_buffer.h"
+#include "../copy_cube_in_params.h"
+#include "../../../matmul_var.h"
 
 namespace matmul {
 // Specialized Template Class of Batch Matmul CopyIn
 // Batch Matmul ND Format Data CopyIn From GM/UB
 template <typename IMPL, class INPUT_TYPE, const auto& MM_CFG>
-class CopyCubeIn<IMPL, INPUT_TYPE, MM_CFG,
+class BatchCopyCubeIn<IMPL, INPUT_TYPE, MM_CFG,
                 enable_if_t<(MatmulFeatureTrait<MM_CFG>::IsNeedUB()) &&
                                   GetCopyCubeInType<INPUT_TYPE, MM_CFG>() == CopyCubeInType::BMM &&
                                   (INPUT_TYPE::format == CubeFormat::ND)>>
@@ -33,6 +37,7 @@ private:
     MATMUL_USE_MODULE_ON(DataCopyUtils, INPUT_TYPE::TAG);
     MATMUL_USE_MODULE_ON(CopyCubeInParams, INPUT_TYPE::TAG);
     MATMUL_USE_MODULE_ON(MatmulVar, INPUT_TYPE::TAG);
+    MATMUL_USE_MODULE_ON(MatmulTensorInfo, INPUT_TYPE::TAG);
 
     using TransT = typename INPUT_TYPE::TRANS_T;
     using SrcT = typename INPUT_TYPE::T;
@@ -57,8 +62,8 @@ private:
     }
 
 public:
-    inline __aicore__ CopyCubeIn() = default;
-    inline __aicore__ ~CopyCubeIn() = default;
+    inline __aicore__ BatchCopyCubeIn() = default;
+    inline __aicore__ ~BatchCopyCubeIn() = default;
 
     __aicore__ inline void Init()
     {
@@ -70,7 +75,7 @@ public:
 
     __aicore__ inline void SetInput(__gm__ SrcT *srcGlobalAddr, bool isTranspose = false)
     {
-        MATMUL_MODULE(MatmulVar)->SetGlobalAddr(srcGlobalAddr, isTranspose);
+         MATMUL_MODULE(MatmulTensorInfo)->SetGlobalAddr(srcGlobalAddr, isTranspose);
         MATMUL_MODULE(CubeInBuffer)->Reset();
     }
 
@@ -97,7 +102,7 @@ public:
     __aicore__ inline LocalTensor<TransT> LoadData(int curRow, int curCol, int tileHeight, int tileWidth)
     {
         LocalTensor<TransT> localTensor;
-        localTensor.SetAddr(MATMUL_MODULE(MatmulVar)->GetLocalAddr());
+        localTensor.SetAddr(MATMUL_MODULE(MatmulTensorInfo)->GetLocalAddr());
         return localTensor;
     }
 
@@ -305,7 +310,7 @@ private:
 // Specialized Template Class of Batch Matmul CopyIn
 // Batch Matmul NZ Format Data CopyIn From GM/UB
 template <typename IMPL, class INPUT_TYPE, const auto& MM_CFG>
-class CopyCubeIn<IMPL, INPUT_TYPE, MM_CFG,
+class BatchCopyCubeIn<IMPL, INPUT_TYPE, MM_CFG,
                 enable_if_t<(MatmulFeatureTrait<MM_CFG>::IsNeedUB()) &&
                                   GetCopyCubeInType<INPUT_TYPE, MM_CFG>() == CopyCubeInType::BMM &&
                                   (INPUT_TYPE::format == CubeFormat::NZ)>>
@@ -321,10 +326,11 @@ private:
     MATMUL_USE_MODULE_ON(BatchLayout, INPUT_TYPE::TAG);
     MATMUL_USE_MODULE_ON(DataCopyUtils, INPUT_TYPE::TAG);
     MATMUL_USE_MODULE_ON(CopyCubeInParams, INPUT_TYPE::TAG);
+    MATMUL_USE_MODULE_ON(MatmulTensorInfo, INPUT_TYPE::TAG);
 
 public:
-    inline __aicore__ CopyCubeIn() = default;
-    inline __aicore__ ~CopyCubeIn() = default;
+    inline __aicore__ BatchCopyCubeIn() = default;
+    inline __aicore__ ~BatchCopyCubeIn() = default;
 
     __aicore__ inline void Init()
     {
@@ -336,7 +342,7 @@ public:
 
     __aicore__ inline void SetInput(__gm__ SrcT *srcGlobalAddr, bool isTranspose = false)
     {
-        MATMUL_MODULE(MatmulVar)->SetGlobalAddr(srcGlobalAddr, isTranspose);
+        MATMUL_MODULE(MatmulTensorInfo)->SetGlobalAddr(srcGlobalAddr, isTranspose);
         MATMUL_MODULE(CubeInBuffer)->Reset();
     }
 
@@ -352,7 +358,7 @@ public:
         auto batchOffset =
             outerIdx * MATMUL_MODULE(BatchLayout)->GetBatchNum() * MATMUL_MODULE(CopyCubeInParams)->GetSingleSize();
         if constexpr (PhyPosIsGM(INPUT_TYPE::pos)) {
-            srcTensor.SetGlobalBuffer(MATMUL_MODULE(MatmulVar)->GetGlobalAddr());
+            srcTensor.SetGlobalBuffer(MATMUL_MODULE(MatmulTensorInfo)->GetGlobalAddr());
             srcTensor.SetAddr(batchOffset);
         } else {
             srcTensor.SetAddr(MATMUL_PARAM_VAR.leftMatrix_);
@@ -375,7 +381,7 @@ public:
     __aicore__ inline LocalTensor<TransT> LoadData(int curRow, int curCol, int tileHeight, int tileWidth)
     {
         LocalTensor<TransT> localTensor;
-        localTensor.SetAddr(MATMUL_MODULE(MatmulVar)->GetLocalAddr());
+        localTensor.SetAddr(MATMUL_MODULE(MatmulTensorInfo)->GetLocalAddr());
         return localTensor;
     }
 
diff --git a/impl/matmul/modules/stage/copy_cube_in/copy_cube_in_from_l1.h b/impl/matmul/modules/stage/copy_cube_in/copy_cube_in_from_l1.h
index 8911f296..d6baa0ef 100644
--- a/impl/matmul/modules/stage/copy_cube_in/copy_cube_in_from_l1.h
+++ b/impl/matmul/modules/stage/copy_cube_in/copy_cube_in_from_l1.h
@@ -26,6 +26,7 @@ class CopyCubeIn<IMPL, INPUT_TYPE, MM_CFG, enable_if_t<
 GetCopyCubeInType<INPUT_TYPE, MM_CFG>() == CopyCubeInType::FROM_L1>>
 {
     MATMUL_USE_MODULE_ON(MatmulVar, INPUT_TYPE::TAG);
+    MATMUL_USE_MODULE_ON(MatmulTensorInfo, INPUT_TYPE::TAG);
     using TransT = typename INPUT_TYPE::TRANS_T;
     using SrcT = typename INPUT_TYPE::T;
 
@@ -39,19 +40,19 @@ public:
 
     __aicore__ inline void SetInput(const TBuffAddr& address, bool isTranspose)
     {
-        MATMUL_MODULE(MatmulVar)->SetLocalAddr(address, isTranspose);
+        MATMUL_MODULE(MatmulTensorInfo)->SetLocalAddr(address, isTranspose);
     }
 
     __aicore__ inline void SetInput(__gm__ SrcT* srcGlobalAddr, bool isTranspose)
     {
-        MATMUL_MODULE(MatmulVar)->SetGlobalAddr(srcGlobalAddr, isTranspose);
+        MATMUL_MODULE(MatmulTensorInfo)->SetGlobalAddr(srcGlobalAddr, isTranspose);
     }
 
     __aicore__ inline LocalTensor<TransT> LoadData(
         int32_t curRow, int32_t curCol, int32_t tileHeight, int32_t tileWidth)
     {
         LocalTensor<TransT> l1;
-        l1.SetAddr(MATMUL_MODULE(MatmulVar)->GetLocalAddr());
+        l1.SetAddr(MATMUL_MODULE(MatmulTensorInfo)->GetLocalAddr());
         return l1;
     }
 
diff --git a/impl/matmul/modules/stage/copy_cube_in/copy_cube_in_mdl.h b/impl/matmul/modules/stage/copy_cube_in/copy_cube_in_mdl.h
index 5e60d5ba..03d0c566 100644
--- a/impl/matmul/modules/stage/copy_cube_in/copy_cube_in_mdl.h
+++ b/impl/matmul/modules/stage/copy_cube_in/copy_cube_in_mdl.h
@@ -30,6 +30,7 @@ class CopyCubeIn<IMPL, INPUT_TYPE, MM_CFG, enable_if_t<
     MATMUL_USE_MODULE_ON(CubeInBuffer, INPUT_TYPE::TAG);
     MATMUL_USE_MODULE_ON(CopyCubeInParams, INPUT_TYPE::TAG);
     MATMUL_USE_MODULE_ON(DataCopyUtils, INPUT_TYPE::TAG);
+    MATMUL_USE_MODULE_ON(MatmulTensorInfo, INPUT_TYPE::TAG);
     using TransT = typename INPUT_TYPE::TRANS_T;
     using SrcT = typename INPUT_TYPE::T;
 
@@ -45,13 +46,13 @@ public:
 
     __aicore__ inline void SetInput(const TBuffAddr& address, bool isTranspose)
     {
-        MATMUL_MODULE(MatmulVar)->SetLocalAddr(address, isTranspose);
+        MATMUL_MODULE(MatmulTensorInfo)->SetLocalAddr(address, isTranspose);
         MATMUL_MODULE(CubeInBuffer)->Reset();
     }
 
     __aicore__ inline void SetInput(__gm__ SrcT* srcGlobalAddr, bool isTranspose)
     {
-        MATMUL_MODULE(MatmulVar)->SetGlobalAddr(srcGlobalAddr, isTranspose);
+        MATMUL_MODULE(MatmulTensorInfo)->SetGlobalAddr(srcGlobalAddr, isTranspose);
         MATMUL_MODULE(CubeInBuffer)->Reset();
     }
 
diff --git a/impl/matmul/modules/stage/copy_cube_in/copy_cube_in_norm.h b/impl/matmul/modules/stage/copy_cube_in/copy_cube_in_norm.h
index a6ce7a64..3dd2981e 100644
--- a/impl/matmul/modules/stage/copy_cube_in/copy_cube_in_norm.h
+++ b/impl/matmul/modules/stage/copy_cube_in/copy_cube_in_norm.h
@@ -30,6 +30,8 @@ class CopyCubeIn<IMPL, INPUT_TYPE, MM_CFG, enable_if_t<
     MATMUL_USE_MODULE_ON(CubeInBuffer, INPUT_TYPE::TAG);
     MATMUL_USE_MODULE_ON(CopyCubeInParams, INPUT_TYPE::TAG);
     MATMUL_USE_MODULE_ON(DataCopyUtils, INPUT_TYPE::TAG);
+    MATMUL_USE_MODULE_ON(MatmulTensorInfo, INPUT_TYPE::TAG);
+    MATMUL_USE_MODULE(MatmulSubBlockInfo);
     using TransT = typename INPUT_TYPE::TRANS_T;
     using SrcT = typename INPUT_TYPE::T;
 
@@ -45,24 +47,24 @@ public:
 
     __aicore__ inline void SetInput(const TBuffAddr& address, bool isTranspose)
     {
-        MATMUL_MODULE(MatmulVar)->SetLocalAddr(address, isTranspose);
+        MATMUL_MODULE(MatmulTensorInfo)->SetLocalAddr(address, isTranspose);
         MATMUL_MODULE(CubeInBuffer)->Reset();
     }
 
     __aicore__ inline void SetInput(__gm__ SrcT* srcGlobalAddr, bool isTranspose)
     {
         if constexpr (ToMatmulConfig(MM_CFG).intraBlockPartSum) {
-            if (MATMUL_MODULE(MatmulVar)->GetSubBlockIdx() == 0) {
-                MATMUL_MODULE(MatmulVar)->template SetGlobalAddr<false>(srcGlobalAddr, isTranspose);
+            if (MATMUL_MODULE(MatmulSubBlockInfo)->GetSubBlockIdx() == 0) {
+                MATMUL_MODULE(MatmulTensorInfo)->template SetGlobalAddr<false>(srcGlobalAddr, isTranspose);
             } else {
-                MATMUL_MODULE(MatmulVar)->template SetGlobalAddr<true>(srcGlobalAddr, isTranspose);
+                MATMUL_MODULE(MatmulTensorInfo)->template SetGlobalAddr<true>(srcGlobalAddr, isTranspose);
             }
         } else {
-            MATMUL_MODULE(MatmulVar)->template SetGlobalAddr<false>(srcGlobalAddr, isTranspose);
+            MATMUL_MODULE(MatmulTensorInfo)->template SetGlobalAddr<false>(srcGlobalAddr, isTranspose);
         }
         MATMUL_MODULE(CubeInBuffer)->Reset();
         if constexpr (IsSameABTemplate<INPUT_TYPE, MM_CFG>()) {
-            MATMUL_MODULE(CubeInBuffer)->SetOrgAddr(MATMUL_MODULE(MatmulVar)->GetGlobalAddr());
+            MATMUL_MODULE(CubeInBuffer)->SetOrgAddr(MATMUL_MODULE(MatmulTensorInfo)->GetGlobalAddr());
         }
     }
 
@@ -81,7 +83,7 @@ public:
         } else {
             l1 = MATMUL_MODULE(CubeInBuffer)->AllocTensor(posL1);
             if constexpr (ToMatmulConfig(MM_CFG).intraBlockPartSum) {
-                if (MATMUL_MODULE(MatmulVar)->IsFakeIntraBlock()) {
+                if (MATMUL_MODULE(MatmulSubBlockInfo)->IsFakeIntraBlock()) {
                     MATMUL_MODULE(DataCopyUtils)->template CopyTileToCube<false>(
                         l1, curRow, curCol, tileHeight, tileWidth);
                 } else {
diff --git a/impl/matmul/modules/stage/copy_cube_in/copy_cube_in_using_ub.h b/impl/matmul/modules/stage/copy_cube_in/copy_cube_in_using_ub.h
index 6e7bef82..c0a7a564 100644
--- a/impl/matmul/modules/stage/copy_cube_in/copy_cube_in_using_ub.h
+++ b/impl/matmul/modules/stage/copy_cube_in/copy_cube_in_using_ub.h
@@ -42,6 +42,7 @@ class CopyCubeIn<IMPL, INPUT_TYPE, MM_CFG,
     MATMUL_USE_MODULE_ON(CubeInBuffer, INPUT_TYPE::TAG);
     MATMUL_USE_MODULE_ON(CopyCubeInParams, INPUT_TYPE::TAG);
     MATMUL_USE_MODULE_ON(MatmulVar, INPUT_TYPE::TAG);
+    MATMUL_USE_MODULE_ON(MatmulTensorInfo, INPUT_TYPE::TAG);
     using TRANS_T = typename INPUT_TYPE::TRANS_T;
     using SRC_T = typename INPUT_TYPE::T;
 
@@ -66,14 +67,14 @@ public:
     __aicore__ inline void SetInput(const TBuffAddr& address, bool isTranspose)
     {
         // do Set Local Input here
-        MATMUL_MODULE(MatmulVar)->SetLocalAddr(address, isTranspose);
+        MATMUL_MODULE(MatmulTensorInfo)->SetLocalAddr(address, isTranspose);
         MATMUL_MODULE(CubeInBuffer)->Reset();
     }
 
     __aicore__ inline void SetInput(__gm__ SRC_T *srcGlobalAddr, bool isTranspose)
     {
         // do Set Global Input here
-        MATMUL_MODULE(MatmulVar)->SetGlobalAddr(srcGlobalAddr, isTranspose);
+        MATMUL_MODULE(MatmulTensorInfo)->SetGlobalAddr(srcGlobalAddr, isTranspose);
         MATMUL_MODULE(CubeInBuffer)->Reset();
     }
 
@@ -159,7 +160,7 @@ private:
     {
         if constexpr (INPUT_TYPE::format == CubeFormat::ND) {
             GlobalTensor<SRC_T> aGlobal;
-            aGlobal.SetGlobalBuffer(MATMUL_MODULE(MatmulVar)->GetGlobalAddr());
+            aGlobal.SetGlobalBuffer(MATMUL_MODULE(MatmulTensorInfo)->GetGlobalAddr());
             if constexpr (INPUT_TYPE::TAG == InputTypeTag::B && IsSameTypeV<TRANS_T, int8_t> &&
                           IsSameTypeV<SRC_T, int8_t>) {
                 if (!MATMUL_MODULE(MatmulVar)->IsTranspose()) {
@@ -175,7 +176,7 @@ private:
             }
         } else if constexpr (INPUT_TYPE::format == CubeFormat::NZ) {
             GlobalTensor<TRANS_T> aGlobal;
-            aGlobal.SetGlobalBuffer(MATMUL_MODULE(MatmulVar)->GetGlobalAddr());
+            aGlobal.SetGlobalBuffer(MATMUL_MODULE(MatmulTensorInfo)->GetGlobalAddr());
             if constexpr (INPUT_TYPE::TAG == InputTypeTag::B && IsSameTypeV<TRANS_T, int8_t> &&
                           IsSameTypeV<SRC_T, int8_t>) {
                 if (!MATMUL_MODULE(MatmulVar)->IsTranspose()) {
@@ -196,7 +197,7 @@ private:
                 return false;
             }
             GlobalTensor<TRANS_T> aGlobal;
-            aGlobal.SetGlobalBuffer(MATMUL_MODULE(MatmulVar)->GetGlobalAddr());
+            aGlobal.SetGlobalBuffer(MATMUL_MODULE(MatmulTensorInfo)->GetGlobalAddr());
             CopyVector2A1(aMatrix, aGlobal, curCol * MATMUL_MODULE(MatmulVar)->template GetBaseWidth<IS_TRANS>(),
                           CeilT<int32_t>(tileWidth, c0Size_));
         } else {
@@ -240,7 +241,7 @@ private:
                           IsSameTypeV<SRC_T, int8_t>) {
                 if (!MATMUL_MODULE(MatmulVar)->IsTranspose()) {
                     LocalTensor<SRC_T> leftMatrix;
-                    leftMatrix.SetAddr(MATMUL_MODULE(MatmulVar)->GetLocalAddr());
+                    leftMatrix.SetAddr(MATMUL_MODULE(MatmulTensorInfo)->GetLocalAddr());
                     CopyND2NZWithTransData<IS_TRANS>(aMatrix, leftMatrix, curRow, curCol, tileHeight,
                                                      tileWidth);
                 } else {
@@ -261,7 +262,7 @@ private:
             }
         } else if constexpr (INPUT_TYPE::format == CubeFormat::NZ) {
             LocalTensor<SRC_T> leftMatrix;
-            leftMatrix.SetAddr(MATMUL_MODULE(MatmulVar)->GetLocalAddr());
+            leftMatrix.SetAddr(MATMUL_MODULE(MatmulTensorInfo)->GetLocalAddr());
             if constexpr (INPUT_TYPE::TAG == InputTypeTag::B && IsSameTypeV<TRANS_T, int8_t> &&
                           IsSameTypeV<SRC_T, int8_t>) {
                 if (!MATMUL_MODULE(MatmulVar)->IsTranspose()) {
@@ -283,7 +284,7 @@ private:
                 return false;
             }
             LocalTensor<SRC_T> leftMatrix;
-            leftMatrix.SetAddr(MATMUL_MODULE(MatmulVar)->GetLocalAddr());
+            leftMatrix.SetAddr(MATMUL_MODULE(MatmulTensorInfo)->GetLocalAddr());
             CopyVector2A1(aMatrix, leftMatrix, curCol * MATMUL_MODULE(MatmulVar)->template GetBaseWidth<IS_TRANS>(),
                           CeilT<int32_t>(tileWidth, c0Size_));
         } else {
@@ -298,7 +299,7 @@ private:
                                                      int tileHeight, int tileWidth)
     {
         LocalTensor<SRC_T> leftMatrix;
-        leftMatrix.SetAddr(MATMUL_MODULE(MatmulVar)->GetLocalAddr());
+        leftMatrix.SetAddr(MATMUL_MODULE(MatmulTensorInfo)->GetLocalAddr());
         CopyND2NZOnTheFly(
             aMatrix, leftMatrix, curRow * MATMUL_MODULE(MatmulVar)->template GetBaseHeight<IS_TRANS>(),
             curCol * MATMUL_MODULE(MatmulVar)->template GetBaseWidth<IS_TRANS>(), tileHeight, tileWidth,
diff --git a/impl/matmul/modules/stage/copy_cube_in/data_copy_wrapper.h b/impl/matmul/modules/stage/copy_cube_in/data_copy_wrapper.h
index 5af6a908..6051a398 100644
--- a/impl/matmul/modules/stage/copy_cube_in/data_copy_wrapper.h
+++ b/impl/matmul/modules/stage/copy_cube_in/data_copy_wrapper.h
@@ -34,6 +34,7 @@ class DataCopyWrapper {
 
     MATMUL_USE_MODULE_ON(MatmulVar, INPUT_TYPE::TAG);
     MATMUL_USE_MODULE_ON(CopyCubeInParams, INPUT_TYPE::TAG);
+    MATMUL_USE_MODULE_ON(MatmulTensorInfo, INPUT_TYPE::TAG);
 
 public:
     __aicore__ inline DataCopyWrapper() = default;
@@ -47,28 +48,28 @@ public:
         if (INPUT_TYPE::TAG == InputTypeTag::A && IMPL::CallBack::CopyA1Ptr) {
             LocalTensor<int8_t> tmpDst = dst.template ReinterpretCast<int8_t>();
             (IMPL::CallBack::CopyA1Ptr)(tmpDst,
-                reinterpret_cast<__gm__ void *>(MATMUL_MODULE(MatmulVar)->template GetGlobalAddr<IS_INTRA_BLOCK>()),
-                curRow, curCol, tileHeight, tileWidth, MATMUL_MODULE(MatmulVar)->GetUserDefineInfo(),
-                MATMUL_MODULE(MatmulVar)->GetSelfDefineData());
+                reinterpret_cast<__gm__ void *>(MATMUL_MODULE(MatmulTensorInfo)->template GetGlobalAddr<IS_INTRA_BLOCK>()),
+                curRow, curCol, tileHeight, tileWidth, MATMUL_MODULE(MatmulTensorInfo)->GetUserDefineInfo(),
+                MATMUL_MODULE(MatmulTensorInfo)->GetSelfDefineData());
         } else if (INPUT_TYPE::TAG == InputTypeTag::B && IMPL::CallBack::CopyB1Ptr) {
             LocalTensor<int8_t> tmpDst = dst.template ReinterpretCast<int8_t>();
             (IMPL::CallBack::CopyB1Ptr)(tmpDst,
-                reinterpret_cast<__gm__ void *>(MATMUL_MODULE(MatmulVar)->template GetGlobalAddr<IS_INTRA_BLOCK>()),
-                curRow, curCol, tileHeight, tileWidth, MATMUL_MODULE(MatmulVar)->GetUserDefineInfo(),
-                MATMUL_MODULE(MatmulVar)->GetSelfDefineData());
+                reinterpret_cast<__gm__ void *>(MATMUL_MODULE(MatmulTensorInfo)->template GetGlobalAddr<IS_INTRA_BLOCK>()),
+                curRow, curCol, tileHeight, tileWidth, MATMUL_MODULE(MatmulTensorInfo)->GetUserDefineInfo(),
+                MATMUL_MODULE(MatmulTensorInfo)->GetSelfDefineData());
 #else
         if constexpr (INPUT_TYPE::TAG == InputTypeTag::A && IMPL::CallBack::CopyA1Ptr) {
             LocalTensor<int8_t> tmpDst = dst.template ReinterpretCast<int8_t>();
             (IMPL::CallBack::CopyA1Ptr)(tmpDst,
-                reinterpret_cast<__gm__ void *>(MATMUL_MODULE(MatmulVar)->template GetGlobalAddr<IS_INTRA_BLOCK>()),
-                curRow, curCol, tileHeight, tileWidth, MATMUL_MODULE(MatmulVar)->GetUserDefineInfo(),
-                MATMUL_MODULE(MatmulVar)->GetSelfDefineData());
+                reinterpret_cast<__gm__ void *>(MATMUL_MODULE(MatmulTensorInfo)->template GetGlobalAddr<IS_INTRA_BLOCK>()),
+                curRow, curCol, tileHeight, tileWidth, MATMUL_MODULE(MatmulTensorInfo)->GetUserDefineInfo(),
+                MATMUL_MODULE(MatmulTensorInfo)->GetSelfDefineData());
         } else if constexpr (INPUT_TYPE::TAG == InputTypeTag::B && IMPL::CallBack::CopyB1Ptr) {
             LocalTensor<int8_t> tmpDst = dst.template ReinterpretCast<int8_t>();
             (IMPL::CallBack::CopyB1Ptr)(tmpDst,
-                reinterpret_cast<__gm__ void *>(MATMUL_MODULE(MatmulVar)->template GetGlobalAddr<IS_INTRA_BLOCK>()),
-                curRow, curCol, tileHeight, tileWidth, MATMUL_MODULE(MatmulVar)->GetUserDefineInfo(),
-                MATMUL_MODULE(MatmulVar)->GetSelfDefineData());
+                reinterpret_cast<__gm__ void *>(MATMUL_MODULE(MatmulTensorInfo)->template GetGlobalAddr<IS_INTRA_BLOCK>()),
+                curRow, curCol, tileHeight, tileWidth, MATMUL_MODULE(MatmulTensorInfo)->GetUserDefineInfo(),
+                MATMUL_MODULE(MatmulTensorInfo)->GetSelfDefineData());
 #endif
         } else {
             constexpr int32_t widthFactor =
@@ -76,7 +77,7 @@ public:
             if (MATMUL_MODULE(MatmulVar)->template IsTranspose<IS_INTRA_BLOCK>()) {
                 if constexpr (IsCopyFromUB<INPUT_TYPE, MM_CFG>()) {
                     LocalTensor<SrcT> src;
-                    src.SetAddr(MATMUL_MODULE(MatmulVar)->GetLocalAddr());
+                    src.SetAddr(MATMUL_MODULE(MatmulTensorInfo)->GetLocalAddr());
                     CopyTileToCubeFromUB(
                         dst, src, curCol, curRow, tileWidth, tileHeight / widthFactor,
                         MATMUL_MODULE(MatmulVar)->template GetBaseHeight<true>(),
@@ -86,7 +87,7 @@ public:
                         MATMUL_MODULE(MatmulVar)->template IsKRowDirec<IS_INTRA_BLOCK>());
                 } else {
                     GlobalTensor<SrcT> src;
-                    src.SetGlobalBuffer(MATMUL_MODULE(MatmulVar)->template GetGlobalAddr<IS_INTRA_BLOCK>());
+                    src.SetGlobalBuffer(MATMUL_MODULE(MatmulTensorInfo)->template GetGlobalAddr<IS_INTRA_BLOCK>());
                     CopyTileToCubeFromGM(dst, src, curCol, curRow, tileWidth, tileHeight / widthFactor,
                         MATMUL_MODULE(MatmulVar)->template GetBaseHeight<true>(),
                         MATMUL_MODULE(MatmulVar)->template GetBaseWidth<true>(),
@@ -108,7 +109,7 @@ public:
                         MATMUL_MODULE(MatmulVar)->template IsKRowDirec<IS_INTRA_BLOCK>());
                 } else {
                     GlobalTensor<SrcT> src;
-                    src.SetGlobalBuffer(MATMUL_MODULE(MatmulVar)->template GetGlobalAddr<IS_INTRA_BLOCK>());
+                    src.SetGlobalBuffer(MATMUL_MODULE(MatmulTensorInfo)->template GetGlobalAddr<IS_INTRA_BLOCK>());
                     CopyTileToCubeFromGM(
                         dst, src, curRow, curCol, tileHeight, tileWidth / widthFactor,
                         MATMUL_MODULE(MatmulVar)->template GetBaseHeight<false>(),
diff --git a/lib/matmul/matmul.h b/lib/matmul/matmul.h
index 4dc14ba3..4ad25722 100644
--- a/lib/matmul/matmul.h
+++ b/lib/matmul/matmul.h
@@ -62,6 +62,11 @@ class MatmulImpl
 , MATMUL_IMPORT_MODULE_PRIVATE(MatmulVarA)
 , MATMUL_IMPORT_MODULE_PRIVATE(MatmulVarB)
 , MATMUL_IMPORT_MODULE_PRIVATE(MatmulVarC)
+, MATMUL_IMPORT_MODULE_PRIVATE(BatchCopyCubeInA)
+, MATMUL_IMPORT_MODULE_PRIVATE(BatchCopyCubeInB)
+, MATMUL_IMPORT_MODULE_PRIVATE(MatmulTensorInfoA)
+, MATMUL_IMPORT_MODULE_PRIVATE(MatmulTensorInfoB)
+, MATMUL_IMPORT_MODULE_PRIVATE(MatmulSubBlockInfo)
 #if __CCE_AICORE__ == 220 || __CCE_AICORE__ == 300 || __CCE_AICORE__ == 200
 , MatmulMacroImpl<MatmulImpl<A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, MM_CB, MATMUL_POLICY_TEMPLATE>,
  A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, GetMatmulVersion(MM_CFG)>::PARAMS
@@ -251,6 +256,13 @@ public:
     MATMUL_ALLOW_USING_PRIVATE(MatmulVarA);
     MATMUL_ALLOW_USING_PRIVATE(MatmulVarB);
     MATMUL_ALLOW_USING_PRIVATE(MatmulVarC);
+    MATMUL_ALLOW_USING_PRIVATE(BatchCopyCubeInA);
+    MATMUL_ALLOW_USING_PRIVATE(BatchCopyCubeInB);
+    MATMUL_ALLOW_USING_PRIVATE(MatmulTensorInfoA);
+    MATMUL_ALLOW_USING_PRIVATE(MatmulTensorInfoB);
+    MATMUL_ALLOW_USING_PRIVATE(MatmulSubBlockInfo);
+    MATMUL_ALLOW_USING_PRIVATE(BatchCopyCubeInA);
+    MATMUL_ALLOW_USING_PRIVATE(BatchCopyCubeInB);
     template<InputTypeTag TAG>
     using CubeInBuffer = typename AscendC::Conditional<TAG == InputTypeTag::A, CubeInBufferA, CubeInBufferB>::type;
     template<InputTypeTag TAG>
@@ -272,6 +284,17 @@ private:
     using IMPL = MatmulImpl<A_TYPE, B_TYPE, C_TYPE, BIAS_TYPE, MM_CFG, MM_CB, MATMUL_POLICY>;
     MATMUL_USE_MODULE(CopyCubeInA);
     MATMUL_USE_MODULE(CopyCubeInB);
+    MATMUL_USE_MODULE(BatchCopyCubeInA);
+    MATMUL_USE_MODULE(BatchCopyCubeInB);
+
+    using ChosenCopyCubeInA = typename AscendC::Conditional<GetCopyCubeInType<A_TYPE, MM_CFG>() != CopyCubeInType::BMM,
+                                                            CopyCubeInA, BatchCopyCubeInA>::type;
+
+    using ChosenCopyCubeInB = typename AscendC::Conditional<GetCopyCubeInType<B_TYPE, MM_CFG>() != CopyCubeInType::BMM,
+                                                            CopyCubeInB, BatchCopyCubeInB>::type;
+
+    MATMUL_USE_MODULE(ChosenCopyCubeInA);
+    MATMUL_USE_MODULE(ChosenCopyCubeInB);
 
 private:
     template <class A_TYPE_, class B_TYPE_, class C_TYPE_, class BIAS_TYPE_, const auto &MM_CFG_, class MM_CB_,
diff --git a/tests/matmul/copy_cube_in/test_copy_cube_in_mdl.cpp b/tests/matmul/copy_cube_in/test_copy_cube_in_mdl.cpp
index 1e1fc4e7..1e5f3853 100644
--- a/tests/matmul/copy_cube_in/test_copy_cube_in_mdl.cpp
+++ b/tests/matmul/copy_cube_in/test_copy_cube_in_mdl.cpp
@@ -103,7 +103,11 @@ class MatmulImpl
 , MATMUL_IMPORT_MODULE_PRIVATE(MatmulVarA)
 , MATMUL_IMPORT_MODULE_PRIVATE(CopyCubeInParamsB)
 , MATMUL_IMPORT_MODULE_PRIVATE(DataCopyUtilsB)
-, MATMUL_IMPORT_MODULE_PRIVATE(MatmulVarB) {
+, MATMUL_IMPORT_MODULE_PRIVATE(MatmulVarB)
+, MATMUL_IMPORT_MODULE_PRIVATE(MatmulTensorInfoA)
+, MATMUL_IMPORT_MODULE_PRIVATE(MatmulTensorInfoB)
+, MATMUL_IMPORT_MODULE_PRIVATE(MatmulSubBlockInfo)
+{
     MATMUL_ALLOW_USING(CopyCubeInA);
     MATMUL_ALLOW_USING(CubeInBufferA);
     MATMUL_ALLOW_USING_PRIVATE(CopyCubeInParamsA);
@@ -113,6 +117,9 @@ class MatmulImpl
     MATMUL_ALLOW_USING_PRIVATE(CopyCubeInParamsB);
     MATMUL_ALLOW_USING_PRIVATE(DataCopyUtilsB);
     MATMUL_ALLOW_USING_PRIVATE(MatmulVarB);
+    MATMUL_ALLOW_USING_PRIVATE(MatmulTensorInfoA);
+    MATMUL_ALLOW_USING_PRIVATE(MatmulTensorInfoB);
+    MATMUL_ALLOW_USING_PRIVATE(MatmulSubBlockInfo);
 
     using SrcT = typename A_TYPE::T;
 
@@ -128,6 +135,8 @@ public:
     template<InputTypeTag TAG>
     using MatmulVar = typename AscendC::Conditional<TAG == InputTypeTag::A, MatmulVarA, MatmulVarB>::type;
     template<InputTypeTag TAG>
+    using MatmulTensorInfo = typename AscendC::Conditional<TAG == InputTypeTag::A, MatmulTensorInfoA, MatmulTensorInfoB>::type;
+    template<InputTypeTag TAG>
     using DataCopyUtils = typename AscendC::Conditional<TAG == InputTypeTag::A, DataCopyUtilsA, DataCopyUtilsB>::type;
     using CallBack = MM_CB;
 
diff --git a/tests/matmul/copy_cube_in/test_copy_cube_in_mdl_310p.cpp b/tests/matmul/copy_cube_in/test_copy_cube_in_mdl_310p.cpp
index cc3ca7ac..214083eb 100644
--- a/tests/matmul/copy_cube_in/test_copy_cube_in_mdl_310p.cpp
+++ b/tests/matmul/copy_cube_in/test_copy_cube_in_mdl_310p.cpp
@@ -102,7 +102,11 @@ class MatmulImpl
 , MATMUL_IMPORT_MODULE_PRIVATE(CopyCubeInParamsA)
 , MATMUL_IMPORT_MODULE_PRIVATE(MatmulVarA)
 , MATMUL_IMPORT_MODULE_PRIVATE(CopyCubeInParamsB)
-, MATMUL_IMPORT_MODULE_PRIVATE(MatmulVarB) {
+, MATMUL_IMPORT_MODULE_PRIVATE(MatmulVarB)
+, MATMUL_IMPORT_MODULE_PRIVATE(MatmulTensorInfoA)
+, MATMUL_IMPORT_MODULE_PRIVATE(MatmulTensorInfoB)
+, MATMUL_IMPORT_MODULE_PRIVATE(MatmulSubBlockInfo)
+{
     MATMUL_ALLOW_USING(CopyCubeInA);
     MATMUL_ALLOW_USING(CopyCubeInB);
     MATMUL_ALLOW_USING(CubeInBufferA);
@@ -111,6 +115,9 @@ class MatmulImpl
     MATMUL_ALLOW_USING_PRIVATE(MatmulVarA);
     MATMUL_ALLOW_USING_PRIVATE(CopyCubeInParamsB);
     MATMUL_ALLOW_USING_PRIVATE(MatmulVarB);
+    MATMUL_ALLOW_USING_PRIVATE(MatmulTensorInfoA);
+    MATMUL_ALLOW_USING_PRIVATE(MatmulTensorInfoB);
+    MATMUL_ALLOW_USING_PRIVATE(MatmulSubBlockInfo);
 
     using SrcT = typename A_TYPE::T;
     using SrcBT = typename B_TYPE::T;
@@ -127,6 +134,8 @@ public:
     template<InputTypeTag TAG>
     using MatmulVar = typename AscendC::Conditional<TAG == InputTypeTag::A, MatmulVarA, MatmulVarB>::type;
     using CallBack = MM_CB;
+    template<InputTypeTag TAG>
+    using MatmulTensorInfo = typename AscendC::Conditional<TAG == InputTypeTag::A, MatmulTensorInfoA, MatmulTensorInfoB>::type;
 
     MATMUL_USE_MODULE(CopyCubeInA);
     MATMUL_USE_MODULE(CopyCubeInB);
diff --git a/tests/matmul/copy_cube_in/test_copy_cube_in_norm.cpp b/tests/matmul/copy_cube_in/test_copy_cube_in_norm.cpp
index 44c7ac40..a7f58863 100644
--- a/tests/matmul/copy_cube_in/test_copy_cube_in_norm.cpp
+++ b/tests/matmul/copy_cube_in/test_copy_cube_in_norm.cpp
@@ -103,7 +103,11 @@ class MatmulImpl
 , MATMUL_IMPORT_MODULE_PRIVATE(MatmulVarA)
 , MATMUL_IMPORT_MODULE_PRIVATE(CopyCubeInParamsB)
 , MATMUL_IMPORT_MODULE_PRIVATE(DataCopyUtilsB)
-, MATMUL_IMPORT_MODULE_PRIVATE(MatmulVarB) {
+, MATMUL_IMPORT_MODULE_PRIVATE(MatmulVarB)
+, MATMUL_IMPORT_MODULE_PRIVATE(MatmulTensorInfoA)
+, MATMUL_IMPORT_MODULE_PRIVATE(MatmulTensorInfoB)
+, MATMUL_IMPORT_MODULE_PRIVATE(MatmulSubBlockInfo)
+{
     MATMUL_ALLOW_USING(CopyCubeInA);
     MATMUL_ALLOW_USING(CubeInBufferA);
     MATMUL_ALLOW_USING_PRIVATE(CopyCubeInParamsA);
@@ -113,6 +117,9 @@ class MatmulImpl
     MATMUL_ALLOW_USING_PRIVATE(CopyCubeInParamsB);
     MATMUL_ALLOW_USING_PRIVATE(DataCopyUtilsB);
     MATMUL_ALLOW_USING_PRIVATE(MatmulVarB);
+    MATMUL_ALLOW_USING_PRIVATE(MatmulTensorInfoA);
+    MATMUL_ALLOW_USING_PRIVATE(MatmulTensorInfoB);
+    MATMUL_ALLOW_USING_PRIVATE(MatmulSubBlockInfo);
 
     using SrcT = typename A_TYPE::T;
 
@@ -128,6 +135,8 @@ public:
     template<InputTypeTag TAG>
     using MatmulVar = typename AscendC::Conditional<TAG == InputTypeTag::A, MatmulVarA, MatmulVarB>::type;
     template<InputTypeTag TAG>
+    using MatmulTensorInfo = typename AscendC::Conditional<TAG == InputTypeTag::A, MatmulTensorInfoA, MatmulTensorInfoB>::type;
+    template<InputTypeTag TAG>
     using DataCopyUtils = typename AscendC::Conditional<TAG == InputTypeTag::A, DataCopyUtilsA, DataCopyUtilsB>::type;
     using CallBack = MM_CB;
 
diff --git a/tests/matmul/copy_cube_in/test_copy_cube_in_norm_310p.cpp b/tests/matmul/copy_cube_in/test_copy_cube_in_norm_310p.cpp
index 930b5ffd..682e6c85 100644
--- a/tests/matmul/copy_cube_in/test_copy_cube_in_norm_310p.cpp
+++ b/tests/matmul/copy_cube_in/test_copy_cube_in_norm_310p.cpp
@@ -102,7 +102,11 @@ class MatmulImpl
 , MATMUL_IMPORT_MODULE_PRIVATE(CopyCubeInParamsA)
 , MATMUL_IMPORT_MODULE_PRIVATE(MatmulVarA)
 , MATMUL_IMPORT_MODULE_PRIVATE(CopyCubeInParamsB)
-, MATMUL_IMPORT_MODULE_PRIVATE(MatmulVarB) {
+, MATMUL_IMPORT_MODULE_PRIVATE(MatmulVarB)
+, MATMUL_IMPORT_MODULE_PRIVATE(MatmulTensorInfoA)
+, MATMUL_IMPORT_MODULE_PRIVATE(MatmulTensorInfoB)
+, MATMUL_IMPORT_MODULE_PRIVATE(MatmulSubBlockInfo)
+{
     MATMUL_ALLOW_USING(CopyCubeInA);
     MATMUL_ALLOW_USING(CopyCubeInB);
     MATMUL_ALLOW_USING(CubeInBufferA);
@@ -111,6 +115,9 @@ class MatmulImpl
     MATMUL_ALLOW_USING_PRIVATE(MatmulVarA);
     MATMUL_ALLOW_USING_PRIVATE(CopyCubeInParamsB);
     MATMUL_ALLOW_USING_PRIVATE(MatmulVarB);
+    MATMUL_ALLOW_USING_PRIVATE(MatmulTensorInfoA);
+    MATMUL_ALLOW_USING_PRIVATE(MatmulTensorInfoB);
+    MATMUL_ALLOW_USING_PRIVATE(MatmulSubBlockInfo);
 
     using SrcT = typename A_TYPE::T;
     using SrcBT = typename B_TYPE::T;
@@ -127,6 +134,8 @@ public:
     template<InputTypeTag TAG>
     using MatmulVar = typename AscendC::Conditional<TAG == InputTypeTag::A, MatmulVarA, MatmulVarB>::type;
     using CallBack = MM_CB;
+    template<InputTypeTag TAG>
+    using MatmulTensorInfo = typename AscendC::Conditional<TAG == InputTypeTag::A, MatmulTensorInfoA, MatmulTensorInfoB>::type;
 
     MATMUL_USE_MODULE(CopyCubeInA);
     MATMUL_USE_MODULE(CopyCubeInB);
diff --git a/tests/matmul/test_matmul_var.cpp b/tests/matmul/test_matmul_var.cpp
index 89b56ef4..e36c73b0 100644
--- a/tests/matmul/test_matmul_var.cpp
+++ b/tests/matmul/test_matmul_var.cpp
@@ -11,6 +11,7 @@
 #include "impl/matmul/modules/matmul_policy.h"
 #include "impl/matmul/modules/matmul_private_modules.h"
 #define private public
+#include "impl/matmul/modules/matmul_tensor_info.h"
 #include "impl/matmul/modules/matmul_var.h"
 
 using namespace std;
@@ -20,8 +21,12 @@ using namespace matmul;
 namespace {
 template <class A_TYPE, class B_TYPE, class C_TYPE, class BIAS_TYPE, const MatmulConfig& MM_CFG, class MM_CB,
 MATMUL_POLICY_DEFAULT_OF(MatmulPolicy)>
-class MatmulImpl : MATMUL_IMPORT_MODULE_PRIVATE(MatmulVarB) {
+class MatmulImpl
+: MATMUL_IMPORT_MODULE_PRIVATE(MatmulVarB)
+, MATMUL_IMPORT_MODULE_PRIVATE(MatmulTensorInfoB)
+{
     MATMUL_ALLOW_USING_PRIVATE(MatmulVarB);
+    MATMUL_ALLOW_USING_PRIVATE(MatmulTensorInfoB);
     using SrcT = typename A_TYPE::T;
 public:
     using VAR_PARAMS =
-- 
Gitee


From e1c46747c934e53803728386e05e37643b906845 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E5=A7=9C=E6=B3=BD=E4=B8=9C?= <jiangzedong2@hisilicon.com>
Date: Wed, 13 Nov 2024 03:03:04 +0000
Subject: [PATCH 2/2] fix error
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: 姜泽东 <jiangzedong2@hisilicon.com>
---
 lib/matmul/matmul.h | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/lib/matmul/matmul.h b/lib/matmul/matmul.h
index 4ad25722..09df3814 100644
--- a/lib/matmul/matmul.h
+++ b/lib/matmul/matmul.h
@@ -276,6 +276,8 @@ public:
     template<InputTypeTag TAG>
     using MatmulVar = typename AscendC::Conditional<TAG == InputTypeTag::A, MatmulVarA, MatmulVarB>::type;
     template<InputTypeTag TAG>
+    using MatmulTensorInfo = typename AscendC::Conditional<TAG == InputTypeTag::A, MatmulTensorInfoA, MatmulTensorInfoB>::type;
+    template<InputTypeTag TAG>
     using DataCopyUtils = typename AscendC::Conditional<TAG == InputTypeTag::A, DataCopyUtilsA, DataCopyUtilsB>::type;
     using CallBack = MM_CB;
 
-- 
Gitee