Revert SDPA changes (#5078)

YizhouZ · web-flow · commit f5a6a2be305e · 2024-11-22T14:14:37.000+08:00
* Revert "[SDP] aten::scaled_dot_product_attention applies different format support in mha kernel (#4885)" This reverts commit cd81509. * Revert "[SDP][FWD] support dynamic memory format (#4776)" This reverts commit 7cb5af5.
diff --git a/csrc/gpu/aten/operators/transformers/attention.cpp b/csrc/gpu/aten/operators/transformers/attention.cpp
@@ -41,9 +41,9 @@ std::tuple<Tensor, Tensor, Tensor, Tensor> ipex_sdp_dropout_backward(
     c10::optional<double> scale);
 
 inline Tensor _scaled_dot_product_efficient_attention_impl(
-    const Tensor& query,
-    const Tensor& key,
-    const Tensor& value,
+    const Tensor& _query,
+    const Tensor& _key,
+    const Tensor& _value,
     const c10::optional<Tensor>& attn_mask,
     const c10::optional<at::Tensor>& dropout_mask,
     const c10::optional<at::Tensor>& seed_t,
@@ -63,10 +63,10 @@ inline Tensor _scaled_dot_product_efficient_attention_impl(
     attn_mask_padded_block_size = alignTo * ((lastDim + alignTo - 1) / alignTo);
   }
 
-  // check q, k, v
-  CHECK_NOSPARSE_LASTCONTIGUOUS_XPU(query);
-  CHECK_NOSPARSE_LASTCONTIGUOUS_XPU(key);
-  CHECK_NOSPARSE_LASTCONTIGUOUS_XPU(value);
+  // make q, k, v strided
+  auto query = _query.transpose(1, 2).contiguous().transpose(1, 2);
+  auto key = _key.transpose(1, 2).contiguous().transpose(1, 2);
+  auto value = _value.transpose(1, 2).contiguous().transpose(1, 2);
 
   // create strided output
   // size [bs, num_head, qsize, head_size]
@@ -102,12 +102,7 @@ inline Tensor _scaled_dot_product_efficient_attention_impl(
        query.size(3),
        query.size(2),
        key.size(2),
-       query.stride(0),
-       query.stride(1),
        query.stride(2),
-       key.stride(0),
-       key.stride(1),
-       key.stride(2),
        attn_mask.has_value() ? attn_mask->stride(0) : -1,
        attn_mask.has_value() ? attn_mask->stride(1) : -1,
        attn_mask.has_value() ? attn_mask->stride(2) : -1,
@@ -1134,12 +1129,7 @@ Tensor varlen_fwd(
        head_dim,
        num_queries,
        num_keys,
-       /* q_strideB */ query.stride(0),
-       /* q_strideN */ query.stride(1),
        /* q_strideF */ query.stride(2),
-       /* kv_strideB */ key.stride(0),
-       /* kv_strideN */ key.stride(1),
-       /* kv_strideT */ key.stride(2),
        /* bias_strideB */ -1,
        /* bias_strideN */ -1,
        /* bias_strideF */ -1,
@@ -1255,12 +1245,7 @@ Tensor xetla_fsdp_forward_atten_mask_alibi_strided(
        head_dim,
        M,
        N,
-       query.stride(0),
-       query.stride(1),
        query.stride(2),
-       key.stride(0),
-       key.stride(1),
-       key.stride(2),
        attn_mask.has_value() ? attn_mask_bc.stride(0) : -1,
        attn_mask.has_value() ? attn_mask_bc.stride(1) : -1,
        attn_mask.has_value() ? attn_mask_bc.stride(2) : -1,
diff --git a/csrc/gpu/aten/operators/transformers/sdp_utils.h b/csrc/gpu/aten/operators/transformers/sdp_utils.h
@@ -20,12 +20,6 @@
 using namespace gpu::xetla;
 #endif
 
-#define CHECK_NOSPARSE_LASTCONTIGUOUS_XPU(TENSOR)                      \
-  TORCH_CHECK(TENSOR.is_xpu(), #TENSOR " must be a XPU tensor");       \
-  TORCH_CHECK(!TENSOR.is_sparse(), #TENSOR " must be a dense tensor"); \
-  TORCH_CHECK(                                                         \
-      TENSOR.stride(-1) == 1, #TENSOR ": last dimension must be contiguous");
-
 using namespace at;
 using namespace torch_ipex::xpu::dpcpp;
 
diff --git a/csrc/gpu/aten/operators/xetla/kernels/SDP/fmha_forward.hpp b/csrc/gpu/aten/operators/xetla/kernels/SDP/fmha_forward.hpp
@@ -49,12 +49,7 @@ class fmha_forward_t {
     uint32_t uH;
     uint32_t uF;
     uint32_t uT;
-    uint32_t q_strideB;
-    uint32_t q_strideN;
-    uint32_t q_strideF;
-    uint32_t kv_strideB;
-    uint32_t kv_strideN;
-    uint32_t kv_strideT;
+    uint64_t q_strideF;
     uint32_t bias_strideB;
     uint32_t bias_strideN;
     uint32_t bias_strideF;
@@ -89,12 +84,7 @@ class fmha_forward_t {
         uint32_t head_size,
         uint32_t num_queries,
         uint32_t num_keys,
-        uint32_t q_strideB,
-        uint32_t q_strideN,
-        uint32_t q_strideF,
-        uint32_t kv_strideB,
-        uint32_t kv_strideN,
-        uint32_t kv_strideT,
+        uint64_t q_strideF,
         uint32_t bias_strideB,
         uint32_t bias_strideN,
         uint32_t bias_strideF,
@@ -121,12 +111,7 @@ class fmha_forward_t {
           uH(head_size),
           uF(num_queries),
           uT(num_keys),
-          q_strideB(q_strideB),
-          q_strideN(q_strideN),
           q_strideF(q_strideF),
-          kv_strideB(kv_strideB),
-          kv_strideN(kv_strideN),
-          kv_strideT(kv_strideT),
           bias_strideB(bias_strideB),
           bias_strideN(bias_strideN),
           bias_strideF(bias_strideF),
@@ -318,25 +303,21 @@ class fmha_forward_t {
         mem_desc_Oi.init(
             args.O_ptr, {end_x, end_y, ld_qo}, {start_acc, start_y});
       } else { // 2d mem: [BxF, NxH]
-        uint32_t ptr_offset =
-            batch_id * args.q_strideB + head_id * args.q_strideN;
-        auto Q_ptr = args.Q_ptr + ptr_offset;
-        auto O_ptr = args.O_ptr + ptr_offset;
-
         // startF
-        int32_t start_y = item.get_group(1) * kBr;
+        int32_t start_y = batch_id * args.uF + item.get_group(1) * kBr;
         uint32_t end_y = start_y + kBr;
         // boundaryF
-        uint32_t boundary_y = args.uF;
+        uint32_t boundary_y = (batch_id + 1) * args.uF;
         end_y = end_y > boundary_y ? boundary_y : end_y;
 
-        int32_t start_acc = 0;
+        int32_t start_acc = head_id * args.uH;
         uint32_t end_acc = start_acc + args.uH;
+        const uint32_t ld_o = args.uH * args.uN;
 
         mem_desc_Qi.init(
-            Q_ptr, {end_acc, end_y, args.q_strideF}, {start_acc, start_y});
+            args.Q_ptr, {end_acc, end_y, args.q_strideF}, {start_acc, start_y});
         mem_desc_Oi.init(
-            O_ptr, {end_acc, end_y, args.q_strideF}, {start_acc, start_y});
+            args.O_ptr, {end_acc, end_y, ld_o}, {start_acc, start_y});
       }
 
       int32_t start_x_ml = item.get_group(1) * kBr + sg_idy * kSgBr;
@@ -394,23 +375,22 @@ class fmha_forward_t {
             {start_acc, start_x});
 
       } else {
-        uint32_t ptr_offset =
-            batch_id * args.kv_strideB + head_id_kv * args.kv_strideN;
-        auto K_ptr = args.K_ptr + ptr_offset;
-        auto V_ptr = args.V_ptr + ptr_offset;
-
-        int32_t start_x = startT;
+        int32_t start_x = batch_id * args.uT + startT;
         uint32_t end_x = start_x + kBc;
-        uint32_t boundary_x = args.uT;
+        uint32_t boundary_x = (batch_id + 1) * args.uT;
         end_x = end_x > boundary_x ? boundary_x : end_x;
 
-        int32_t start_acc = 0;
+        int32_t start_acc = head_id_kv * args.uH;
         uint32_t end_acc = start_acc + args.uH;
 
         mem_desc_Kj_T.init(
-            K_ptr, {end_x, end_acc, args.kv_strideT}, {start_x, start_acc});
+            args.K_ptr,
+            {end_x, end_acc, args.uH * args.uNkv},
+            {start_x, start_acc});
         mem_desc_Vj.init(
-            V_ptr, {end_acc, end_x, args.kv_strideT}, {start_acc, start_x});
+            args.V_ptr,
+            {end_acc, end_x, args.uH * args.uNkv},
+            {start_acc, start_x});
       }
 
       // B, N, 1, T
diff --git a/csrc/gpu/aten/operators/xetla/kernels/SDP/fmha_forward_kernel.hpp b/csrc/gpu/aten/operators/xetla/kernels/SDP/fmha_forward_kernel.hpp
@@ -33,12 +33,7 @@ struct dispatch_fmha_forward_args_t {
   uint32_t head_size;
   uint32_t num_queries;
   uint32_t num_keys;
-  uint32_t q_strideB;
-  uint32_t q_strideN;
-  uint32_t q_strideF;
-  uint32_t kv_strideB;
-  uint32_t kv_strideN;
-  uint32_t kv_strideT;
+  uint64_t q_strideF;
   uint32_t bias_strideB;
   uint32_t bias_strideN;
   uint32_t bias_strideF;
@@ -65,12 +60,7 @@ struct dispatch_fmha_forward_args_t {
         head_size(args.head_size),
         num_queries(args.num_queries),
         num_keys(args.num_keys),
-        q_strideB(args.q_strideB),
-        q_strideN(args.q_strideN),
         q_strideF(args.q_strideF),
-        kv_strideB(args.kv_strideB),
-        kv_strideN(args.kv_strideN),
-        kv_strideT(args.kv_strideT),
         bias_strideB(args.bias_strideB),
         bias_strideN(args.bias_strideN),
         bias_strideF(args.bias_strideF),
@@ -137,12 +127,7 @@ struct FmhaForwardKernelFunctor {
           args.head_size,
           args.num_queries,
           args.num_keys,
-          args.q_strideB,
-          args.q_strideN,
           args.q_strideF,
-          args.kv_strideB,
-          args.kv_strideN,
-          args.kv_strideT,
           args.bias_strideB,
           args.bias_strideN,
           args.bias_strideF,
diff --git a/csrc/gpu/aten/operators/xetla/mha.h b/csrc/gpu/aten/operators/xetla/mha.h
@@ -32,12 +32,7 @@ struct fmha_forward_kernel_args_t {
   uint32_t head_size;
   uint32_t num_queries;
   uint32_t num_keys;
-  uint32_t q_strideB;
-  uint32_t q_strideN;
-  uint32_t q_strideF;
-  uint32_t kv_strideB;
-  uint32_t kv_strideN;
-  uint32_t kv_strideT;
+  uint64_t q_strideF;
   uint32_t bias_strideB;
   uint32_t bias_strideN;
   uint32_t bias_strideF;