Enable TF32 mode in GRU ops (#2512)

zhuyuhua-v · janghaeng-intel · web-flow · commit a7c4a16e576d · 2023-04-11T18:53:58.000+08:00
TF32 GRU op was not in place. This brings ~1.72x speed up on Molan

Co-authored-by: Janghaeng Lee &lt;janghaeng.lee@intel.com&gt;
diff --git a/csrc/gpu/oneDNN/GRU.h b/csrc/gpu/oneDNN/GRU.h
@@ -80,6 +80,10 @@ static inline Tensor gru_forward(
   pattr.set_scratchpad_mode(dnnl::scratchpad_mode::user);
 #endif
 
+  if (data_t == memory::data_type::f32) {
+    pattr.set_fpmath_mode(xpu::oneDNN::get_onednn_fpmath_mode());
+  }
+
   auto gru_forward_pd = lbr_gru_forward::primitive_desc(
       engine,
       train ? prop_kind::forward_training : prop_kind::forward_inference,
@@ -323,6 +327,10 @@ static inline std::tuple<Tensor, Tensor, Tensor, Tensor, Tensor> gru_backward(
   pattr.set_scratchpad_mode(dnnl::scratchpad_mode::user);
 #endif
 
+  if (data_dt == memory::data_type::f32) {
+    pattr.set_fpmath_mode(xpu::oneDNN::get_onednn_fpmath_mode());
+  }
+
   auto gru_forward_pd = lbr_gru_forward::primitive_desc(
       engine,
       prop_kind::forward_training,