vad : update dimensions of VAD model tensors

danbev · danbev · commit 9d7ebe31f861 · 2025-04-08T09:23:36.000+02:00
diff --git a/src/whisper.cpp b/src/whisper.cpp
@@ -4369,35 +4369,35 @@ struct whisper_vad_model {
     e_vad_model type = VAD_MODEL_UNKNOWN;
     whisper_vad_hparams hparams;
 
-    struct ggml_tensor * stft_forward_basis;  // [258, 256]
+    struct ggml_tensor * stft_forward_basis; // [256, 258]
 
     // Encoder tensors - 4 convolutional layers
-    struct ggml_tensor * encoder_0_weight;  // [128, 129, 3]
+    struct ggml_tensor * encoder_0_weight;  // [3, 129, 128]
     struct ggml_tensor * encoder_0_bias;    // [128]
 
     // Second encoder layer
-    struct ggml_tensor * encoder_1_weight;  // [64, 128, 3]
+    struct ggml_tensor * encoder_1_weight;  // [3, 128, 64]
     struct ggml_tensor * encoder_1_bias;    // [64]
 
     // Third encoder layer
-    struct ggml_tensor * encoder_2_weight;  // [64, 64, 3]
+    struct ggml_tensor * encoder_2_weight;  // [3, 64, 64]
     struct ggml_tensor * encoder_2_bias;    // [64]
 
     // Fourth encoder layer
-    struct ggml_tensor * encoder_3_weight;  // [128, 64, 3]
+    struct ggml_tensor * encoder_3_weight;  // [3, 64, 128]
     struct ggml_tensor * encoder_3_bias;    // [128]
 
     // LSTM decoder tensors
-    struct ggml_tensor * lstm_ih_weight;    // [512, 128] input-to-hidden
+    struct ggml_tensor * lstm_ih_weight;    // [128, 512] input-to-hidden
     struct ggml_tensor * lstm_ih_bias;      // [512]
-    struct ggml_tensor * lstm_hh_weight;    // [512, 128] hidden-to-hidden
+    struct ggml_tensor * lstm_hh_weight;    // [128, 512] hidden-to-hidden
     struct ggml_tensor * lstm_hh_bias;      // [512]
 
     // Final conv layer
-    struct ggml_tensor * final_conv_weight; // [1, 128, 1]
+    struct ggml_tensor * final_conv_weight; // [128]
     struct ggml_tensor * final_conv_bias;   // [1]
 
-    // ggml context
+    // ggml contexts
     std::vector<ggml_context *> ctxs;
 
     // buffer for the model tensors
@@ -4887,20 +4887,16 @@ whisper_vad_context * whisper_vad_init_from_file_with_params_no_state(
             VAD_TENSOR_LSTM_WEIGHT_IH,
             ggml_new_tensor_2d(ctx, GGML_TYPE_F32, hparams.lstm_hidden_size, hstate_dim)
         );
+        model.lstm_ih_bias = create_tensor(
+            VAD_TENSOR_LSTM_BIAS_IH,
+            ggml_new_tensor_1d(ctx, GGML_TYPE_F32, hstate_dim)
+        );
 
         // LSTM weights - hidden to hidden
         model.lstm_hh_weight = create_tensor(
             VAD_TENSOR_LSTM_WEIGHT_HH,
             ggml_new_tensor_2d(ctx, GGML_TYPE_F32, hparams.lstm_hidden_size, hstate_dim)
         );
-
-        // LSTM bias - input to hidden
-        model.lstm_ih_bias = create_tensor(
-            VAD_TENSOR_LSTM_BIAS_IH,
-            ggml_new_tensor_1d(ctx, GGML_TYPE_F32, hstate_dim)
-        );
-
-        // LSTM bias - hidden to hidden
         model.lstm_hh_bias = create_tensor(
             VAD_TENSOR_LSTM_BIAS_HH,
             ggml_new_tensor_1d(ctx, GGML_TYPE_F32, hstate_dim)
@@ -4911,8 +4907,6 @@ whisper_vad_context * whisper_vad_init_from_file_with_params_no_state(
             VAD_TENSOR_FINAL_CONV_WEIGHT,
             ggml_new_tensor_2d(ctx, GGML_TYPE_F32, hparams.final_conv_in, 1)
         );
-
-        // Final conv layer bias
         model.final_conv_bias = create_tensor(
             VAD_TENSOR_FINAL_CONV_BIAS,
             ggml_new_tensor_1d(ctx, GGML_TYPE_F32, 1)