fix: fgn generation and improve cuda run

dancixx · dancixx · commit 2e778e9e1012 · 2025-03-13T20:25:32.000+01:00
diff --git a/src/main.rs b/src/main.rs
@@ -1,14 +1,14 @@
 use ndarray::Array1;
 use prettytable::{format, row, Cell, Row, Table};
-use stochastic_rs::plot_1d;
-use stochastic_rs::stochastic::noise::fgn::FGN;
-use stochastic_rs::stochastic::Sampling;
 use std::error::Error;
 use std::fs::File;
 use std::io::{BufRead, BufReader};
 use std::time::Instant;
+use stochastic_rs::plot_1d;
 use stochastic_rs::stochastic::noise::fgn::FGN;
 use stochastic_rs::stochastic::Sampling;
+// use stochastic_rs::stochastic::noise::fgn::FGN;
+// use stochastic_rs::stochastic::Sampling;
 
 use stochastic_rs::stats::fd::FractalDim;
 use stochastic_rs::stats::fou_estimator::{
@@ -19,25 +19,25 @@ use stochastic_rs::stats::fou_estimator::{
 // use your_crate::{FOUParameterEstimationV1, FOUParameterEstimationV2, FilterType};
 const N: usize = 10000;
 fn main() -> Result<(), Box<dyn Error>> {
-  let fbm = FGN::new(0.7, 10_000, Some(1.0), Some(10000));
-  let fgn = fbm.sample_cuda().unwrap();
-  let fgn = fgn.row(0);
-  plot_1d!(fgn, "Fractional Brownian Motion (H = 0.7)");
-  let mut path = Array1::<f64>::zeros(500);
-  for i in 1..500 {
-    path[i] += path[i-1] + fgn[i];
-  }
-  plot_1d!(path, "Fractional Brownian Motion (H = 0.7)");
+  // let fbm = FGN::new(0.7, 10_000, Some(1.0), Some(10000));
+  // let fgn = fbm.sample_cuda().unwrap();
+  // let fgn = fgn.row(0);
+  // plot_1d!(fgn, "Fractional Brownian Motion (H = 0.7)");
+  // let mut path = Array1::<f64>::zeros(500);
+  // for i in 1..500 {
+  //   path[i] += path[i-1] + fgn[i];
+  // }
+  // plot_1d!(path, "Fractional Brownian Motion (H = 0.7)");
 
-  let start = std::time::Instant::now();
-  let _ = fbm.sample_cuda();
-  let end = start.elapsed().as_millis();
-  println!("20000 fgn generated on cuda in: {end}");
+  // let start = std::time::Instant::now();
+  // let _ = fbm.sample_cuda();
+  // let end = start.elapsed().as_millis();
+  // println!("20000 fgn generated on cuda in: {end}");
 
-  let start = std::time::Instant::now();
-    let _ = fbm.sample_par();
-  let end = start.elapsed().as_millis();
-  println!("20000 fgn generated on cuda in: {end}");
+  // let start = std::time::Instant::now();
+  //   let _ = fbm.sample_par();
+  // let end = start.elapsed().as_millis();
+  // println!("20000 fgn generated on cuda in: {end}");
   // File paths
   // let paths = vec![
   //   "./test/kecskekut_original.txt",
diff --git a/src/stochastic/cuda/fgn.cu b/src/stochastic/cuda/fgn.cu
@@ -1,88 +1,85 @@
-#include <stdio.h>
+#include <cuComplex.h>
 #include <cuda_runtime.h>
-#include <curand_kernel.h>
 #include <cufft.h>
-#include <cuComplex.h>
+#include <curand_kernel.h>
 #include <math.h>
+#include <stdio.h>
 
 #ifdef _WIN32
 #define EXPORT __declspec(dllexport)
 #else
 #define EXPORT
 #endif
 
-__global__ void fill_random_with_eigs(
-    cuComplex* d_data,
-    const cuComplex* d_sqrt_eigs,
-    int traj_size,
-    int m,
-    unsigned long seed)
-{
-    int tid = blockIdx.x * blockDim.x + threadIdx.x;
-    if (tid >= m * traj_size) return;
-    int traj_id = tid / traj_size;
-    int idx = tid % traj_size;
-    curandState state;
-    curand_init(seed + traj_id, idx, 0, &state);
-    float re = curand_normal(&state);
-    float im = curand_normal(&state);
-    cuComplex noise = make_cuComplex(re, im);
-    d_data[tid] = cuCmulf(noise, d_sqrt_eigs[idx]);
+__global__ void fill_random_with_eigs(cuComplex *d_data,
+                                      const cuComplex *d_sqrt_eigs,
+                                      int traj_size, int m,
+                                      unsigned long seed) {
+  int tid = blockIdx.x * blockDim.x + threadIdx.x;
+  if (tid >= m * traj_size)
+    return;
+
+  int traj_id = tid / traj_size;
+  int idx = tid % traj_size;
+
+  __shared__ curandState state[32];
+  int lane_id = threadIdx.x % 32;
+
+  if (lane_id == 0) {
+    curand_init(seed + traj_id, blockIdx.x, 0, &state[lane_id]);
+  }
+  __syncthreads();
+
+  float re = curand_normal(&state[lane_id]);
+  float im = curand_normal(&state);
+  cuComplex noise = make_cuComplex(re, im);
+  d_data[tid] = cuCmulf(noise, d_sqrt_eigs[idx]);
 }
 
-__global__ void scale_and_copy_to_output(
-    const cuComplex* d_data,
-    float* d_output,
-    int n,
-    int m,
-    int offset,
-    float hurst,
-    float t)
-{
-    int out_size = n - offset;
-    int tid = blockIdx.x * blockDim.x + threadIdx.x;
-    if (tid >= m * out_size) return;
-    int traj_id = tid / out_size;
-    int idx = tid % out_size;
-    int data_idx = traj_id * (2 * n) + (idx + 1);
-    float scale = powf((float)n, -hurst) * powf(t, hurst);
-    d_output[tid] = d_data[data_idx].x * scale;
+__global__ void scale_and_copy_to_output(const cuComplex *d_data,
+                                         float *d_output, int n, int m,
+                                         int offset, float scale) {
+  int out_size = n - offset;
+  int tid = blockIdx.x * blockDim.x + threadIdx.x;
+  if (tid >= m * out_size)
+    return;
+
+  int traj_id = tid / out_size;
+  int idx = tid % out_size;
+  int data_idx = traj_id * (2 * n) + (idx + 1);
+
+  d_output[tid] = d_data[data_idx].x * scale;
 }
 
-extern "C" EXPORT void fgn_kernel(
-    const cuComplex* d_sqrt_eigs,
-    float* d_output,
-    int n,
-    int m,
-    int offset,
-    float hurst,
-    float t,
-    unsigned long seed)
-{
-    int traj_size = 2 * n;
-    cuComplex* d_data = nullptr;
-    cudaMalloc(&d_data, (size_t)m * traj_size * sizeof(cuComplex));
-    {
-        int totalThreads = m * traj_size;
-        int blockSize = 512;
-        int gridSize = (totalThreads + blockSize - 1) / blockSize;
-        fill_random_with_eigs<<<gridSize, blockSize>>>(d_data, d_sqrt_eigs, traj_size, m, seed);
-        cudaDeviceSynchronize();
-    }
-    {
-        cufftHandle plan;
-        cufftPlan1d(&plan, traj_size, CUFFT_C2C, m);
-        cufftExecC2C(plan, d_data, d_data, CUFFT_FORWARD);
-        cudaDeviceSynchronize();
-        cufftDestroy(plan);
-    }
-    {
-        int out_size = n - offset;
-        int totalThreads = m * out_size;
-        int blockSize = 512;
-        int gridSize = (totalThreads + blockSize - 1) / blockSize;
-        scale_and_copy_to_output<<<gridSize, blockSize>>>(d_data, d_output, n, m, offset, hurst, t);
-        cudaDeviceSynchronize();
-    }
-    cudaFree(d_data);
+extern "C" EXPORT void fgn_kernel(const cuComplex *d_sqrt_eigs, float *d_output,
+                                  int n, int m, int offset, float hurst,
+                                  float t, unsigned long seed) {
+  int traj_size = 2 * n;
+  cuComplex *d_data = nullptr;
+  cudaMalloc(&d_data, (size_t)m * traj_size * sizeof(cuComplex));
+
+  int block_size = 512;
+  int grid_size = (m * traj_size + block_size - 1) / block_size;
+
+  cudaStream_t stream;
+  cudaStreamCreate(&stream);
+
+  fill_random_with_eigs<<<gridSize, blockSize, 0, stream>>>(d_data, d_sqrt_eigs,
+                                                            traj_size, m, seed);
+
+  cufftHandle plan;
+  cufftPlan1d(&plan, traj_size, CUFFT_C2C, m);
+  cufftSetStream(plan, stream);
+  cufftExecC2C(plan, d_data, d_data, CUFFT_FORWARD);
+  cufftDestroy(plan);
+
+  int out_size = n - offset;
+  grid_size = (m * out_size + block_size - 1) / block_size;
+  float scale = powf((float)n, -hurst) * powf(t, hurst);
+  scale_and_copy_to_output<<<gridSize, blockSize, 0, stream>>>(
+      d_data, d_output, n, m, offset, scale);
+
+  cudaStreamSynchronize(stream);
+  cudaStreamDestroy(stream);
+  cudaFree(d_data);
 }
diff --git a/src/stochastic/noise/fgn.rs b/src/stochastic/noise/fgn.rs
@@ -84,7 +84,7 @@ impl Sampling<f64> for FGN {
         .assign(&chunk);
     });
 
-    let fgn = &*self.sqrt_eigenvalues * &rnd;
+    let fgn = &*self.sqrt_eigenvalues * &*rnd.read().unwrap();
     let mut fgn_fft = Array1::<Complex<f64>>::zeros(2 * self.n);
     ndfft(&fgn, &mut fgn_fft, &*self.fft_handler, 0);
     let scale = (self.n as f64).powf(-self.hurst) * self.t.unwrap_or(1.0).powf(self.hurst);
@@ -265,7 +265,7 @@ mod tests {
     plot_1d!(fgn, "Fractional Brownian Motion (H = 0.7)");
     let mut path = Array1::<f64>::zeros(500);
     for i in 1..500 {
-      path[i] += path[i-1] + fgn[i];
+      path[i] += path[i - 1] + fgn[i];
     }
     plot_1d!(path, "Fractional Brownian Motion (H = 0.7)");
 
@@ -275,7 +275,7 @@ mod tests {
     tracing::info!("10000 fgn generated on cuda in: {end}");
 
     let start = std::time::Instant::now();
-      let _ = fbm.sample_par();
+    let _ = fbm.sample_par();
     let end = start.elapsed().as_millis();
     tracing::info!("10000 fgn generated on cuda in: {end}");
   }