awxkee
diff --git a/‎Cargo.toml‎
Lines changed: 1 addition & 1 deletion b/‎Cargo.toml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎app/Cargo.toml‎
Lines changed: 1 addition & 1 deletion b/‎app/Cargo.toml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎app/src/main.rs‎
Lines changed: 17 additions & 17 deletions b/‎app/src/main.rs‎
Lines changed: 17 additions & 17 deletions
diff --git a/‎src/box_filter/avx/hrgba8.rs‎
Lines changed: 57 additions & 61 deletions b/‎src/box_filter/avx/hrgba8.rs‎
Lines changed: 57 additions & 61 deletions
@@ -28,7 +28,7 @@ image = { version = "0.25", optional = true, default-features = false }
 rustfft = { version = "6.3", optional = true }
 fast_transpose = { version = "0.2.5", optional = true }
 num-complex = "0.4"
-novtb = "^0.1.4"
+novtb = "^0.1.6"
 
 [features]
 default = ["avx", "sse", "rdm", "neon"]
 
@@ -7,7 +7,7 @@ edition = "2021"
 colorutils-rs = "0.7.0"
 half = "2.4.1"
 image = "0.25.5"
-libblur = { path = "../", features = ["image", "fft", "rdm", "neon", "sse", "avx", "nightly_avx512"], default-features = false }
+libblur = { path = "../", features = [], default-features = false }
 accelerate = { path = "accelerate" }
 rayon = "1.10.0"
 fast_transpose = "0.2.5"
 
@@ -30,12 +30,13 @@
 mod merge;
 mod split;
 
+use image::imageops::FilterType;
 use image::{EncodableLayout, GenericImageView, ImageReader};
 use libblur::{
     bilateral_filter, complex_gaussian_kernel, fast_bilateral_filter, fast_bilateral_filter_u16,
-    filter_1d_complex, filter_1d_complex_fixed_point, filter_2d_rgba_fft, gaussian_blur,
-    gaussian_kernel_1d, lens_kernel, sigma_size, AnisotropicRadius, BilateralBlurParams, BlurImage,
-    BlurImageMut, BoxBlurParameters, CLTParameters, ConvolutionMode, EdgeMode, FastBlurChannels,
+    filter_1d_complex, filter_1d_complex_fixed_point, gaussian_blur, gaussian_kernel_1d,
+    lens_kernel, sigma_size, AnisotropicRadius, BilateralBlurParams, BlurImage, BlurImageMut,
+    BoxBlurParameters, CLTParameters, ConvolutionMode, EdgeMode, FastBlurChannels,
     GaussianBlurParams, KernelShape, Scalar, ThreadingPolicy, TransferFunction,
 };
 use num_complex::Complex;
@@ -91,10 +92,10 @@ fn main() {
     let mut v_vec = src_bytes
         .to_vec()
         .iter()
-        .map(|&x| x)
+        // .map(|&x| x)
         // .map(|&x| (x as f32 / 255.))
-        // .map(|&x| u16::from_ne_bytes([x, x]))
-        .collect::<Vec<u8>>();
+        .map(|&x| u16::from_ne_bytes([x, x]))
+        .collect::<Vec<u16>>();
 
     // let mut dst_image = BlurImageMut::borrow(
     //     &mut v_vec,
@@ -103,6 +104,7 @@ fn main() {
     //     FastBlurChannels::Channels4,
     // );
 
+    // let z0 = v_vec.iter().map(|&x| (x as f32 * (1. / 255.))).collect::<Vec<_>>();
     let cvt = BlurImage::borrow(
         &v_vec,
         dyn_image.width(),
@@ -122,7 +124,7 @@ fn main() {
     // let gaussian_kernel = gaussian_kernel_1d(31, sigma_size(31.)).iter().map(|&x| Complex::new(x, 0.0)).collect::<Vec<Complex<f32>>>();
     let gaussian_kernel = complex_gaussian_kernel(51., 0.75, 5.);
 
-    let mut dst_image = cvt.clone_as_mut();
+    let mut dst_image = BlurImageMut::default(); //cvt.clone_as_mut();
 
     // gaussian_blur(
     //     &cvt,
@@ -155,16 +157,13 @@ fn main() {
 
     // }
 
-    libblur::bilateral_filter(
+    libblur::box_blur_u16(
         &cvt,
         &mut dst_image,
-        BilateralBlurParams {
-            kernel_size: 15,
-            spatial_sigma: 5.,
-            range_sigma: 5.,
+        BoxBlurParameters {
+            x_axis_kernel: 7,
+            y_axis_kernel: 7,
         },
-        EdgeMode::Clamp,
-        Scalar::default(),
         ThreadingPolicy::Single,
     )
     .unwrap();
@@ -187,16 +186,17 @@ fn main() {
     // )
     // .unwrap();
 
-    // let j_dag = dst_image.to_immutable_ref();
+    let j_dag = dst_image.to_immutable_ref();
+
     // let gamma = j_dag.gamma8(TransferFunction::Srgb, true).unwrap();
 
     dst_bytes = dst_image
         .data
         .borrow_mut()
         .iter()
-        .map(|&x| x)
+        // .map(|&x| x)
         // .map(|&x| (x * 255f32).round() as u8)
-        // .map(|&x| (x >> 8) as u8)
+        .map(|&x| (x >> 8) as u8)
         .collect::<Vec<u8>>();
 
     // dst_bytes = dst_image.data.borrow().to_vec();
 
@@ -107,7 +107,7 @@ unsafe fn box_blur_horizontal_pass_impl<const CN: usize>(
     let edge_count = (kernel_size / 2) + 1;
     let v_edge_count = _mm256_set1_epi32(edge_count as i32);
 
-    let v_weight = _mm256_set1_ps(1f32 / (radius * 2) as f32);
+    let v_weight = _mm256_set1_ps(1f32 / (radius * 2 + 1) as f32);
 
     let half_kernel = kernel_size / 2;
 
@@ -140,7 +140,7 @@ unsafe fn box_blur_horizontal_pass_impl<const CN: usize>(
         }
 
         unsafe {
-            for x in 1..half_kernel as usize {
+            for x in 1..=half_kernel as usize {
                 let px = x.min(width as usize - 1) * CN;
 
                 let s_ptr_0 = src.as_ptr().add(y_src_shift + px);
@@ -161,7 +161,50 @@ unsafe fn box_blur_horizontal_pass_impl<const CN: usize>(
         }
 
         for x in 0..width {
-            // preload edge pixels
+            let px = x as usize * CN;
+
+            unsafe {
+                let scale_store_ps0 = _mm256_cvtepi32_ps(store_0);
+                let scale_store_ps1 = _mm256_cvtepi32_ps(store_1);
+                let scale_store_ps2 = _mm256_cvtepi32_ps(store_2);
+
+                let r0 = _mm256_mul_ps(scale_store_ps0, v_weight);
+                let r1 = _mm256_mul_ps(scale_store_ps1, v_weight);
+                let r2 = _mm256_mul_ps(scale_store_ps2, v_weight);
+
+                let scale_store0 = _mm256_cvtps_epi32(r0);
+                let scale_store1 = _mm256_cvtps_epi32(r1);
+                let scale_store2 = _mm256_cvtps_epi32(r2);
+
+                let px_160 = _mm256_packus_epi32(scale_store0, _mm256_setzero_si256());
+                let px_161 = _mm256_packus_epi32(scale_store1, _mm256_setzero_si256());
+                let px_162 = _mm256_packus_epi32(scale_store2, _mm256_setzero_si256());
+
+                let px_80 = _mm256_packus_epi16(px_160, _mm256_setzero_si256());
+                let px_81 = _mm256_packus_epi16(px_161, _mm256_setzero_si256());
+                let px_82 = _mm256_packus_epi16(px_162, _mm256_setzero_si256());
+
+                let bytes_offset_0 = y_dst_shift + px;
+                let bytes_offset_1 = y_dst_shift + dst_stride as usize + px;
+                let bytes_offset_2 = y_dst_shift + dst_stride as usize * 2 + px;
+                let bytes_offset_3 = y_dst_shift + dst_stride as usize * 3 + px;
+                let bytes_offset_4 = y_dst_shift + dst_stride as usize * 4 + px;
+                let bytes_offset_5 = y_dst_shift + dst_stride as usize * 5 + px;
+
+                let dst_ptr_0 = unsafe_dst.slice.as_ptr().add(bytes_offset_0) as *mut u8;
+                let dst_ptr_1 = unsafe_dst.slice.as_ptr().add(bytes_offset_1) as *mut u8;
+                let dst_ptr_2 = unsafe_dst.slice.as_ptr().add(bytes_offset_2) as *mut u8;
+                let dst_ptr_3 = unsafe_dst.slice.as_ptr().add(bytes_offset_3) as *mut u8;
+                let dst_ptr_4 = unsafe_dst.slice.as_ptr().add(bytes_offset_4) as *mut u8;
+                let dst_ptr_5 = unsafe_dst.slice.as_ptr().add(bytes_offset_5) as *mut u8;
+
+                write_u8::<CN>(dst_ptr_0, _mm256_castsi256_si128(px_80));
+                write_u8::<CN>(dst_ptr_1, _mm256_extracti128_si256::<1>(px_80));
+                write_u8::<CN>(dst_ptr_2, _mm256_castsi256_si128(px_81));
+                write_u8::<CN>(dst_ptr_3, _mm256_extracti128_si256::<1>(px_81));
+                write_u8::<CN>(dst_ptr_4, _mm256_castsi256_si128(px_82));
+                write_u8::<CN>(dst_ptr_5, _mm256_extracti128_si256::<1>(px_82));
+            }
 
             // subtract previous
             unsafe {
@@ -196,7 +239,7 @@ unsafe fn box_blur_horizontal_pass_impl<const CN: usize>(
 
             // add next
             unsafe {
-                let next_x = (x + half_kernel).min(width - 1) as usize;
+                let next_x = (x + half_kernel + 1).min(width - 1) as usize;
 
                 let next = next_x * CN;
 
@@ -223,51 +266,6 @@ unsafe fn box_blur_horizontal_pass_impl<const CN: usize>(
                 store_1 = _mm256_add_epi32(store_1, edge_colors_1);
                 store_2 = _mm256_add_epi32(store_2, edge_colors_2);
             }
-
-            let px = x as usize * CN;
-
-            unsafe {
-                let scale_store_ps0 = _mm256_cvtepi32_ps(store_0);
-                let scale_store_ps1 = _mm256_cvtepi32_ps(store_1);
-                let scale_store_ps2 = _mm256_cvtepi32_ps(store_2);
-
-                let r0 = _mm256_mul_ps(scale_store_ps0, v_weight);
-                let r1 = _mm256_mul_ps(scale_store_ps1, v_weight);
-                let r2 = _mm256_mul_ps(scale_store_ps2, v_weight);
-
-                let scale_store0 = _mm256_cvtps_epi32(r0);
-                let scale_store1 = _mm256_cvtps_epi32(r1);
-                let scale_store2 = _mm256_cvtps_epi32(r2);
-
-                let px_160 = _mm256_packus_epi32(scale_store0, _mm256_setzero_si256());
-                let px_161 = _mm256_packus_epi32(scale_store1, _mm256_setzero_si256());
-                let px_162 = _mm256_packus_epi32(scale_store2, _mm256_setzero_si256());
-
-                let px_80 = _mm256_packus_epi16(px_160, _mm256_setzero_si256());
-                let px_81 = _mm256_packus_epi16(px_161, _mm256_setzero_si256());
-                let px_82 = _mm256_packus_epi16(px_162, _mm256_setzero_si256());
-
-                let bytes_offset_0 = y_dst_shift + px;
-                let bytes_offset_1 = y_dst_shift + dst_stride as usize + px;
-                let bytes_offset_2 = y_dst_shift + dst_stride as usize * 2 + px;
-                let bytes_offset_3 = y_dst_shift + dst_stride as usize * 3 + px;
-                let bytes_offset_4 = y_dst_shift + dst_stride as usize * 4 + px;
-                let bytes_offset_5 = y_dst_shift + dst_stride as usize * 5 + px;
-
-                let dst_ptr_0 = unsafe_dst.slice.as_ptr().add(bytes_offset_0) as *mut u8;
-                let dst_ptr_1 = unsafe_dst.slice.as_ptr().add(bytes_offset_1) as *mut u8;
-                let dst_ptr_2 = unsafe_dst.slice.as_ptr().add(bytes_offset_2) as *mut u8;
-                let dst_ptr_3 = unsafe_dst.slice.as_ptr().add(bytes_offset_3) as *mut u8;
-                let dst_ptr_4 = unsafe_dst.slice.as_ptr().add(bytes_offset_4) as *mut u8;
-                let dst_ptr_5 = unsafe_dst.slice.as_ptr().add(bytes_offset_5) as *mut u8;
-
-                write_u8::<CN>(dst_ptr_0, _mm256_castsi256_si128(px_80));
-                write_u8::<CN>(dst_ptr_1, _mm256_extracti128_si256::<1>(px_80));
-                write_u8::<CN>(dst_ptr_2, _mm256_castsi256_si128(px_81));
-                write_u8::<CN>(dst_ptr_3, _mm256_extracti128_si256::<1>(px_81));
-                write_u8::<CN>(dst_ptr_4, _mm256_castsi256_si128(px_82));
-                write_u8::<CN>(dst_ptr_5, _mm256_extracti128_si256::<1>(px_82));
-            }
         }
 
         yy += 6;
@@ -286,7 +284,7 @@ unsafe fn box_blur_horizontal_pass_impl<const CN: usize>(
         }
 
         unsafe {
-            for x in 1usize..half_kernel as usize {
+            for x in 1usize..=half_kernel as usize {
                 let px = x.min(width as usize - 1) * CN;
                 let s_ptr = src.as_ptr().add(y_src_shift + px);
                 let edge_colors = load_u8_s32_fast::<CN>(s_ptr);
@@ -295,7 +293,14 @@ unsafe fn box_blur_horizontal_pass_impl<const CN: usize>(
         }
 
         for x in 0..width {
-            // preload edge pixels
+            let px = x as usize * CN;
+
+            unsafe {
+                let r0 = _mm_mul_ps(_mm_cvtepi32_ps(store), _mm256_castps256_ps128(v_weight));
+                let bytes_offset = y_dst_shift + px;
+                let ptr = unsafe_dst.slice.as_ptr().add(bytes_offset) as *mut u8;
+                store_u8_u32::<CN>(ptr, _mm_cvtps_epi32(r0));
+            }
 
             // subtract previous
             unsafe {
@@ -308,23 +313,14 @@ unsafe fn box_blur_horizontal_pass_impl<const CN: usize>(
 
             // add next
             unsafe {
-                let next_x = (x + half_kernel).min(width - 1) as usize;
+                let next_x = (x + half_kernel + 1).min(width - 1) as usize;
 
                 let next = next_x * CN;
 
                 let s_ptr = src.as_ptr().add(y_src_shift + next);
                 let edge_colors = load_u8_s32_fast::<CN>(s_ptr);
                 store = _mm_add_epi32(store, edge_colors);
             }
-
-            let px = x as usize * CN;
-
-            unsafe {
-                let r0 = _mm_mul_ps(_mm_cvtepi32_ps(store), _mm256_castps256_ps128(v_weight));
-                let bytes_offset = y_dst_shift + px;
-                let ptr = unsafe_dst.slice.as_ptr().add(bytes_offset) as *mut u8;
-                store_u8_u32::<CN>(ptr, _mm_cvtps_epi32(r0));
-            }
         }
     }
 }