linebender
diff --git a/‎fearless_simd/src/generated/avx2.rs‎
Lines changed: 1270 additions & 4 deletions b/‎fearless_simd/src/generated/avx2.rs‎
Lines changed: 1270 additions & 4 deletions
diff --git a/‎fearless_simd/src/generated/fallback.rs‎
Lines changed: 708 additions & 0 deletions b/‎fearless_simd/src/generated/fallback.rs‎
Lines changed: 708 additions & 0 deletions
diff --git a/‎fearless_simd/src/generated/neon.rs‎
Lines changed: 1791 additions & 0 deletions b/‎fearless_simd/src/generated/neon.rs‎
Lines changed: 1791 additions & 0 deletions
diff --git a/‎fearless_simd/src/generated/simd_trait.rs‎
Lines changed: 357 additions & 0 deletions b/‎fearless_simd/src/generated/simd_trait.rs‎
Lines changed: 357 additions & 0 deletions
diff --git a/‎fearless_simd/src/generated/simd_types.rs‎
Lines changed: 360 additions & 0 deletions b/‎fearless_simd/src/generated/simd_types.rs‎
Lines changed: 360 additions & 0 deletions
diff --git a/‎fearless_simd/src/generated/sse4_2.rs‎
Lines changed: 1141 additions & 0 deletions b/‎fearless_simd/src/generated/sse4_2.rs‎
Lines changed: 1141 additions & 0 deletions
diff --git a/‎fearless_simd/src/generated/wasm.rs‎
Lines changed: 1155 additions & 0 deletions b/‎fearless_simd/src/generated/wasm.rs‎
Lines changed: 1155 additions & 0 deletions
diff --git a/‎fearless_simd/src/support.rs‎
Lines changed: 21 additions & 0 deletions b/‎fearless_simd/src/support.rs‎
Lines changed: 21 additions & 0 deletions
diff --git a/‎fearless_simd_dev_macros/src/lib.rs‎
Lines changed: 9 additions & 2 deletions b/‎fearless_simd_dev_macros/src/lib.rs‎
Lines changed: 9 additions & 2 deletions
diff --git a/‎fearless_simd_gen/src/generic.rs‎
Lines changed: 27 additions & 1 deletion b/‎fearless_simd_gen/src/generic.rs‎
Lines changed: 27 additions & 1 deletion
@@ -42,3 +42,24 @@ pub(crate) fn simd_debug_impl<Element: core::fmt::Debug>(
         .field("simd", token)
         .finish()
 }
+
+/// Selects the input operands to be used for `slignr`/`vext`/etc. when computing a single output block for cross-block
+/// "slide" operations. Extracts from [a : b].
+#[inline(always)]
+#[allow(clippy::allow_attributes, reason = "Only needed in some cfgs.")]
+#[allow(dead_code, reason = "Only used in some cfgs.")]
+pub(crate) fn cross_block_slide_blocks_at<const N: usize, Block: Copy>(
+    a: &[Block; N],
+    b: &[Block; N],
+    out_idx: usize,
+    shift_bytes: usize,
+) -> [Block; 2] {
+    const BLOCK_BYTES: usize = 16;
+    let out_byte_start = out_idx * BLOCK_BYTES + shift_bytes;
+    let lo_idx = out_byte_start.div_euclid(BLOCK_BYTES);
+    let hi_idx = lo_idx + 1;
+    // Concatenation is [a : b], so indices 0..N are from a, indices N..2N are from b
+    let lo_block = if lo_idx < N { a[lo_idx] } else { b[lo_idx - N] };
+    let hi_block = if hi_idx < N { a[hi_idx] } else { b[hi_idx - N] };
+    [lo_block, hi_block]
+}
@@ -80,7 +80,10 @@ pub fn simd_test(_: TokenStream, item: TokenStream) -> TokenStream {
         fn #sse4_name() {
             if std::arch::is_x86_feature_detected!("sse4.2") {
                 let sse4 = unsafe { fearless_simd::x86::Sse4_2::new_unchecked() };
-                #input_fn_name(sse4);
+                sse4.vectorize(
+                    #[inline(always)]
+                    || #input_fn_name(sse4)
+                );
             }
         }
     };
@@ -94,7 +97,10 @@ pub fn simd_test(_: TokenStream, item: TokenStream) -> TokenStream {
                 && std::arch::is_x86_feature_detected!("fma")
             {
                 let avx2 = unsafe { fearless_simd::x86::Avx2::new_unchecked() };
-                #input_fn_name(avx2);
+                avx2.vectorize(
+                    #[inline(always)]
+                    || #input_fn_name(avx2)
+                );
             }
         }
     };
@@ -110,6 +116,7 @@ pub fn simd_test(_: TokenStream, item: TokenStream) -> TokenStream {
     };
 
     quote! {
+        #[inline(always)]
         #input_fn
 
         #fallback_snippet
 
@@ -5,7 +5,7 @@ use proc_macro2::{Ident, Span, TokenStream};
 use quote::{format_ident, quote};
 
 use crate::{
-    ops::{OpSig, RefKind},
+    ops::{OpSig, RefKind, SlideGranularity},
     types::{SIMD_TYPES, ScalarType, VecType},
 };
 
@@ -234,6 +234,32 @@ pub(crate) fn generic_op(op: &str, sig: OpSig, ty: &VecType) -> TokenStream {
         }
         OpSig::FromBytes => generic_from_bytes(method_sig, ty),
         OpSig::ToBytes => generic_to_bytes(method_sig, ty),
+        OpSig::Slide { granularity, .. } => {
+            match (granularity, ty.n_bits()) {
+                (SlideGranularity::WithinBlocks, 128) => {
+                    // If this operation is done on a 128-bit vector type, the "within blocks" method is identical to the
+                    // non-within-blocks one, so just defer to that.
+                    let non_blockwise = generic_op_name("slide", ty);
+                    quote! {
+                        #method_sig {
+                            self.#non_blockwise::<SHIFT>(a, b)
+                        }
+                    }
+                }
+                (SlideGranularity::WithinBlocks, _) => {
+                    quote! {
+                        #method_sig {
+                            let (a0, a1) = self.#split(a);
+                            let (b0, b1) = self.#split(b);
+                            self.#combine(self.#do_half::<SHIFT>(a0, b0), self.#do_half::<SHIFT>(a1, b1))
+                        }
+                    }
+                }
+                _ => {
+                    panic!("Item-wise shifts across blocks cannot be done via split/combine");
+                }
+            }
+        }
     }
 }
Original file line number	Diff line number	Diff line change
`@@ -80,7 +80,10 @@ pub fn simd_test(_: TokenStream, item: TokenStream) -> TokenStream {`
`80`	`80`	`fn #sse4_name() {`
`81`	`81`	`if std::arch::is_x86_feature_detected!("sse4.2") {`
`82`	`82`	`let sse4 = unsafe { fearless_simd::x86::Sse4_2::new_unchecked() };`
`83`		`- #input_fn_name(sse4);`
	`83`	`+ sse4.vectorize(`
	`84`	`+ #[inline(always)]`
	`85`	`+ \|\| #input_fn_name(sse4)`
	`86`	`+ );`
`84`	`87`	`}`
`85`	`88`	`}`
`86`	`89`	`};`
`@@ -94,7 +97,10 @@ pub fn simd_test(_: TokenStream, item: TokenStream) -> TokenStream {`
`94`	`97`	`&& std::arch::is_x86_feature_detected!("fma")`
`95`	`98`	`{`
`96`	`99`	`let avx2 = unsafe { fearless_simd::x86::Avx2::new_unchecked() };`
`97`		`- #input_fn_name(avx2);`
	`100`	`+ avx2.vectorize(`
	`101`	`+ #[inline(always)]`
	`102`	`+ \|\| #input_fn_name(avx2)`
	`103`	`+ );`
`98`	`104`	`}`
`99`	`105`	`}`
`100`	`106`	`};`
`@@ -110,6 +116,7 @@ pub fn simd_test(_: TokenStream, item: TokenStream) -> TokenStream {`
`110`	`116`	`};`
`111`	`117`
`112`	`118`	`quote! {`
	`119`	`+ #[inline(always)]`
`113`	`120`	`#input_fn`
`114`	`121`
`115`	`122`	`#fallback_snippet`