Add SSE2 variant of FIR filter

This patch adds an SSE2 variant of the FIR filter, to complement the existing NEON optimization. This version is written using intrinsics. Benchmark results: 2.8ns per sample for a 16-tap filter, which is 4x the scalar speed.
11 years ago · 7e0f289ed7
parent 099ef4146e
commit 7e0f289ed7
4 changed files with 128 additions and 3 deletions
--- a/cpp/src/core.gyp
+++ b/cpp/src/core.gyp
@ -23,6 +23,14 @@
      ],
      'include_dirs': ['.'],
    },
+    {
+      'target_name': 'test_filter',
+      'type': 'executable',
+      'sources': [
+        'test_filter.cc',
+        'fir.cc',
+      ],
+    }
  ],
 }

--- a/cpp/src/fir.cc
+++ b/cpp/src/fir.cc
@ -18,15 +18,21 @@

 #include <stdio.h> // for debugging, remove
 #include <stdlib.h>
-#include <malloc.h>

 #include "aligned_buf.h"
 #include "fir.h"

-// Should probably ifdef this to make it more portable
+#ifdef __ANDROID_API__
 void *malloc_aligned(size_t alignment, size_t nbytes) {
  return memalign(alignment, nbytes);
 }
+#else
+void *malloc_aligned(size_t alignment, size_t nbytes) {
+  void *result;
+  int status = posix_memalign(&result, alignment, nbytes);
+  return status == 0 ? result : 0;
+}
+#endif

 SimpleFirFilter::SimpleFirFilter(const float *kernel, size_t nk) : nk(nk) {
  k = (float *)malloc(nk * sizeof(k[0]));
@ -180,3 +186,88 @@ void Neon16FirFilter::process(const float *in, float *out, size_t n) {
 }

 #endif
+
+#ifdef __SSE2__
+#include <emmintrin.h>
+
+SseFirFilter::SseFirFilter(const float *kernel, size_t nk) : nk(nk) {
+  // TODO: handle odd size nk (must be multiple of 4)
+  k = (float *)malloc_aligned(16, nk * sizeof(k[0]));
+  for (size_t i = 0; i < nk; i += 4) {
+    for (size_t j = 0; j < 4; j++) {
+      k[i + j] = kernel[nk - i - 4 + j];
+    }
+  }
+}
+
+SseFirFilter::~SseFirFilter() {
+  free(k);
+}
+
+void printvec(__m128 v) {
+  float *f = (float *)&v;
+  printf("[%f %f %f %f]\n", f[0], f[1], f[2], f[3]);
+}
+
+void SseFirFilter::process(const float *in1, float *out, size_t n) {
+  const float *in = in1 - 1;
+  __m128 q9 = _mm_set_ps1(0.0);
+  __m128 q10 = _mm_set_ps1(0.0);
+  __m128 q11 = _mm_set_ps1(0.0);
+  __m128i mask = _mm_set_epi32(-1, -1, -1, 0);
+  for (int i = 0; i < nk; i += 4) {
+    __m128 q0 = _mm_load_ps(&in[i]);
+    __m128 q1 = _mm_load_ps(&k[i]);
+    __m128 s = _mm_shuffle_ps(q0, q0, _MM_SHUFFLE(1, 1, 1, 1));
+    q9 = _mm_add_ps(_mm_mul_ps(q1, s), q9);
+    s = _mm_shuffle_ps(q0, q0, _MM_SHUFFLE(2, 2, 2, 2));
+    q10 = _mm_add_ps(_mm_mul_ps(q1, s), q10);
+    s = _mm_shuffle_ps(q0, q0, _MM_SHUFFLE(3, 3, 3, 3));
+    q11 = _mm_add_ps(_mm_mul_ps(q1, s), q11);
+  }
+  // Note: AVX has _mm_permute_ps, which would be a bit more direct
+  q9 = (__m128)_mm_and_si128((__m128i)q9, mask);
+  __m128 q8 = _mm_shuffle_ps(q9, q9, _MM_SHUFFLE(0, 0, 0, 3));
+  q10 = _mm_shuffle_ps(q10, (__m128)mask, _MM_SHUFFLE(0, 0, 3, 2));
+  q8 = _mm_add_ps(q8, q10);
+  q11 = (__m128)_mm_and_si128((__m128i)q11, mask);
+  q11 = _mm_shuffle_ps(q11, q11, _MM_SHUFFLE(0, 3, 2, 1));
+  q8 = _mm_add_ps(q8, q11);
+  for (int i = 0; i < n; i += 4) {
+    q9 = _mm_set_ps1(0.0);
+    q10 = _mm_set_ps1(0.0);
+    q11 = _mm_set_ps1(0.0);
+    const float *inptr = &in[i + 4];
+    // inner loop
+    for (int j = 0; j < nk; j += 4) {
+      __m128 q0 = _mm_load_ps(&inptr[j]);
+      __m128 q1 = _mm_load_ps(&k[j]);
+      __m128 s = _mm_shuffle_ps(q0, q0, _MM_SHUFFLE(0, 0, 0, 0));
+      q8 = _mm_add_ps(_mm_mul_ps(q1, s), q8);
+      s = _mm_shuffle_ps(q0, q0, _MM_SHUFFLE(1, 1, 1, 1));
+      q9 = _mm_add_ps(_mm_mul_ps(q1, s), q9);
+      s = _mm_shuffle_ps(q0, q0, _MM_SHUFFLE(2, 2, 2, 2));
+      q10 = _mm_add_ps(_mm_mul_ps(q1, s), q10);
+      s = _mm_shuffle_ps(q0, q0, _MM_SHUFFLE(3, 3, 3, 3));
+      q11 = _mm_add_ps(_mm_mul_ps(q1, s), q11);
+    }
+
+    // process overlaps
+    __m128 q0a = _mm_shuffle_ps(q9, q9, _MM_SHUFFLE(2, 1, 0, 3));
+    __m128 q0 = _mm_add_ps(q8, (__m128)_mm_and_si128(mask, (__m128i)q0a));
+    q8 = (__m128)_mm_andnot_si128(mask, (__m128i)q0a);
+    q0a = _mm_shuffle_ps((__m128)mask, q10, _MM_SHUFFLE(1, 0, 0, 0));
+    q0 = _mm_add_ps(q0, q0a);
+    q0a = _mm_shuffle_ps(q10, (__m128)mask, _MM_SHUFFLE(0, 0, 3, 2));
+    q8 = _mm_add_ps(q8, q0a);
+    q0a = (__m128)_mm_andnot_si128(mask, (__m128i)q11);
+    q0a = _mm_shuffle_ps(q0a, q0a, _MM_SHUFFLE(0, 3, 2, 1));
+    q0 = _mm_add_ps(q0, q0a);
+    q0a = (__m128)_mm_and_si128(mask, (__m128i)q11);
+    q0a = _mm_shuffle_ps(q0a, q0a, _MM_SHUFFLE(0, 3, 2, 1));
+    q8 = _mm_add_ps(q8, q0a);
+    _mm_store_ps(&out[i], q0);
+  }
+}
+
+#endif
--- a/cpp/src/fir.h
+++ b/cpp/src/fir.h
@ -76,3 +76,17 @@ class Neon16FirFilter : public FirFilter<float, float> {
 };

 #endif  // HAVE_NEON
+
+#ifdef __SSE2__
+
+class SseFirFilter : public FirFilter<float, float> {
+ public:
+  SseFirFilter(const float *kernel, size_t nk);
+  ~SseFirFilter();
+  void process(const float *in, float *out, size_t n);
+ private:
+  size_t nk;
+  float *k;
+};
+
+#endif  // __SSE2__
--- a/cpp/src/test_filter.cc
+++ b/cpp/src/test_filter.cc
@ -19,6 +19,7 @@
 #include <stdlib.h>
 #include <stdio.h>
 #include <time.h>
+#include <string.h>
 #include <sys/time.h>
 #include <math.h>

@ -101,6 +102,11 @@ void benchfir(int size, int experiment) {
    case 4:
      f = new HalfRateFirFilter(kernel, size, nblock);
      break;
+#ifdef __SSE2__
+    case 5:
+      f = new SseFirFilter(kernel, size);
+      break;
+#endif
  }


@ -127,7 +133,13 @@ void runfirbench() {
    "set xlabel 'FIR kernel size'\n"
    "set ylabel 'ns per sample'\n"
    "plot '-' title 'scalar', '-' title '4x4 block', '-' title 'fixed16', '-' title 'fixed16 mirror', '-' title 'half rate'\n");
-  for (int experiment = 0; experiment < 5; experiment++) {
+  for (int experiment = 0; experiment < 6; experiment++) {
+#ifndef HAVE_NEON
+    if (experiment >= 1 && experiment <= 4) continue;
+#endif
+#ifndef __SSE2__
+    if (experiment == 5) continue;
+#endif
    for (int i = 16; i <= 256; i += 16) {
      benchfir(i, experiment);
    }