Refactor pre-SSE4 versions of QS8/QC8 GEMM/IGEMM microkernels - Replace sign-extension from 8 to 16 bits with a more efficient sequence - Replace casts to uintptr_t to casts to typed pointer types where possible PiperOrigin-RevId: 382654408

commit: e5eee46df38bb528dd4649cd60191d121d4a1a67 [log] [tgz]
author: Marat Dukhan <maratek@google.com> Thu Jul 01 19:34:39 2021 -0700
committer: XNNPACK Team <xnnpack-github-robot@google.com> Thu Jul 01 19:35:33 2021 -0700
tree: 3edbd0a33387c1dd182490efda2291e1c3d13d75
parent: c698c11c2232546e51874611ce16cf70ab75f92f [diff] [blame]
diff --git a/src/qs8-igemm/gen/4x4c2-minmax-gemmlowp-xop-ld128.c b/src/qs8-igemm/gen/4x4c2-minmax-gemmlowp-xop-ld128.c
index 61b2117..49717e2 100644
--- a/src/qs8-igemm/gen/4x4c2-minmax-gemmlowp-xop-ld128.c
+++ b/src/qs8-igemm/gen/4x4c2-minmax-gemmlowp-xop-ld128.c

@@ -65,7 +65,7 @@
     __m128i vacc1x0123 = vacc0x0123;
     __m128i vacc2x0123 = vacc0x0123;
     __m128i vacc3x0123 = vacc0x0123;
-    w = (const void*) ((uintptr_t) w + 4 * sizeof(int32_t));
+    w = (const void*) ((const int32_t*) w + 4);
 
     size_t p = ks;
     do {
@@ -124,7 +124,7 @@
           _mm_shuffle_epi32(vxa2, _MM_SHUFFLE(1, 1, 1, 1)), vxb1, vacc2x0123);
         vacc3x0123 = _mm_maddd_epi16(
           _mm_shuffle_epi32(vxa3, _MM_SHUFFLE(1, 1, 1, 1)), vxb1, vacc3x0123);
-        const __m128i vb23 = _mm_loadu_si128((const __m128i*) ((uintptr_t) w + 16));
+        const __m128i vb23 = _mm_loadu_si128((const __m128i*) ((const int8_t*) w + 16));
         const __m128i vsb23 = _mm_cmpgt_epi8(_mm_setzero_si128(), vb23);
         const __m128i vxb2 = _mm_unpacklo_epi8(vb23, vsb23);
         const __m128i vxb3 = _mm_unpackhi_epi8(vb23, vsb23);
@@ -147,7 +147,7 @@
         vacc3x0123 = _mm_maddd_epi16(
           _mm_shuffle_epi32(vxa3, _MM_SHUFFLE(3, 3, 3, 3)), vxb3, vacc3x0123);
 
-        w = (const void*) ((uintptr_t) w + 32);
+        w = (const void*) ((const int8_t*) w + 32);
         k -= 8 * sizeof(int8_t);
       }
       if (k != 0) {
@@ -165,8 +165,8 @@
         a3 = (const int8_t*) ((uintptr_t) a3 + k);
 
         const __m128i vb0 = _mm_loadl_epi64((const __m128i*) w);
-        w = (const void*) ((uintptr_t) w + 8);
-        const __m128i vxb0 = _mm_unpacklo_epi8(vb0, _mm_cmpgt_epi8(_mm_setzero_si128(), vb0));
+        w = (const void*) ((const int8_t*) w + 8);
+        const __m128i vxb0 = _mm_srai_epi16(_mm_unpacklo_epi8(vb0, vb0), 8);
 
         vacc0x0123 = _mm_maddd_epi16(
           _mm_shuffle_epi32(vxa0, _MM_SHUFFLE(0, 0, 0, 0)), vxb0, vacc0x0123);
@@ -179,8 +179,8 @@
 
         if (k > 2 * sizeof(int8_t)) {
           const __m128i vb1 = _mm_loadl_epi64((const __m128i*) w);
-          w = (const void*) ((uintptr_t) w + 8);
-          const __m128i vxb1 = _mm_unpacklo_epi8(vb1, _mm_cmpgt_epi8(_mm_setzero_si128(), vb1));
+          w = (const void*) ((const int8_t*) w + 8);
+          const __m128i vxb1 = _mm_srai_epi16(_mm_unpacklo_epi8(vb1, vb1), 8);
 
           vacc0x0123 = _mm_maddd_epi16(
             _mm_shuffle_epi32(vxa0, _MM_SHUFFLE(1, 1, 1, 1)), vxb1, vacc0x0123);
@@ -193,8 +193,8 @@
 
           if (k > 4 * sizeof(int8_t)) {
             const __m128i vb2 = _mm_loadl_epi64((const __m128i*) w);
-            w = (const void*) ((uintptr_t) w + 8);
-            const __m128i vxb2 = _mm_unpacklo_epi8(vb2, _mm_cmpgt_epi8(_mm_setzero_si128(), vb2));
+            w = (const void*) ((const int8_t*) w + 8);
+            const __m128i vxb2 = _mm_srai_epi16(_mm_unpacklo_epi8(vb2, vb2), 8);
 
             vacc0x0123 = _mm_maddd_epi16(
               _mm_shuffle_epi32(vxa0, _MM_SHUFFLE(2, 2, 2, 2)), vxb2, vacc0x0123);
commit	e5eee46df38bb528dd4649cd60191d121d4a1a67	[log] [tgz]
author	Marat Dukhan <maratek@google.com>	Thu Jul 01 19:34:39 2021 -0700
committer	XNNPACK Team <xnnpack-github-robot@google.com>	Thu Jul 01 19:35:33 2021 -0700
tree	3edbd0a33387c1dd182490efda2291e1c3d13d75
parent	c698c11c2232546e51874611ce16cf70ab75f92f [diff] [blame]