Improve unpacking in SSE4+ QC8/QS8/QU8 GEMM/IGEMM microkernels PiperOrigin-RevId: 390004983

commit: 0c2a31ee2d0b9189a316e216f8615208a6a510c9 [log] [tgz]
author: Marat Dukhan <maratek@google.com> Tue Aug 10 16:24:28 2021 -0700
committer: XNNPACK Team <xnnpack-github-robot@google.com> Tue Aug 10 16:25:06 2021 -0700
tree: 791402a46856c328b89ff12f780bf332fe6e222f
parent: d960231d67d8d89e8c66d4234f4fa8567dcf2700 [diff] [blame]
diff --git a/src/qs8-igemm/gen/1x4c8-minmax-fp32-avx-ld128.c b/src/qs8-igemm/gen/1x4c8-minmax-fp32-avx-ld128.c
index 22ad639..dfb6a2d 100644
--- a/src/qs8-igemm/gen/1x4c8-minmax-fp32-avx-ld128.c
+++ b/src/qs8-igemm/gen/1x4c8-minmax-fp32-avx-ld128.c

@@ -65,16 +65,14 @@
         a0 += 8;
 
         const __m128i vb01 = _mm_load_si128((const __m128i*) w);
-        const __m128i vsb01 = _mm_cmpgt_epi8(_mm_setzero_si128(), vb01);
-        const __m128i vxb0 = _mm_unpacklo_epi8(vb01, vsb01);
-        const __m128i vxb1 = _mm_unpackhi_epi8(vb01, vsb01);
+        const __m128i vxb0 = _mm_cvtepi8_epi16(vb01);
+        const __m128i vxb1 = _mm_srai_epi16(_mm_unpackhi_epi8(vb01, vb01), 8);
 
         vacc0x0 = _mm_add_epi32(vacc0x0, _mm_madd_epi16(vxa0, vxb0));
         vacc0x1 = _mm_add_epi32(vacc0x1, _mm_madd_epi16(vxa0, vxb1));
         const __m128i vb23 = _mm_load_si128((const __m128i*) ((const int8_t*) w + 16));
-        const __m128i vsb23 = _mm_cmpgt_epi8(_mm_setzero_si128(), vb23);
-        const __m128i vxb2 = _mm_unpacklo_epi8(vb23, vsb23);
-        const __m128i vxb3 = _mm_unpackhi_epi8(vb23, vsb23);
+        const __m128i vxb2 = _mm_cvtepi8_epi16(vb23);
+        const __m128i vxb3 = _mm_srai_epi16(_mm_unpackhi_epi8(vb23, vb23), 8);
 
         vacc0x2 = _mm_add_epi32(vacc0x2, _mm_madd_epi16(vxa0, vxb2));
         vacc0x3 = _mm_add_epi32(vacc0x3, _mm_madd_epi16(vxa0, vxb3));
commit	0c2a31ee2d0b9189a316e216f8615208a6a510c9	[log] [tgz]
author	Marat Dukhan <maratek@google.com>	Tue Aug 10 16:24:28 2021 -0700
committer	XNNPACK Team <xnnpack-github-robot@google.com>	Tue Aug 10 16:25:06 2021 -0700
tree	791402a46856c328b89ff12f780bf332fe6e222f
parent	d960231d67d8d89e8c66d4234f4fa8567dcf2700 [diff] [blame]