Improve unpacking in SSE4+ QC8/QS8/QU8 GEMM/IGEMM microkernels PiperOrigin-RevId: 390004983

commit: 0c2a31ee2d0b9189a316e216f8615208a6a510c9 [log] [tgz]
author: Marat Dukhan <maratek@google.com> Tue Aug 10 16:24:28 2021 -0700
committer: XNNPACK Team <xnnpack-github-robot@google.com> Tue Aug 10 16:25:06 2021 -0700
tree: 791402a46856c328b89ff12f780bf332fe6e222f
parent: d960231d67d8d89e8c66d4234f4fa8567dcf2700 [diff] [blame]
diff --git a/src/qc8-gemm/gen/3x4c8-minmax-fp32-sse41-ld128.c b/src/qc8-gemm/gen/3x4c8-minmax-fp32-sse41-ld128.c
index dfd6c2d..c0e6792 100644
--- a/src/qc8-gemm/gen/3x4c8-minmax-fp32-sse41-ld128.c
+++ b/src/qc8-gemm/gen/3x4c8-minmax-fp32-sse41-ld128.c

@@ -80,9 +80,8 @@
       a2 += 8;
 
       const __m128i vb01 = _mm_load_si128((const __m128i*) w);
-      const __m128i vsb01 = _mm_cmpgt_epi8(_mm_setzero_si128(), vb01);
-      const __m128i vxb0 = _mm_unpacklo_epi8(vb01, vsb01);
-      const __m128i vxb1 = _mm_unpackhi_epi8(vb01, vsb01);
+      const __m128i vxb0 = _mm_cvtepi8_epi16(vb01);
+      const __m128i vxb1 = _mm_srai_epi16(_mm_unpackhi_epi8(vb01, vb01), 8);
 
       vacc0x0 = _mm_add_epi32(vacc0x0, _mm_madd_epi16(vxa0, vxb0));
       vacc0x1 = _mm_add_epi32(vacc0x1, _mm_madd_epi16(vxa0, vxb1));
@@ -91,9 +90,8 @@
       vacc2x0 = _mm_add_epi32(vacc2x0, _mm_madd_epi16(vxa2, vxb0));
       vacc2x1 = _mm_add_epi32(vacc2x1, _mm_madd_epi16(vxa2, vxb1));
       const __m128i vb23 = _mm_load_si128((const __m128i*) ((const int8_t*) w + 16));
-      const __m128i vsb23 = _mm_cmpgt_epi8(_mm_setzero_si128(), vb23);
-      const __m128i vxb2 = _mm_unpacklo_epi8(vb23, vsb23);
-      const __m128i vxb3 = _mm_unpackhi_epi8(vb23, vsb23);
+      const __m128i vxb2 = _mm_cvtepi8_epi16(vb23);
+      const __m128i vxb3 = _mm_srai_epi16(_mm_unpackhi_epi8(vb23, vb23), 8);
 
       vacc0x2 = _mm_add_epi32(vacc0x2, _mm_madd_epi16(vxa0, vxb2));
       vacc0x3 = _mm_add_epi32(vacc0x3, _mm_madd_epi16(vxa0, vxb3));
commit	0c2a31ee2d0b9189a316e216f8615208a6a510c9	[log] [tgz]
author	Marat Dukhan <maratek@google.com>	Tue Aug 10 16:24:28 2021 -0700
committer	XNNPACK Team <xnnpack-github-robot@google.com>	Tue Aug 10 16:25:06 2021 -0700
tree	791402a46856c328b89ff12f780bf332fe6e222f
parent	d960231d67d8d89e8c66d4234f4fa8567dcf2700 [diff] [blame]