Blame - src/f32-dwconv-spchw/5x5s2p2-neonfma.c - platform/external/XNNPACK

blob: 1991d33915c6bf3470dcfb7666ed019120ffe216 [file] [log] [blame]

XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	1	// Copyright 2019 Google LLC
				2	//
				3	// This source code is licensed under the BSD-style license found in the
				4	// LICENSE file in the root directory of this source tree.
				5
				6	#include <assert.h>
				7
				8	#include <arm_neon.h>
				9
				10	#include <xnnpack/dwconv.h>
				11	#include <xnnpack/math.h>
				12
				13
				14	void xnn_f32_dwconv_spchw_ukernel_5x5s2p2__neonfma(
				15	size_t m,
				16	size_t n,
				17	const float* input,
				18	const float* weights,
Erich Elsen	4e5db3d	2020-05-07 08:57:47 -0700	[diff] [blame^]	19	const float* zero,
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	20	float* output,
Erich Elsen	4e5db3d	2020-05-07 08:57:47 -0700	[diff] [blame^]	21	uint32_t padding_top,
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	22	size_t input_tuple_stride,
				23	size_t output_tuple_stride,
				24	size_t input_width_stride,
				25	size_t output_width_stride,
Marat Dukhan	f196d01	2020-04-15 11:50:03 -0700	[diff] [blame]	26	const union xnn_f32_spchw_params params[restrict XNN_MIN_ELEMENTS(1)])
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	27	{
				28	assert(n != 0);
Erich Elsen	4e5db3d	2020-05-07 08:57:47 -0700	[diff] [blame^]	29	assert(padding_top >= 1 && padding_top <= 2);
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	30
				31	const uint32x4_t vmask_even = vld1q_u32(params->neon.mask_even);
				32	const uint32x4_t vmask_odd = vld1q_u32(params->neon.mask_odd);
Frank Barchard	fcfdc0e	2019-10-21 15:58:42 -0700	[diff] [blame]	33	const float32x4_t vmax = vld1q_dup_f32(&params->neon.max);
				34	const float32x4_t vmin = vld1q_dup_f32(&params->neon.min);
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	35
Erich Elsen	4e5db3d	2020-05-07 08:57:47 -0700	[diff] [blame^]	36	const size_t input_width_decrement_single = input_tuple_stride * ( (n - 1) / 4 + 1);
				37	const size_t input_width_increment_single = input_width_stride - input_width_decrement_single;
				38	const size_t input_width_increment_double= input_width_stride * 2 - input_width_decrement_single;
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	39	const size_t output_width_increment_single = output_width_stride - (n + 1) / 8 * output_tuple_stride;
				40
Erich Elsen	4e5db3d	2020-05-07 08:57:47 -0700	[diff] [blame^]	41	const float* i0;
				42	const float* i1;
				43	const float* i2;
				44	const float* i3;
				45	const float* i4;
				46
				47	if (padding_top == 1) {
				48	i0 = zero;
				49	i1 = input;
				50	i2 = (const float*) ((uintptr_t) i1 + input_width_stride);
				51	i3 = (const float*) ((uintptr_t) i2 + input_width_stride);
				52	i4 = (const float*) ((uintptr_t) i3 + input_width_stride);
				53	} else {
				54	i0 = zero;
				55	i1 = zero;
				56	i2 = input;
				57	i3 = (const float*) ((uintptr_t) i2 + input_width_stride);
				58	i4 = (const float*) ((uintptr_t) i3 + input_width_stride);
				59	}
				60	if (m == 1) {
				61	i3 = i4 = zero;
				62	}
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	63
				64	float* output0 = output;
				65
				66	const float32x4_t vw0123 = vld1q_f32(weights);
				67	const float32x4_t vw4567 = vld1q_f32(weights + 4);
				68	const float32x4_t vw89AB = vld1q_f32(weights + 8);
				69	const float32x4_t vwCDEF = vld1q_f32(weights + 12);
				70	const float32x4_t vwGHIJ = vld1q_f32(weights + 16);
				71	const float32x4_t vwKLMN = vld1q_f32(weights + 20);
				72	const float32x2_t vwOP = vld1_f32( weights + 24);
				73
				74	do {
				75	float32x4_t vi0x0123 = vmovq_n_f32(0.0f);
				76	float32x4_t vi1x0123 = vmovq_n_f32(0.0f);
				77	float32x4_t vi2x0123 = vmovq_n_f32(0.0f);
				78	float32x4_t vi3x0123 = vmovq_n_f32(0.0f);
				79	float32x4_t vi4x0123 = vmovq_n_f32(0.0f);
				80	float32x4_t vi0x4567 = vld1q_f32(i0); i0 = (const float*) ((uintptr_t) i0 + input_tuple_stride);
				81	float32x4_t vi1x4567 = vld1q_f32(i1); i1 = (const float*) ((uintptr_t) i1 + input_tuple_stride);
				82	float32x4_t vi2x4567 = vld1q_f32(i2); i2 = (const float*) ((uintptr_t) i2 + input_tuple_stride);
				83	float32x4_t vi3x4567 = vld1q_f32(i3); i3 = (const float*) ((uintptr_t) i3 + input_tuple_stride);
				84	float32x4_t vi4x4567 = vld1q_f32(i4); i4 = (const float*) ((uintptr_t) i4 + input_tuple_stride);
				85
Erich Elsen	179ac85	2019-11-15 18:17:12 -0800	[diff] [blame]	86	size_t k = n;
				87	for (; k > 8; k -= 8) {
				88	float32x4_t vo468Ap00 = vdupq_laneq_f32(vw0123, 0);
				89
				90	float32x4_t vi0x89AB;
				91	float32x4_t vi1x89AB;
				92	float32x4_t vi2x89AB;
				93	float32x4_t vi3x89AB;
				94	float32x4_t vi4x89AB;
				95
				96	vi0x89AB = vld1q_f32(i0); i0 = (const float*) ((uintptr_t) i0 + input_tuple_stride);
				97	vi1x89AB = vld1q_f32(i1); i1 = (const float*) ((uintptr_t) i1 + input_tuple_stride);
				98	vi2x89AB = vld1q_f32(i2); i2 = (const float*) ((uintptr_t) i2 + input_tuple_stride);
				99	vi3x89AB = vld1q_f32(i3); i3 = (const float*) ((uintptr_t) i3 + input_tuple_stride);
				100	vi4x89AB = vld1q_f32(i4); i4 = (const float*) ((uintptr_t) i4 + input_tuple_stride);
				101
				102	float32x4_t vi0xCDEF;
				103	float32x4_t vi1xCDEF;
				104	float32x4_t vi2xCDEF;
				105	float32x4_t vi3xCDEF;
				106	float32x4_t vi4xCDEF;
				107
				108	vi0xCDEF = vld1q_f32(i0); i0 = (const float*) ((uintptr_t) i0 + input_tuple_stride);
				109	vi1xCDEF = vld1q_f32(i1); i1 = (const float*) ((uintptr_t) i1 + input_tuple_stride);
				110	vi2xCDEF = vld1q_f32(i2); i2 = (const float*) ((uintptr_t) i2 + input_tuple_stride);
				111	vi3xCDEF = vld1q_f32(i3); i3 = (const float*) ((uintptr_t) i3 + input_tuple_stride);
				112	vi4xCDEF = vld1q_f32(i4); i4 = (const float*) ((uintptr_t) i4 + input_tuple_stride);
				113
				114	float32x4_t vi0x468A = vuzp1q_f32(vi0x4567, vi0x89AB);
				115	float32x4_t vi0x579B = vuzp2q_f32(vi0x4567, vi0x89AB);
				116	float32x4_t vi1x468A = vuzp1q_f32(vi1x4567, vi1x89AB);
				117	float32x4_t vi1x579B = vuzp2q_f32(vi1x4567, vi1x89AB);
				118	float32x4_t vi2x468A = vuzp1q_f32(vi2x4567, vi2x89AB);
				119	float32x4_t vi2x579B = vuzp2q_f32(vi2x4567, vi2x89AB);
				120	float32x4_t vi3x468A = vuzp1q_f32(vi3x4567, vi3x89AB);
				121	float32x4_t vi3x579B = vuzp2q_f32(vi3x4567, vi3x89AB);
				122	float32x4_t vi4x468A = vuzp1q_f32(vi4x4567, vi4x89AB);
				123	float32x4_t vi4x579B = vuzp2q_f32(vi4x4567, vi4x89AB);
				124
				125	// middle tap
				126	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi0x468A, vw0123, 3);
				127	float32x4_t vo468Ap01 = vmulq_laneq_f32(vi1x468A, vw89AB, 0);
				128	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi2x468A, vwCDEF, 1);
				129	vo468Ap01 = vfmaq_laneq_f32(vo468Ap01, vi3x468A, vwGHIJ, 2);
				130	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi4x468A, vwKLMN, 3);
				131
				132	// one left
				133	const float32x4_t vi0x3579 = vextq_f32(vi0x0123, vi0x579B, 3);
				134	const float32x4_t vi1x3579 = vextq_f32(vi1x0123, vi1x579B, 3);
				135	const float32x4_t vi2x3579 = vextq_f32(vi2x0123, vi2x579B, 3);
				136	const float32x4_t vi3x3579 = vextq_f32(vi3x0123, vi3x579B, 3);
				137	const float32x4_t vi4x3579 = vextq_f32(vi4x0123, vi4x579B, 3);
				138
				139	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi0x3579, vw0123, 2);
				140	vo468Ap01 = vfmaq_laneq_f32(vo468Ap01, vi1x3579, vw4567, 3);
				141	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi2x3579, vwCDEF, 0);
				142	vo468Ap01 = vfmaq_laneq_f32(vo468Ap01, vi3x3579, vwGHIJ, 1);
				143	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi4x3579, vwKLMN, 2);
				144
				145	// two left
				146	// getting the vector to use for the far left tap is annoying
				147	// as we can't ext anything we currently have to get it.
				148	// To do this, we get a bit ugly. Interpret the float 32x4
				149	// vector as int 64x2. Then left shift by 32. Interpret
				150	// again as float 32x4. Now the right most bits are what we
				151	// want them to be for the following ext.
				152	const float32x4_t vi0x0012 = vreinterpretq_f32_u64(vshlq_n_u64(vreinterpretq_u64_f32(vi0x0123), 32));
				153	const float32x4_t vi1x0012 = vreinterpretq_f32_u64(vshlq_n_u64(vreinterpretq_u64_f32(vi1x0123), 32));
				154	const float32x4_t vi2x0012 = vreinterpretq_f32_u64(vshlq_n_u64(vreinterpretq_u64_f32(vi2x0123), 32));
				155	const float32x4_t vi3x0012 = vreinterpretq_f32_u64(vshlq_n_u64(vreinterpretq_u64_f32(vi3x0123), 32));
				156	const float32x4_t vi4x0012 = vreinterpretq_f32_u64(vshlq_n_u64(vreinterpretq_u64_f32(vi4x0123), 32));
				157
				158	const float32x4_t vi0x2468 = vextq_f32(vi0x0012, vi0x468A, 3);
				159	const float32x4_t vi1x2468 = vextq_f32(vi1x0012, vi1x468A, 3);
				160	const float32x4_t vi2x2468 = vextq_f32(vi2x0012, vi2x468A, 3);
				161	const float32x4_t vi3x2468 = vextq_f32(vi3x0012, vi3x468A, 3);
				162	const float32x4_t vi4x2468 = vextq_f32(vi4x0012, vi4x468A, 3);
				163
				164	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi0x2468, vw0123, 1);
				165	vo468Ap01 = vfmaq_laneq_f32(vo468Ap01, vi1x2468, vw4567, 2);
				166	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi2x2468, vw89AB, 3);
				167	vo468Ap01 = vfmaq_laneq_f32(vo468Ap01, vi3x2468, vwGHIJ, 0);
				168	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi4x2468, vwKLMN, 1);
				169
				170	vi0x0123 = vi0x89AB;
				171	vi1x0123 = vi1x89AB;
				172	vi2x0123 = vi2x89AB;
				173	vi3x0123 = vi3x89AB;
				174	vi4x0123 = vi4x89AB;
				175
				176	// one right
				177	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi0x579B, vw4567, 0);
				178	vo468Ap01 = vfmaq_laneq_f32(vo468Ap01, vi1x579B, vw89AB, 1);
				179	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi2x579B, vwCDEF, 2);
				180	vo468Ap01 = vfmaq_laneq_f32(vo468Ap01, vi3x579B, vwGHIJ, 3);
				181	vo468Ap00 = vfmaq_lane_f32( vo468Ap00, vi4x579B, vwOP, 0);
				182
				183	// two right
				184	const float32x4_t vi0x68AC = vextq_f32(vi0x468A, vi0xCDEF, 1);
				185	const float32x4_t vi1x68AC = vextq_f32(vi1x468A, vi1xCDEF, 1);
				186	const float32x4_t vi2x68AC = vextq_f32(vi2x468A, vi2xCDEF, 1);
				187	const float32x4_t vi3x68AC = vextq_f32(vi3x468A, vi3xCDEF, 1);
				188	const float32x4_t vi4x68AC = vextq_f32(vi4x468A, vi4xCDEF, 1);
				189
				190	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi0x68AC, vw4567, 1);
				191	vo468Ap01 = vfmaq_laneq_f32(vo468Ap01, vi1x68AC, vw89AB, 2);
				192	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi2x68AC, vwCDEF, 3);
				193	vo468Ap01 = vfmaq_laneq_f32(vo468Ap01, vi3x68AC, vwKLMN, 0);
				194	vo468Ap00 = vfmaq_lane_f32( vo468Ap00, vi4x68AC, vwOP, 1);
				195
				196	vi0x4567 = vi0xCDEF;
				197	vi1x4567 = vi1xCDEF;
				198	vi2x4567 = vi2xCDEF;
				199	vi3x4567 = vi3xCDEF;
				200	vi4x4567 = vi4xCDEF;
				201
				202	float32x4_t vo0 = vaddq_f32(vo468Ap00, vo468Ap01);
				203
				204	vo0 = vmaxq_f32(vo0, vmin);
				205	vo0 = vminq_f32(vo0, vmax);
				206
				207	size_t k_tmp = (k + 1) / 2;
				208	if XNN_LIKELY(k_tmp >= 4) {
				209	vst1q_f32(output0, vo0);
				210	output0 = (float*) ((uintptr_t) output0 + output_tuple_stride);
				211	} else {
				212	float* output0_lo = output0;
				213	float32x2_t vo0_lo = vget_low_f32(vo0);
				214	if (k_tmp & 2) {
				215	vst1_f32(output0_lo, vo0_lo); output0_lo += 2;
				216	vo0_lo = vget_high_f32(vo0);
				217	}
				218	if (k_tmp & 1) {
				219	vst1_lane_f32(output0_lo, vo0_lo, 0);
				220	}
				221	}
				222	}
				223
				224	{
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	225	float32x4_t vo468Ap00 = vdupq_laneq_f32(vw0123, 0);
				226
				227	float32x4_t vi0x89AB;
				228	float32x4_t vi1x89AB;
				229	float32x4_t vi2x89AB;
				230	float32x4_t vi3x89AB;
				231	float32x4_t vi4x89AB;
				232
				233	if XNN_LIKELY(k > 4) {
				234	vi0x89AB = vld1q_f32(i0); i0 = (const float*) ((uintptr_t) i0 + input_tuple_stride);
				235	vi1x89AB = vld1q_f32(i1); i1 = (const float*) ((uintptr_t) i1 + input_tuple_stride);
				236	vi2x89AB = vld1q_f32(i2); i2 = (const float*) ((uintptr_t) i2 + input_tuple_stride);
				237	vi3x89AB = vld1q_f32(i3); i3 = (const float*) ((uintptr_t) i3 + input_tuple_stride);
				238	vi4x89AB = vld1q_f32(i4); i4 = (const float*) ((uintptr_t) i4 + input_tuple_stride);
				239	} else {
				240	vi0x89AB = vmovq_n_f32(0.f);
				241	vi1x89AB = vmovq_n_f32(0.f);
				242	vi2x89AB = vmovq_n_f32(0.f);
				243	vi3x89AB = vmovq_n_f32(0.f);
				244	vi4x89AB = vmovq_n_f32(0.f);
				245	}
				246
				247	float32x4_t vi0xCDEF;
				248	float32x4_t vi1xCDEF;
				249	float32x4_t vi2xCDEF;
				250	float32x4_t vi3xCDEF;
				251	float32x4_t vi4xCDEF;
				252
				253	if XNN_LIKELY(k > 8) {
				254	vi0xCDEF = vld1q_f32(i0); i0 = (const float*) ((uintptr_t) i0 + input_tuple_stride);
				255	vi1xCDEF = vld1q_f32(i1); i1 = (const float*) ((uintptr_t) i1 + input_tuple_stride);
				256	vi2xCDEF = vld1q_f32(i2); i2 = (const float*) ((uintptr_t) i2 + input_tuple_stride);
				257	vi3xCDEF = vld1q_f32(i3); i3 = (const float*) ((uintptr_t) i3 + input_tuple_stride);
				258	vi4xCDEF = vld1q_f32(i4); i4 = (const float*) ((uintptr_t) i4 + input_tuple_stride);
				259	} else {
				260	vi0xCDEF = vmovq_n_f32(0.f);
				261	vi1xCDEF = vmovq_n_f32(0.f);
				262	vi2xCDEF = vmovq_n_f32(0.f);
				263	vi3xCDEF = vmovq_n_f32(0.f);
				264	vi4xCDEF = vmovq_n_f32(0.f);
				265	}
				266	float32x4_t vi0x468A = vuzp1q_f32(vi0x4567, vi0x89AB);
				267	float32x4_t vi0x579B = vuzp2q_f32(vi0x4567, vi0x89AB);
				268	float32x4_t vi1x468A = vuzp1q_f32(vi1x4567, vi1x89AB);
				269	float32x4_t vi1x579B = vuzp2q_f32(vi1x4567, vi1x89AB);
				270	float32x4_t vi2x468A = vuzp1q_f32(vi2x4567, vi2x89AB);
				271	float32x4_t vi2x579B = vuzp2q_f32(vi2x4567, vi2x89AB);
				272	float32x4_t vi3x468A = vuzp1q_f32(vi3x4567, vi3x89AB);
				273	float32x4_t vi3x579B = vuzp2q_f32(vi3x4567, vi3x89AB);
				274	float32x4_t vi4x468A = vuzp1q_f32(vi4x4567, vi4x89AB);
				275	float32x4_t vi4x579B = vuzp2q_f32(vi4x4567, vi4x89AB);
				276
Marat Dukhan	e3fad19	2019-11-22 13:01:42 -0800	[diff] [blame]	277	vi0x468A = vreinterpretq_f32_u32(vandq_u32(vmask_even, vreinterpretq_u32_f32(vi0x468A)));
				278	vi1x468A = vreinterpretq_f32_u32(vandq_u32(vmask_even, vreinterpretq_u32_f32(vi1x468A)));
				279	vi2x468A = vreinterpretq_f32_u32(vandq_u32(vmask_even, vreinterpretq_u32_f32(vi2x468A)));
				280	vi3x468A = vreinterpretq_f32_u32(vandq_u32(vmask_even, vreinterpretq_u32_f32(vi3x468A)));
				281	vi4x468A = vreinterpretq_f32_u32(vandq_u32(vmask_even, vreinterpretq_u32_f32(vi4x468A)));
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	282
Marat Dukhan	9f08af4	2019-11-24 02:30:26 -0800	[diff] [blame]	283	vi0x579B = vreinterpretq_f32_u32(vandq_u32(vmask_odd, vreinterpretq_u32_f32(vi0x579B)));
				284	vi1x579B = vreinterpretq_f32_u32(vandq_u32(vmask_odd, vreinterpretq_u32_f32(vi1x579B)));
				285	vi2x579B = vreinterpretq_f32_u32(vandq_u32(vmask_odd, vreinterpretq_u32_f32(vi2x579B)));
				286	vi3x579B = vreinterpretq_f32_u32(vandq_u32(vmask_odd, vreinterpretq_u32_f32(vi3x579B)));
				287	vi4x579B = vreinterpretq_f32_u32(vandq_u32(vmask_odd, vreinterpretq_u32_f32(vi4x579B)));
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	288
				289	// middle tap
				290	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi0x468A, vw0123, 3);
				291	float32x4_t vo468Ap01 = vmulq_laneq_f32(vi1x468A, vw89AB, 0);
				292	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi2x468A, vwCDEF, 1);
				293	vo468Ap01 = vfmaq_laneq_f32(vo468Ap01, vi3x468A, vwGHIJ, 2);
				294	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi4x468A, vwKLMN, 3);
				295
				296	// one left
				297	const float32x4_t vi0x3579 = vextq_f32(vi0x0123, vi0x579B, 3);
				298	const float32x4_t vi1x3579 = vextq_f32(vi1x0123, vi1x579B, 3);
				299	const float32x4_t vi2x3579 = vextq_f32(vi2x0123, vi2x579B, 3);
				300	const float32x4_t vi3x3579 = vextq_f32(vi3x0123, vi3x579B, 3);
				301	const float32x4_t vi4x3579 = vextq_f32(vi4x0123, vi4x579B, 3);
				302
				303	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi0x3579, vw0123, 2);
				304	vo468Ap01 = vfmaq_laneq_f32(vo468Ap01, vi1x3579, vw4567, 3);
				305	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi2x3579, vwCDEF, 0);
				306	vo468Ap01 = vfmaq_laneq_f32(vo468Ap01, vi3x3579, vwGHIJ, 1);
				307	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi4x3579, vwKLMN, 2);
				308
				309	// two left
				310	// getting the vector to use for the far left tap is annoying
				311	// as we can't ext anything we currently have to get it.
				312	// To do this, we get a bit ugly. Interpret the float 32x4
				313	// vector as int 64x2. Then left shift by 32. Interpret
				314	// again as float 32x4. Now the right most bits are what we
				315	// want them to be for the following ext.
				316	const float32x4_t vi0x0012 = vreinterpretq_f32_u64(vshlq_n_u64(vreinterpretq_u64_f32(vi0x0123), 32));
				317	const float32x4_t vi1x0012 = vreinterpretq_f32_u64(vshlq_n_u64(vreinterpretq_u64_f32(vi1x0123), 32));
				318	const float32x4_t vi2x0012 = vreinterpretq_f32_u64(vshlq_n_u64(vreinterpretq_u64_f32(vi2x0123), 32));
				319	const float32x4_t vi3x0012 = vreinterpretq_f32_u64(vshlq_n_u64(vreinterpretq_u64_f32(vi3x0123), 32));
				320	const float32x4_t vi4x0012 = vreinterpretq_f32_u64(vshlq_n_u64(vreinterpretq_u64_f32(vi4x0123), 32));
				321
				322	const float32x4_t vi0x2468 = vextq_f32(vi0x0012, vi0x468A, 3);
				323	const float32x4_t vi1x2468 = vextq_f32(vi1x0012, vi1x468A, 3);
				324	const float32x4_t vi2x2468 = vextq_f32(vi2x0012, vi2x468A, 3);
				325	const float32x4_t vi3x2468 = vextq_f32(vi3x0012, vi3x468A, 3);
				326	const float32x4_t vi4x2468 = vextq_f32(vi4x0012, vi4x468A, 3);
				327
				328	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi0x2468, vw0123, 1);
				329	vo468Ap01 = vfmaq_laneq_f32(vo468Ap01, vi1x2468, vw4567, 2);
				330	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi2x2468, vw89AB, 3);
				331	vo468Ap01 = vfmaq_laneq_f32(vo468Ap01, vi3x2468, vwGHIJ, 0);
				332	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi4x2468, vwKLMN, 1);
				333
				334	vi0x0123 = vi0x89AB;
				335	vi1x0123 = vi1x89AB;
				336	vi2x0123 = vi2x89AB;
				337	vi3x0123 = vi3x89AB;
				338	vi4x0123 = vi4x89AB;
				339
				340	// one right
				341	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi0x579B, vw4567, 0);
				342	vo468Ap01 = vfmaq_laneq_f32(vo468Ap01, vi1x579B, vw89AB, 1);
				343	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi2x579B, vwCDEF, 2);
				344	vo468Ap01 = vfmaq_laneq_f32(vo468Ap01, vi3x579B, vwGHIJ, 3);
				345	vo468Ap00 = vfmaq_lane_f32( vo468Ap00, vi4x579B, vwOP, 0);
				346
				347	// two right
				348	const float32x4_t vi0x68AC = vextq_f32(vi0x468A, vi0xCDEF, 1);
				349	const float32x4_t vi1x68AC = vextq_f32(vi1x468A, vi1xCDEF, 1);
				350	const float32x4_t vi2x68AC = vextq_f32(vi2x468A, vi2xCDEF, 1);
				351	const float32x4_t vi3x68AC = vextq_f32(vi3x468A, vi3xCDEF, 1);
				352	const float32x4_t vi4x68AC = vextq_f32(vi4x468A, vi4xCDEF, 1);
				353
				354	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi0x68AC, vw4567, 1);
				355	vo468Ap01 = vfmaq_laneq_f32(vo468Ap01, vi1x68AC, vw89AB, 2);
				356	vo468Ap00 = vfmaq_laneq_f32(vo468Ap00, vi2x68AC, vwCDEF, 3);
				357	vo468Ap01 = vfmaq_laneq_f32(vo468Ap01, vi3x68AC, vwKLMN, 0);
				358	vo468Ap00 = vfmaq_lane_f32( vo468Ap00, vi4x68AC, vwOP, 1);
				359
				360	vi0x4567 = vi0xCDEF;
				361	vi1x4567 = vi1xCDEF;
				362	vi2x4567 = vi2xCDEF;
				363	vi3x4567 = vi3xCDEF;
				364	vi4x4567 = vi4xCDEF;
				365
				366	float32x4_t vo0 = vaddq_f32(vo468Ap00, vo468Ap01);
				367
Frank Barchard	fcfdc0e	2019-10-21 15:58:42 -0700	[diff] [blame]	368	vo0 = vmaxq_f32(vo0, vmin);
				369	vo0 = vminq_f32(vo0, vmax);
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	370
				371	size_t k_tmp = (k + 1) / 2;
				372	if XNN_LIKELY(k_tmp >= 4) {
				373	vst1q_f32(output0, vo0);
				374	output0 = (float*) ((uintptr_t) output0 + output_tuple_stride);
				375	} else {
				376	float* output0_lo = output0;
				377	float32x2_t vo0_lo = vget_low_f32(vo0);
				378	if (k_tmp & 2) {
				379	vst1_f32(output0_lo, vo0_lo); output0_lo += 2;
				380	vo0_lo = vget_high_f32(vo0);
				381	}
				382	if (k_tmp & 1) {
				383	vst1_lane_f32(output0_lo, vo0_lo, 0);
				384	}
				385	}
				386	}
				387
Erich Elsen	4e5db3d	2020-05-07 08:57:47 -0700	[diff] [blame^]	388	i0 = (const float*) ((uintptr_t) i2 - input_width_decrement_single);
				389	i1 = (const float*) ((uintptr_t) i2 + input_width_increment_single);
				390	i2 = (const float*) ((uintptr_t) i2 + input_width_increment_double);
				391	i3 = (const float*) ((uintptr_t) i3 + input_width_increment_double);
				392	i4 = (const float*) ((uintptr_t) i4 + input_width_increment_double);
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	393	output0 = (float*) ((uintptr_t) output0 + output_width_increment_single);
				394	m -= 1;
Erich Elsen	4e5db3d	2020-05-07 08:57:47 -0700	[diff] [blame^]	395	if (m == 1) {
				396	i3 = i4 = zero;
				397	}
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	398	} while (m > 0);
				399	}