Blame - src/f32-ibilinear/psimd.c.in - platform/external/XNNPACK

blob: c65c6b3d5abd72cff603c1d9d98d27c5ec44a74a [file] [log] [blame]

Marat Dukhan	35dacfb	2019-11-07 19:18:16 -0800	[diff] [blame]	1	// Copyright 2019 Google LLC
				2	//
				3	// This source code is licensed under the BSD-style license found in the
				4	// LICENSE file in the root directory of this source tree.
				5
				6	$assert CHANNEL_TILE % 4 == 0
				7	$assert CHANNEL_TILE >= 4
				8	$assert PIXEL_TILE == 1
				9	$ABC = "0123456789ABCDEFGHIJKLMN"
				10	#include <assert.h>
				11
				12	#include <psimd.h>
				13
Marat Dukhan	660fd19	2020-03-10 04:55:30 -0700	[diff] [blame^]	14	#include <xnnpack/ibilinear.h>
Marat Dukhan	35dacfb	2019-11-07 19:18:16 -0800	[diff] [blame]	15
				16
Marat Dukhan	660fd19	2020-03-10 04:55:30 -0700	[diff] [blame^]	17	void xnn_f32_ibilinear_ukernel__psimd_c${CHANNEL_TILE}${"" if PIXEL_TILE == 1 else "x%d" % PIXEL_TILE}(
Marat Dukhan	35dacfb	2019-11-07 19:18:16 -0800	[diff] [blame]	18	size_t output_pixels,
				19	size_t channels,
				20	const float**restrict input,
Marat Dukhan	9fab3f9	2019-11-08 14:55:19 -0800	[diff] [blame]	21	size_t input_offset,
Marat Dukhan	35dacfb	2019-11-07 19:18:16 -0800	[diff] [blame]	22	const float*restrict weights,
				23	float*restrict output,
				24	size_t output_increment)
				25	{
				26	assert(output_pixels != 0);
				27	assert(channels != 0);
				28	assert(channels % sizeof(float) == 0);
				29
				30	do {
Marat Dukhan	9fab3f9	2019-11-08 14:55:19 -0800	[diff] [blame]	31	const float* i0 = (const float*) ((uintptr_t) input[0] + input_offset);
				32	const float* i1 = (const float*) ((uintptr_t) input[1] + input_offset);
				33	const float* i2 = (const float*) ((uintptr_t) input[2] + input_offset);
				34	const float* i3 = (const float*) ((uintptr_t) input[3] + input_offset);
Marat Dukhan	35dacfb	2019-11-07 19:18:16 -0800	[diff] [blame]	35	input += 4;
				36
				37	const psimd_f32 valphah = psimd_load_splat_f32(weights);
				38	const psimd_f32 valphav = psimd_load_splat_f32(weights + 1);
				39	weights += 2;
				40
				41	size_t c = channels;
				42	for (; c >= ${CHANNEL_TILE} * sizeof(float); c -= ${CHANNEL_TILE} * sizeof(float)) {
				43	const psimd_f32 vtl${ABC[0:4]} = psimd_load_f32(i0);
				44	const psimd_f32 vtr${ABC[0:4]} = psimd_load_f32(i1);
				45	const psimd_f32 vbl${ABC[0:4]} = psimd_load_f32(i2);
				46	const psimd_f32 vbr${ABC[0:4]} = psimd_load_f32(i3);
				47	$for C in range(4, CHANNEL_TILE, 4):
				48	const psimd_f32 vtl${ABC[C:C+4]} = psimd_load_f32(i0 + ${C});
				49	const psimd_f32 vtr${ABC[C:C+4]} = psimd_load_f32(i1 + ${C});
				50	const psimd_f32 vbl${ABC[C:C+4]} = psimd_load_f32(i2 + ${C});
				51	const psimd_f32 vbr${ABC[C:C+4]} = psimd_load_f32(i3 + ${C});
				52	i0 += ${CHANNEL_TILE};
				53	i1 += ${CHANNEL_TILE};
				54	i2 += ${CHANNEL_TILE};
				55	i3 += ${CHANNEL_TILE};
				56
				57	$for C in range(0, CHANNEL_TILE, 4):
				58	const psimd_f32 vtd${ABC[C:C+4]} = psimd_sub_f32(vtr${ABC[C:C+4]}, vtl${ABC[C:C+4]});
				59	const psimd_f32 vbd${ABC[C:C+4]} = psimd_sub_f32(vbr${ABC[C:C+4]}, vbl${ABC[C:C+4]});
				60
				61	$for C in range(0, CHANNEL_TILE, 4):
				62	const psimd_f32 vt${ABC[C:C+4]} = psimd_qfma_f32(vtl${ABC[C:C+4]}, vtd${ABC[C:C+4]}, valphah);
				63	const psimd_f32 vb${ABC[C:C+4]} = psimd_qfma_f32(vbl${ABC[C:C+4]}, vbd${ABC[C:C+4]}, valphah);
				64
				65	$for C in range(0, CHANNEL_TILE, 4):
				66	const psimd_f32 vd${ABC[C:C+4]} = psimd_sub_f32(vb${ABC[C:C+4]}, vt${ABC[C:C+4]});
				67
				68	$for C in range(0, CHANNEL_TILE, 4):
				69	const psimd_f32 vo${ABC[C:C+4]} = psimd_qfma_f32(vt${ABC[C:C+4]}, vd${ABC[C:C+4]}, valphav);
				70
				71	psimd_store_f32(output, vo${ABC[0:4]});
				72	$for C in range(4, CHANNEL_TILE, 4):
				73	psimd_store_f32(output + ${C}, vo${ABC[C:C+4]});
				74	output += ${CHANNEL_TILE};
				75	}
				76	$if CHANNEL_TILE > 4:
				77	for (; c >= 4 * sizeof(float); c -= 4 * sizeof(float)) {
				78	const psimd_f32 vtl0123 = psimd_load_f32(i0);
				79	const psimd_f32 vtr0123 = psimd_load_f32(i1);
				80	const psimd_f32 vbl0123 = psimd_load_f32(i2);
				81	const psimd_f32 vbr0123 = psimd_load_f32(i3);
				82	i0 += 4;
				83	i1 += 4;
				84	i2 += 4;
				85	i3 += 4;
				86
				87	const psimd_f32 vtd0123 = psimd_sub_f32(vtr0123, vtl0123);
				88	const psimd_f32 vbd0123 = psimd_sub_f32(vbr0123, vbl0123);
				89
				90	const psimd_f32 vt0123 = psimd_qfma_f32(vtl0123, vtd0123, valphah);
				91	const psimd_f32 vb0123 = psimd_qfma_f32(vbl0123, vbd0123, valphah);
				92
				93	const psimd_f32 vd0123 = psimd_sub_f32(vb0123, vt0123);
				94
				95	const psimd_f32 vo0123 = psimd_qfma_f32(vt0123, vd0123, valphav);
				96
				97	psimd_store_f32(output, vo0123);
				98	output += 4;
				99	}
				100	if XNN_UNLIKELY(c != 0) {
				101	const psimd_f32 vtl0123 = psimd_load_f32(i0);
				102	const psimd_f32 vtr0123 = psimd_load_f32(i1);
				103	const psimd_f32 vbl0123 = psimd_load_f32(i2);
				104	const psimd_f32 vbr0123 = psimd_load_f32(i3);
				105
				106	const psimd_f32 vtd0123 = psimd_sub_f32(vtr0123, vtl0123);
				107	const psimd_f32 vbd0123 = psimd_sub_f32(vbr0123, vbl0123);
				108
				109	const psimd_f32 vt0123 = psimd_qfma_f32(vtl0123, vtd0123, valphah);
				110	const psimd_f32 vb0123 = psimd_qfma_f32(vbl0123, vbd0123, valphah);
				111
				112	const psimd_f32 vd0123 = psimd_sub_f32(vb0123, vt0123);
				113
				114	psimd_f32 vo0123 = psimd_qfma_f32(vt0123, vd0123, valphav);
				115
				116	if (c & (2 * sizeof(float))) {
				117	psimd_store2_f32(output, vo0123);
				118	vo0123 = psimd_concat_hi_f32(vo0123, vo0123);
				119	output += 2;
				120	}
				121	if (c & (1 * sizeof(float))) {
				122	psimd_store1_f32(output, vo0123);
				123	output += 1;
				124	}
				125	}
				126
				127	output = (float*) ((uintptr_t) output + output_increment);
				128	} while (--output_pixels != 0);
				129	}