Blame - src/f32-dwconv2d-chw/gen/3x3s2p1-minmax-scalar-2x1.c - platform/external/XNNPACK

blob: 1e7df0dd2a2ffcdd835f24d7912a390eed9b07d2 [file] [log] [blame]

Marat Dukhan	cf5b3c3	2020-10-25 19:21:10 -0700	[diff] [blame^]	1	// Auto-generated file. Do not edit!
				2	// Template: src/f32-dwconv2d-chw/3x3s2p1-scalar.c.in
				3	// Generator: tools/xngen
				4	//
				5	// Copyright 2020 Google LLC
				6	//
				7	// This source code is licensed under the BSD-style license found in the
				8	// LICENSE file in the root directory of this source tree.
				9
				10	#include <assert.h>
				11
				12	#include <xnnpack/dwconv.h>
				13	#include <xnnpack/math.h>
				14
				15
				16	void xnn_f32_dwconv2d_chw_ukernel_3x3s2p1__scalar_2x1(
				17	size_t input_height,
				18	size_t input_width,
				19	const float* input,
				20	const float* weights,
				21	const float* zero,
				22	float* output,
				23	uint32_t padding_top,
				24	const union xnn_f32_chw_params params[restrict XNN_MIN_ELEMENTS(1)])
				25	{
				26	assert(input_height != 0);
				27	assert(input_width != 0);
				28	assert(input_width % sizeof(float) == 0);
				29	assert(padding_top >= 0);
				30	assert(padding_top <= 1);
				31
				32	const float vmin = params->scalar.min;
				33	const float vmax = params->scalar.max;
				34
				35	const float vbias = weights[0];
				36	const float vk00 = weights[1];
				37	const float vk01 = weights[2];
				38	const float vk02 = weights[3];
				39	const float vk10 = weights[4];
				40	const float vk11 = weights[5];
				41	const float vk12 = weights[6];
				42	const float vk20 = weights[7];
				43	const float vk21 = weights[8];
				44	const float vk22 = weights[9];
				45
				46	const size_t output_width = round_down_po2((input_width + (2 /* padding / - 3 / kernel size / + 2 / subsampling /) sizeof(float)) / 2, sizeof(float));
				47
				48	const float* i0 = (const float*) ((uintptr_t) input - ((-padding_top) & input_width));
				49	const float* i1 = (const float*) ((uintptr_t) i0 + input_width);
				50	if XNN_UNPREDICTABLE(padding_top != 0) {
				51	i0 = zero;
				52	}
				53	const float* i2 = (const float*) ((uintptr_t) i1 + input_width);
				54	const float* i3 = (const float*) ((uintptr_t) i2 + input_width);
				55	const float* i4 = (const float*) ((uintptr_t) i3 + input_width);
				56
				57	float* o0 = output;
				58	float* o1 = (float*) ((uintptr_t) o0 + output_width);
				59
				60	size_t padded_input_height = input_height + padding_top + 1 /* padding bottom */;
				61	size_t output_height = (padded_input_height - 3 /* kernel size / + 2 / subsampling */) / 2;
				62	do {
				63	if XNN_UNPREDICTABLE(padded_input_height < 4) {
				64	i2 = zero;
				65	}
				66	if XNN_UNPREDICTABLE(padded_input_height < 5) {
				67	i3 = zero;
				68	o1 = o0;
				69	}
				70	if XNN_UNPREDICTABLE(padded_input_height < 6) {
				71	i4 = zero;
				72	}
				73
				74	float vi0x0 = 0.0f;
				75	float vi1x0 = 0.0f;
				76	float vi2x0 = 0.0f;
				77	float vi3x0 = 0.0f;
				78	float vi4x0 = 0.0f;
				79
				80	size_t w = input_width;
				81	for (; w >= 2 * sizeof(float); w -= 2 * sizeof(float)) {
				82	const float vi0x1 = i0[0];
				83	const float vi1x1 = i1[0];
				84	const float vi2x1 = i2[0];
				85	const float vi3x1 = i3[0];
				86	const float vi4x1 = i4[0];
				87
				88	float vo0p0 = vbias + vi0x0 * vk00;
				89	float vo1p0 = vbias + vi2x0 * vk00;
				90	vo0p0 += vi1x0 * vk10;
				91	vo1p0 += vi3x0 * vk10;
				92	vo0p0 += vi2x0 * vk20;
				93	vo1p0 += vi4x0 * vk20;
				94
				95	const float vi0x2 = i0[1];
				96	i0 += 2;
				97	const float vi1x2 = i1[1];
				98	i1 += 2;
				99	const float vi2x2 = i2[1];
				100	i2 += 2;
				101	const float vi3x2 = i3[1];
				102	i3 += 2;
				103	const float vi4x2 = i4[1];
				104	i4 += 2;
				105
				106	vo0p0 += vi0x1 * vk01;
				107	vo1p0 += vi2x1 * vk01;
				108	vo0p0 += vi1x1 * vk11;
				109	vo1p0 += vi3x1 * vk11;
				110	vo0p0 += vi2x1 * vk21;
				111	vo1p0 += vi4x1 * vk21;
				112
				113	vi0x0 = vi0x2;
				114	vi1x0 = vi1x2;
				115	vi2x0 = vi2x2;
				116	vi3x0 = vi3x2;
				117	vi4x0 = vi4x2;
				118
				119	vo0p0 += vi0x2 * vk02;
				120	vo1p0 += vi2x2 * vk02;
				121	vo0p0 += vi1x2 * vk12;
				122	vo1p0 += vi3x2 * vk12;
				123	vo0p0 += vi2x2 * vk22;
				124	vo1p0 += vi4x2 * vk22;
				125
				126
				127	float vo0 = math_max_f32(vo0p0, vmin);
				128	float vo1 = math_max_f32(vo1p0, vmin);
				129
				130	vo0 = math_min_f32(vo0, vmax);
				131	vo1 = math_min_f32(vo1, vmax);
				132
				133	*o1++ = vo1;
				134	*o0++ = vo0;
				135	}
				136	// Potentially process the last pixel.
				137	assert(w <= 1 * sizeof(float));
				138	if (w != 0) {
				139	const float vi0x1 = *i0++;
				140	const float vi1x1 = *i1++;
				141	const float vi2x1 = *i2++;
				142	const float vi3x1 = *i3++;
				143	const float vi4x1 = *i4++;
				144
				145	float vo0p0 = vbias + vi0x0 * vk00;
				146	float vo1p0 = vbias + vi2x0 * vk00;
				147	vo0p0 += vi1x0 * vk10;
				148	vo1p0 += vi3x0 * vk10;
				149	vo0p0 += vi2x0 * vk20;
				150	vo1p0 += vi4x0 * vk20;
				151
				152	vo0p0 += vi0x1 * vk01;
				153	vo1p0 += vi2x1 * vk01;
				154	vo0p0 += vi1x1 * vk11;
				155	vo1p0 += vi3x1 * vk11;
				156	vo0p0 += vi2x1 * vk21;
				157	vo1p0 += vi4x1 * vk21;
				158
				159
				160	float vo0 = math_max_f32(vo0p0, vmin);
				161	float vo1 = math_max_f32(vo1p0, vmin);
				162
				163	vo0 = math_min_f32(vo0, vmax);
				164	vo1 = math_min_f32(vo1, vmax);
				165
				166	*o1++ = vo1;
				167	*o0++ = vo0;
				168	}
				169
				170	i0 = (const float*) ((uintptr_t) i3);
				171	i1 = (const float*) ((uintptr_t) i4);
				172	i2 = (const float*) ((uintptr_t) i1 + input_width);
				173	i3 = (const float*) ((uintptr_t) i2 + input_width);
				174	i4 = (const float*) ((uintptr_t) i3 + input_width);
				175
				176	o0 = o1;
				177	o1 = (float*) ((uintptr_t) o0 + output_width);
				178
				179	output_height = doz(output_height, 2);
				180	padded_input_height = doz(padded_input_height, 4);
				181	} while (output_height != 0);
				182	}