Blame - src/f32-dwconv/gen/up2x4-minmax-scalar-acc2.c - platform/external/XNNPACK

blob: fb000f514e8043d3174418ad805de6012d5f46ac [file] [log] [blame]

Marat Dukhan	5098c3e	2019-11-07 12:01:19 -0800	[diff] [blame]	1	// Auto-generated file. Do not edit!
				2	// Template: src/f32-dwconv/up-scalar.c.in
				3	// Generator: tools/xngen
				4	//
				5	// Copyright 2019 Google LLC
				6	//
				7	// This source code is licensed under the BSD-style license found in the
				8	// LICENSE file in the root directory of this source tree.
				9
				10	#include <assert.h>
				11
				12	#include <xnnpack/dwconv.h>
				13	#include <xnnpack/math.h>
				14
				15
Marat Dukhan	de06f49	2020-04-09 00:19:31 -0700	[diff] [blame]	16	void xnn_f32_dwconv_minmax_ukernel_up2x4__scalar_acc2(
Marat Dukhan	5098c3e	2019-11-07 12:01:19 -0800	[diff] [blame]	17	size_t channels,
				18	size_t output_width,
				19	const float** input,
				20	const float* weights,
				21	float* output,
				22	size_t input_stride,
				23	size_t output_increment,
Marat Dukhan	f196d01	2020-04-15 11:50:03 -0700	[diff] [blame]	24	const union xnn_f32_minmax_params params[restrict XNN_MIN_ELEMENTS(1)])
Marat Dukhan	5098c3e	2019-11-07 12:01:19 -0800	[diff] [blame]	25	{
				26	assert(channels != 0);
				27	assert(output_width != 0);
				28
				29	const float vmin = params->scalar.min;
				30	const float vmax = params->scalar.max;
				31	do {
				32	const float* i0 = input[0];
Marat Dukhan	6866099	2020-02-03 13:31:12 -0800	[diff] [blame]	33	assert(i0 != NULL);
Marat Dukhan	5098c3e	2019-11-07 12:01:19 -0800	[diff] [blame]	34	const float* i1 = input[1];
Marat Dukhan	6866099	2020-02-03 13:31:12 -0800	[diff] [blame]	35	assert(i1 != NULL);
Marat Dukhan	5098c3e	2019-11-07 12:01:19 -0800	[diff] [blame]	36	const float* i2 = input[2];
Marat Dukhan	6866099	2020-02-03 13:31:12 -0800	[diff] [blame]	37	assert(i2 != NULL);
Marat Dukhan	5098c3e	2019-11-07 12:01:19 -0800	[diff] [blame]	38	const float* i3 = input[3];
Marat Dukhan	6866099	2020-02-03 13:31:12 -0800	[diff] [blame]	39	assert(i3 != NULL);
Marat Dukhan	5098c3e	2019-11-07 12:01:19 -0800	[diff] [blame]	40	input = (const float**) ((uintptr_t) input + input_stride);
				41
				42	size_t c = channels;
				43	const float* w = weights;
				44	for (; c >= 2; c -= 2) {
				45	float vacc0p0 = w[0];
				46	float vacc1p0 = w[1];
				47
				48
				49	const float vi0x0 = i0[0];
				50	const float vi0x1 = i0[1];
				51	i0 += 2;
				52
				53	const float vk0x0 = w[2];
				54	vacc0p0 += vi0x0 * vk0x0;
				55	const float vk0x1 = w[3];
				56	vacc1p0 += vi0x1 * vk0x1;
				57
				58	const float vi1x0 = i1[0];
				59	const float vi1x1 = i1[1];
				60	i1 += 2;
				61
				62	const float vk1x0 = w[4];
				63	float vacc0p1 = vi1x0 * vk1x0;
				64	const float vk1x1 = w[5];
				65	float vacc1p1 = vi1x1 * vk1x1;
				66
				67	const float vi2x0 = i2[0];
				68	const float vi2x1 = i2[1];
				69	i2 += 2;
				70
				71	const float vk2x0 = w[6];
				72	vacc0p0 += vi2x0 * vk2x0;
				73	const float vk2x1 = w[7];
				74	vacc1p0 += vi2x1 * vk2x1;
				75
				76	const float vi3x0 = i3[0];
				77	const float vi3x1 = i3[1];
				78	i3 += 2;
				79
				80	const float vk3x0 = w[8];
				81	vacc0p1 += vi3x0 * vk3x0;
				82	const float vk3x1 = w[9];
				83	vacc1p1 += vi3x1 * vk3x1;
				84
				85	w += 10;
				86
				87	// Add up all accumulators to vacc01p0
				88	vacc0p0 = vacc0p0 + vacc0p1;
				89	vacc1p0 = vacc1p0 + vacc1p1;
				90
				91	float vacc0 = math_max_f32(vacc0p0, vmin);
				92	float vacc1 = math_max_f32(vacc1p0, vmin);
				93
				94	vacc0 = math_min_f32(vacc0, vmax);
				95	vacc1 = math_min_f32(vacc1, vmax);
				96
				97	output[0] = vacc0;
				98	output[1] = vacc1;
				99	output += 2;
				100	}
				101	for (; c >= 1; c -= 1) {
				102	float vacc0p0 = *w++;
				103
				104	const float vi0 = *i0++;
				105	const float vk0 = w[1];
				106	vacc0p0 += vi0 * vk0;
				107	const float vi1 = *i1++;
				108	const float vk1 = w[3];
				109	float vacc0p1 = vi1 * vk1;
				110	const float vi2 = *i2++;
				111	const float vk2 = w[5];
				112	vacc0p0 += vi2 * vk2;
				113	const float vi3 = *i3++;
				114	const float vk3 = w[7];
				115	vacc0p1 += vi3 * vk3;
				116
				117	// Add up all accumulators to vacc01p0
				118	vacc0p0 = vacc0p0 + vacc0p1;
				119
				120	float vacc0 = math_max_f32(vacc0p0, vmin);
				121	vacc0 = math_min_f32(vacc0, vmax);
				122	*output++ = vacc0;
				123	}
				124
				125	output = (float*) ((uintptr_t) output + output_increment);
				126	} while (--output_width != 0);
				127	}