Blame - src/f32-dwconv/gen/up2x4-scalar.c - platform/external/XNNPACK

blob: 508c0549e4aebce7d54b76e5bc7bf9f11a039a52 [file] [log] [blame]

Marat Dukhan	5098c3e	2019-11-07 12:01:19 -0800	[diff] [blame]	1	// Auto-generated file. Do not edit!
				2	// Template: src/f32-dwconv/up-scalar.c.in
				3	// Generator: tools/xngen
				4	//
				5	// Copyright 2019 Google LLC
				6	//
				7	// This source code is licensed under the BSD-style license found in the
				8	// LICENSE file in the root directory of this source tree.
				9
				10	#include <assert.h>
				11
				12	#include <xnnpack/dwconv.h>
				13	#include <xnnpack/math.h>
				14
				15
				16	void xnn_f32_dwconv_ukernel_up2x4__scalar(
				17	size_t channels,
				18	size_t output_width,
				19	const float** input,
				20	const float* weights,
				21	float* output,
				22	size_t input_stride,
				23	size_t output_increment,
				24	const union xnn_f32_output_params params[restrict static 1])
				25	{
				26	assert(channels != 0);
				27	assert(output_width != 0);
				28
				29	const float vmin = params->scalar.min;
				30	const float vmax = params->scalar.max;
				31	do {
				32	const float* i0 = input[0];
				33	const float* i1 = input[1];
				34	const float* i2 = input[2];
				35	const float* i3 = input[3];
				36	input = (const float**) ((uintptr_t) input + input_stride);
				37
				38	size_t c = channels;
				39	const float* w = weights;
				40	for (; c >= 2; c -= 2) {
				41	float vacc0p0 = w[0];
				42	float vacc1p0 = w[1];
				43
				44
				45	const float vi0x0 = i0[0];
				46	const float vi0x1 = i0[1];
				47	i0 += 2;
				48
				49	const float vk0x0 = w[2];
				50	vacc0p0 += vi0x0 * vk0x0;
				51	const float vk0x1 = w[3];
				52	vacc1p0 += vi0x1 * vk0x1;
				53
				54	const float vi1x0 = i1[0];
				55	const float vi1x1 = i1[1];
				56	i1 += 2;
				57
				58	const float vk1x0 = w[4];
				59	vacc0p0 += vi1x0 * vk1x0;
				60	const float vk1x1 = w[5];
				61	vacc1p0 += vi1x1 * vk1x1;
				62
				63	const float vi2x0 = i2[0];
				64	const float vi2x1 = i2[1];
				65	i2 += 2;
				66
				67	const float vk2x0 = w[6];
				68	vacc0p0 += vi2x0 * vk2x0;
				69	const float vk2x1 = w[7];
				70	vacc1p0 += vi2x1 * vk2x1;
				71
				72	const float vi3x0 = i3[0];
				73	const float vi3x1 = i3[1];
				74	i3 += 2;
				75
				76	const float vk3x0 = w[8];
				77	vacc0p0 += vi3x0 * vk3x0;
				78	const float vk3x1 = w[9];
				79	vacc1p0 += vi3x1 * vk3x1;
				80
				81	w += 10;
				82
				83
				84	float vacc0 = math_max_f32(vacc0p0, vmin);
				85	float vacc1 = math_max_f32(vacc1p0, vmin);
				86
				87	vacc0 = math_min_f32(vacc0, vmax);
				88	vacc1 = math_min_f32(vacc1, vmax);
				89
				90	output[0] = vacc0;
				91	output[1] = vacc1;
				92	output += 2;
				93	}
				94	for (; c >= 1; c -= 1) {
				95	float vacc0p0 = *w++;
				96
				97	const float vi0 = *i0++;
				98	const float vk0 = w[1];
				99	vacc0p0 += vi0 * vk0;
				100	const float vi1 = *i1++;
				101	const float vk1 = w[3];
				102	vacc0p0 += vi1 * vk1;
				103	const float vi2 = *i2++;
				104	const float vk2 = w[5];
				105	vacc0p0 += vi2 * vk2;
				106	const float vi3 = *i3++;
				107	const float vk3 = w[7];
				108	vacc0p0 += vi3 * vk3;
				109
				110
				111	float vacc0 = math_max_f32(vacc0p0, vmin);
				112	vacc0 = math_min_f32(vacc0, vmax);
				113	*output++ = vacc0;
				114	}
				115
				116	output = (float*) ((uintptr_t) output + output_increment);
				117	} while (--output_width != 0);
				118	}