Blame - bench/f32-dwconv.cc - platform/external/XNNPACK

blob: 78e1537366bd1fc7c540bcd95faa4bcda8e38464 [file] [log] [blame]

XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	1	// Copyright 2019 Google LLC
				2	//
				3	// This source code is licensed under the BSD-style license found in the
				4	// LICENSE file in the root directory of this source tree.
				5
				6	#include <algorithm>
				7	#include <cfloat>
				8	#include <cmath>
				9	#include <functional>
				10	#include <random>
				11	#include <vector>
				12
				13	#include <cpuinfo.h>
				14
				15	#include <benchmark/benchmark.h>
				16	#include "bench/dwconv.h"
				17	#include "bench/utils.h"
				18	#include <xnnpack/AlignedAllocator.h>
Marat Dukhan	1dadbf7	2019-10-01 10:46:20 -0700	[diff] [blame]	19	#include <xnnpack/common.h>
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	20	#include <xnnpack/dwconv.h>
				21	#include <xnnpack/indirection.h>
				22	#include <xnnpack/operator.h>
				23	#include <xnnpack/pack.h>
				24	#include <xnnpack/params.h>
				25	#include <xnnpack/requantization.h>
				26
				27
				28	static void DWConvBenchmark(benchmark::State& state,
				29	xnn_f32_dwconv_up_ukernel_function dwconv,
				30	uint32_t cr, uint32_t kr)
				31	{
				32	if (!cpuinfo_initialize()) {
				33	state.SkipWithError("cpuinfo initialization failed");
				34	return;
				35	}
				36
				37	const size_t input_height = state.range(0);
				38	const size_t input_width = state.range(1);
				39	const size_t kernel_height = state.range(2);
				40	const size_t kernel_width = state.range(3);
				41	const size_t padding_height = state.range(4);
				42	const size_t padding_width = state.range(5);
				43	const size_t subsampling = state.range(6);
				44	const size_t dilation = state.range(7);
				45	const size_t channels = state.range(8);
				46
				47	const size_t kernel_size = kernel_height * kernel_width;
				48	if (kernel_size != kr) {
				49	state.SkipWithError("kernel size mismatch");
				50	return;
				51	}
				52
				53	std::random_device random_device;
				54	auto rng = std::mt19937(random_device());
				55	auto f32rng = std::bind(std::uniform_real_distribution<float>(0.0f, 1.0f), rng);
				56
				57	const size_t effective_kernel_height = (kernel_height - 1) * dilation + 1;
				58	const size_t effective_kernel_width = (kernel_width - 1) * dilation + 1;
				59	const size_t padding_left = padding_width / 2;
				60	const size_t padding_top = padding_height / 2;
				61	const size_t output_height = (input_height + padding_height - effective_kernel_height) / subsampling + 1;
				62	const size_t output_width = (input_width + padding_width - effective_kernel_width) / subsampling + 1;
				63	const size_t output_size = output_height * output_width;
				64	const size_t step_width = dilation == 1 ? subsampling : kernel_width;
				65	const size_t step_height = kernel_size + (output_width * step_width - 1) * kernel_height;
				66
Marat Dukhan	4232323	2019-10-23 02:09:02 -0700	[diff] [blame^]	67	const size_t c_stride = benchmark::utils::RoundUp<size_t>(channels, cr);
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	68
				69	std::vector<float> a(channels * input_height * input_width);
				70	std::generate(a.begin(), a.end(), std::ref(f32rng));
				71	std::vector<float> k(channels * kernel_height * kernel_width);
				72	std::generate(k.begin(), k.end(), std::ref(f32rng));
				73	std::vector<float> b(channels);
				74	std::generate(b.begin(), b.end(), std::ref(f32rng));
				75
				76	std::vector<float> z(channels);
				77
				78	const size_t w_elements = (kernel_size + 1) * c_stride;
				79	const size_t i_elements = output_height * step_height;
				80	const size_t c_elements = output_size * channels;
				81	const size_t num_buffers = 1 +
Marat Dukhan	4232323	2019-10-23 02:09:02 -0700	[diff] [blame^]	82	benchmark::utils::DivideRoundUp<size_t>(benchmark::utils::GetMaxCacheSize(),
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	83	sizeof(float) * (w_elements + c_elements) + sizeof(void) i_elements);
				84
				85	std::vector<float, AlignedAllocator<float, 32>> w(w_elements * num_buffers);
				86	std::fill(w.begin(), w.end(), 0.0f);
				87	xnn_pack_f32_dwconv_ghw_w(kernel_height, kernel_width, channels, cr,
				88	k.data(), b.data(), w.data());
				89	for (size_t n = 1; n < num_buffers; n++) {
				90	std::copy(w.cbegin(), w.cbegin() + w_elements, w.begin() + n * w_elements);
				91	}
				92
				93	std::vector<const float> i(i_elements num_buffers);
				94	xnn_operator convolution_op = { };
				95	convolution_op.indirection_buffer = reinterpret_cast<const void**>(i.data());
				96	convolution_op.input = a.data();
				97	convolution_op.input_pixel_stride = channels;
				98	convolution_op.zero_buffer = z.data();
				99	convolution_op.batch_size = 1;
				100	convolution_op.input_height = input_height;
				101	convolution_op.input_width = input_width;
				102	convolution_op.output_height = output_height;
				103	convolution_op.output_width = output_width;
				104	convolution_op.kernel_height = kernel_height;
				105	convolution_op.kernel_width = kernel_width;
				106	convolution_op.stride_height = subsampling;
				107	convolution_op.stride_width = subsampling;
				108	convolution_op.dilation_height = dilation;
				109	convolution_op.dilation_width = dilation;
				110	convolution_op.padding_top = padding_top;
				111	convolution_op.padding_left = padding_left;
				112
				113	xnn_indirection_init_dwconv2d(&convolution_op, 0, step_height, step_width, 2 /* log2(sizeof(float)) */);
				114	for (size_t n = 1; n < num_buffers; n++) {
				115	std::copy(i.cbegin(), i.cbegin() + i_elements, i.begin() + n * i_elements);
				116	}
				117
				118	std::vector<float> c(c_elements * num_buffers);
				119	std::fill(c.begin(), c.end(), std::nanf(""));
				120
				121	xnn_f32_output_params output_params =
				122	xnn_compute_f32_output_params(-std::numeric_limits<float>::infinity(), +std::numeric_limits<float>::infinity());
				123
				124	size_t buffer_index = 0;
				125	for (auto _ : state) {
				126	state.PauseTiming();
Marat Dukhan	4232323	2019-10-23 02:09:02 -0700	[diff] [blame^]	127	benchmark::utils::PrefetchToL1(a.data(), a.size() * sizeof(float));
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	128	buffer_index = (buffer_index + 1) % num_buffers;
				129	state.ResumeTiming();
				130
				131	for (uint32_t y = 0; y < output_height; y++) {
				132	dwconv(channels, output_width,
				133	i.data() + buffer_index * i_elements + step_height * y,
				134	w.data() + buffer_index * w_elements,
				135	c.data() + buffer_index * c_elements + y * output_width * channels,
				136	kernel_height * step_width * sizeof(void*), 0,
				137	&output_params);
				138	}
				139	}
				140
				141	state.counters["Freq"] = benchmark::utils::GetCurrentCpuFrequency();
				142	state.counters["FLOPS"] = benchmark::Counter(
				143	uint64_t(state.iterations()) * 2 * output_size * channels * kernel_size,
				144	benchmark::Counter::kIsRate);
				145
				146	state.counters["BYTES"] = benchmark::Counter(
				147	uint64_t(state.iterations()) * (output_size + input_height * input_width + kernel_size + 1 /* bias /) channels * sizeof(float),
				148	benchmark::Counter::kIsRate);
				149	}
				150
Frank Barchard	7e95597	2019-10-11 10:34:25 -0700	[diff] [blame]	151	#if XNN_ARCH_ARM64 && XNN_ENABLE_ASSEMBLY
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	152	static void f32_dwconv_4x9__aarch64_neonfma(benchmark::State& state, const char* net) {
				153	DWConvBenchmark(state, xnn_f32_dwconv_ukernel_up4x9__neon, 4, 9);
				154	}
				155
				156	static void f32_dwconv_4x9__aarch64_neonfma_cortex_a55(benchmark::State& state, const char* net) {
				157	DWConvBenchmark(state, xnn_f32_dwconv_ukernel_up4x9__neonfma, 4, 9);
				158	}
				159
				160	BENCHMARK_DWCONV(f32_dwconv_4x9__aarch64_neonfma)
				161	BENCHMARK_DWCONV(f32_dwconv_4x9__aarch64_neonfma_cortex_a55)
Marat Dukhan	1dadbf7	2019-10-01 10:46:20 -0700	[diff] [blame]	162	#endif // XNN_ARCH_ARM64
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	163
				164
Marat Dukhan	1dadbf7	2019-10-01 10:46:20 -0700	[diff] [blame]	165	#if XNN_ARCH_ARM \|\| XNN_ARCH_ARM64
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	166	static void f32_dwconv_4x9__neon(benchmark::State& state, const char* net) {
				167	DWConvBenchmark(state, xnn_f32_dwconv_ukernel_up4x9__neon, 4, 9);
				168	}
				169
				170	static void f32_dwconv_4x9__neonfma(benchmark::State& state, const char* net) {
				171	DWConvBenchmark(state, xnn_f32_dwconv_ukernel_up4x9__neonfma, 4, 9);
				172	}
				173
				174	static void f32_dwconv_8x9__neonfma(benchmark::State& state, const char* net) {
				175	DWConvBenchmark(state, xnn_f32_dwconv_ukernel_up8x9__neonfma, 8, 9);
				176	}
				177
				178	BENCHMARK_DWCONV(f32_dwconv_4x9__neon)
				179	BENCHMARK_DWCONV(f32_dwconv_4x9__neonfma)
				180	BENCHMARK_DWCONV(f32_dwconv_8x9__neonfma)
Marat Dukhan	1dadbf7	2019-10-01 10:46:20 -0700	[diff] [blame]	181	#endif // XNN_ARCH_ARM \|\| XNN_ARCH_ARM64
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	182
				183
Marat Dukhan	1dadbf7	2019-10-01 10:46:20 -0700	[diff] [blame]	184	#if XNN_ARCH_X86 \|\| XNN_ARCH_X86_64
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	185	static void f32_dwconv_4x4__sse(benchmark::State& state, const char* net) {
				186	DWConvBenchmark(state, xnn_f32_dwconv_ukernel_up4x4__sse, 4, 4);
				187	}
				188
				189	static void f32_dwconv_4x9__sse(benchmark::State& state, const char* net) {
				190	DWConvBenchmark(state, xnn_f32_dwconv_ukernel_up4x9__sse, 4, 9);
				191	}
				192
				193	static void f32_dwconv_4x25__sse(benchmark::State& state, const char* net) {
				194	DWConvBenchmark(state, xnn_f32_dwconv_ukernel_up4x25__sse, 4, 25);
				195	}
				196
				197	BENCHMARK_DWCONV(f32_dwconv_4x4__sse)
				198	BENCHMARK_DWCONV(f32_dwconv_4x9__sse)
				199	BENCHMARK_DWCONV(f32_dwconv_4x25__sse)
Marat Dukhan	1dadbf7	2019-10-01 10:46:20 -0700	[diff] [blame]	200	#endif // XNN_ARCH_X86 \|\| XNN_ARCH_X86_64
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	201
				202
Marat Dukhan	1dadbf7	2019-10-01 10:46:20 -0700	[diff] [blame]	203	#if !XNN_ARCH_WASM && !XNN_ARCH_ASMJS
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	204	static void f32_dwconv_4x4__psimd(benchmark::State& state, const char* net) {
				205	DWConvBenchmark(state, xnn_f32_dwconv_ukernel_up4x4__psimd, 4, 4);
				206	}
				207
				208	static void f32_dwconv_4x9__psimd(benchmark::State& state, const char* net) {
				209	DWConvBenchmark(state, xnn_f32_dwconv_ukernel_up4x9__psimd, 4, 9);
				210	}
				211
				212	static void f32_dwconv_4x25__psimd(benchmark::State& state, const char* net) {
				213	DWConvBenchmark(state, xnn_f32_dwconv_ukernel_up4x25__psimd, 4, 25);
				214	}
				215
				216	BENCHMARK_DWCONV(f32_dwconv_4x4__psimd)
				217	BENCHMARK_DWCONV(f32_dwconv_4x9__psimd)
				218	BENCHMARK_DWCONV(f32_dwconv_4x25__psimd)
Marat Dukhan	1dadbf7	2019-10-01 10:46:20 -0700	[diff] [blame]	219	#endif // !XNN_ARCH_WASM && !XNN_ARCH_ASMJS
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	220
				221
				222	static void f32_dwconv_1x4__scalar(benchmark::State& state, const char* net) {
				223	DWConvBenchmark(state, xnn_f32_dwconv_ukernel_up1x4__scalar, 1, 4);
				224	}
				225
				226	static void f32_dwconv_1x9__scalar(benchmark::State& state, const char* net) {
				227	DWConvBenchmark(state, xnn_f32_dwconv_ukernel_up1x9__scalar, 1, 9);
				228	}
				229
				230	static void f32_dwconv_1x25__scalar(benchmark::State& state, const char* net) {
				231	DWConvBenchmark(state, xnn_f32_dwconv_ukernel_up1x25__scalar, 1, 25);
				232	}
				233
				234	BENCHMARK_DWCONV(f32_dwconv_1x4__scalar)
				235	BENCHMARK_DWCONV(f32_dwconv_1x9__scalar)
				236	BENCHMARK_DWCONV(f32_dwconv_1x25__scalar)
				237
				238	#ifndef XNNPACK_BENCHMARK_NO_MAIN
				239	BENCHMARK_MAIN();
				240	#endif