Blame - bench/f32-gemm.cc - platform/external/XNNPACK

blob: f2a397386391121f97c6df81cc0cb5f80e34d4c0 [file] [log] [blame]

XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	1	// Copyright (c) Facebook, Inc. and its affiliates.
				2	// All rights reserved.
				3	//
				4	// Copyright 2019 Google LLC
				5	//
				6	// This source code is licensed under the BSD-style license found in the
				7	// LICENSE file in the root directory of this source tree.
				8
				9	#include <algorithm>
				10	#include <cfloat>
				11	#include <chrono>
				12	#include <cmath>
				13	#include <functional>
				14	#include <mutex>
				15	#include <random>
				16	#include <vector>
				17
				18	#include <cpuinfo.h>
				19
Frank Barchard	bb4c18b	2019-09-30 11:05:52 -0700	[diff] [blame]	20	#include <benchmark/benchmark.h>
Marat Dukhan	33f0c7a	2019-10-01 13:33:08 -0700	[diff] [blame]	21	#ifdef BENCHMARK_RUY
Frank Barchard	bb4c18b	2019-09-30 11:05:52 -0700	[diff] [blame]	22	#include "tensorflow/lite/experimental/ruy/ruy.h"
Marat Dukhan	33f0c7a	2019-10-01 13:33:08 -0700	[diff] [blame]	23	#endif // BENCHMARK_RUY
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	24	#include "bench/gemm.h"
Frank Barchard	bb4c18b	2019-09-30 11:05:52 -0700	[diff] [blame]	25	#include "bench/utils.h"
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	26	#include <xnnpack/AlignedAllocator.h>
Marat Dukhan	1dadbf7	2019-10-01 10:46:20 -0700	[diff] [blame]	27	#include <xnnpack/common.h>
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	28	#include <xnnpack/gemm.h>
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	29	#include <xnnpack/pack.h>
Frank Barchard	bb4c18b	2019-09-30 11:05:52 -0700	[diff] [blame]	30	#include <xnnpack/packx.h>
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	31	#include <xnnpack/params.h>
				32	#include <xnnpack/ppmm.h>
				33	#include <xnnpack/requantization.h>
				34
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	35
				36	static void GEMMBenchmark(benchmark::State& state,
				37	xnn_f32_gemm_ukernel_function gemm,
				38	size_t mr, size_t nr, size_t kr, size_t sr)
				39	{
				40	if (!cpuinfo_initialize()) {
				41	state.SkipWithError("cpuinfo initialization failed");
				42	return;
				43	}
				44
				45	const size_t mc = state.range(0);
				46	const size_t nc = state.range(1);
				47	const size_t kc = state.range(2);
				48
Marat Dukhan	4232323	2019-10-23 02:09:02 -0700	[diff] [blame]	49	const size_t nc_stride = benchmark::utils::RoundUp(nc, nr);
				50	const size_t kc_stride = benchmark::utils::RoundUp(kc, kr);
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	51
				52	std::random_device random_device;
				53	auto rng = std::mt19937(random_device());
				54	auto f32rng = std::bind(std::uniform_real_distribution<float>(), rng);
				55
				56	std::vector<float> a(mc * kc);
				57	std::generate(a.begin(), a.end(), std::ref(f32rng));
				58	std::vector<float> k(nc * kc);
				59	std::generate(k.begin(), k.end(), std::ref(f32rng));
				60	std::vector<float> b(nc);
				61	std::generate(b.begin(), b.end(), std::ref(f32rng));
				62
				63	const size_t w_elements = nc_stride * kc_stride + nc_stride;
				64	const size_t c_elements = mc * nc;
				65	const size_t num_buffers = 1 +
Marat Dukhan	4232323	2019-10-23 02:09:02 -0700	[diff] [blame]	66	benchmark::utils::DivideRoundUp<size_t>(benchmark::utils::GetMaxCacheSize(),
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	67	sizeof(float) * (w_elements + c_elements));
				68
				69	std::vector<float, AlignedAllocator<float, 32>> w(w_elements * num_buffers);
				70	std::fill(w.begin(), w.end(), 0.0f);
				71	xnn_pack_f32_gemm_goi_w(1 /* groups */, nc, kc, nr, kr, sr, k.data(), b.data(), w.data());
				72	std::vector<float> c(c_elements * num_buffers);
				73	std::fill(c.begin(), c.end(), std::nanf(""));
				74
				75	xnn_f32_output_params output_params =
				76	xnn_compute_f32_output_params(-std::numeric_limits<float>::infinity(), +std::numeric_limits<float>::infinity());
				77
				78	size_t buffer_index = 0;
				79	for (auto _ : state) {
				80	// Use circular buffers (exceeding cache size) and prefetch to control cache state:
				81	// - A is always in L1 cache (if fits, otherwise L2, L3, etc)
				82	// - W is not in cache (for any cache level)
				83	// - C is not in cache (for any cache level)
				84	state.PauseTiming();
Marat Dukhan	4232323	2019-10-23 02:09:02 -0700	[diff] [blame]	85	benchmark::utils::PrefetchToL1(a.data(), a.size() * sizeof(float));
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	86	buffer_index = (buffer_index + 1) % num_buffers;
				87	state.ResumeTiming();
				88
				89	for (uint32_t m = 0; m < mc; m += mr) {
				90	const uint32_t mb = min(mc - m, mr);
				91	gemm(
				92	mb, nc, kc * sizeof(float),
				93	a.data() + m * kc, kc * sizeof(float),
				94	w.data() + buffer_index * nc_stride * (kc_stride + 1),
				95	c.data() + (buffer_index * mc + m) * nc, nc * sizeof(float), nr * sizeof(float),
				96	&output_params);
				97	}
				98	}
				99
				100	state.counters["Freq"] = benchmark::utils::GetCurrentCpuFrequency();
				101	state.counters["FLOPS"] = benchmark::Counter(
				102	uint64_t(state.iterations()) * 2 * mc * nc * kc, benchmark::Counter::kIsRate);
				103	}
				104
				105	static void PPMM1PBenchmark(benchmark::State& state,
				106	xnn_f32_ppmm_ukernel_function ppmm,
				107	xnn_x32_packx_ukernel_function packx,
				108	size_t mr, size_t nr)
				109	{
				110	if (!cpuinfo_initialize()) {
				111	state.SkipWithError("cpuinfo initialization failed");
				112	return;
				113	}
				114
				115	const size_t mc = state.range(0);
				116	const size_t nc = state.range(1);
				117	const size_t kc = state.range(2);
				118
Marat Dukhan	4232323	2019-10-23 02:09:02 -0700	[diff] [blame]	119	const size_t nc_stride = benchmark::utils::RoundUp(nc, nr);
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	120
				121	std::random_device random_device;
				122	auto rng = std::mt19937(random_device());
				123	auto f32rng = std::bind(std::uniform_real_distribution<float>(), rng);
				124
				125	std::vector<float> a(mc * kc);
				126	std::generate(a.begin(), a.end(), std::ref(f32rng));
				127	std::vector<float> k(nc * kc);
				128	std::generate(k.begin(), k.end(), std::ref(f32rng));
				129	std::vector<float> b(nc);
				130	std::generate(b.begin(), b.end(), std::ref(f32rng));
				131
				132	std::vector<uint32_t, AlignedAllocator<uint32_t, 32>> t(mr * kc);
				133
				134	const size_t w_elements = nc_stride * kc + nc_stride;
				135	const size_t c_elements = mc * nc;
				136	const size_t num_buffers = 1 +
Marat Dukhan	4232323	2019-10-23 02:09:02 -0700	[diff] [blame]	137	benchmark::utils::DivideRoundUp<size_t>(benchmark::utils::GetMaxCacheSize(),
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	138	sizeof(float) * (w_elements + c_elements));
				139
				140	std::vector<float, AlignedAllocator<float, 32>> w(w_elements * num_buffers);
				141	std::fill(w.begin(), w.end(), 0.0f);
				142	xnn_pack_f32_gemm_goi_w(1 /* groups /, nc, kc, nr, 1 / kr /, 1 / sr */, k.data(), b.data(), w.data());
				143	std::vector<float> c(c_elements * num_buffers);
				144	std::fill(c.begin(), c.end(), std::nanf(""));
				145
				146	xnn_f32_output_params output_params =
				147	xnn_compute_f32_output_params(-std::numeric_limits<float>::infinity(), +std::numeric_limits<float>::infinity());
				148
				149	size_t buffer_index = 0;
				150	for (auto _ : state) {
				151	// Use circular buffers (exceeding cache size) and prefetch to control cache state:
				152	// - A is always in L1 cache (if fits, otherwise L2, L3, etc)
				153	// - W is not in cache (for any cache level)
				154	// - C is not in cache (for any cache level)
				155	state.PauseTiming();
Marat Dukhan	4232323	2019-10-23 02:09:02 -0700	[diff] [blame]	156	benchmark::utils::PrefetchToL1(a.data(), a.size() * sizeof(float));
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	157	buffer_index = (buffer_index + 1) % num_buffers;
				158	state.ResumeTiming();
				159
				160	for (uint32_t m = 0; m < mc; m += mr) {
				161	const uint32_t mb = min(mc - m, mr);
				162	packx(mb, kc, reinterpret_cast<const uint32_t>(a.data() + m kc), kc, t.data());
				163	ppmm(
				164	mb, nc, kc * sizeof(float),
				165	reinterpret_cast<const float*>(t.data()),
				166	w.data() + nc_stride * buffer_index * (kc + 1),
				167	c.data() + (mc * buffer_index + m) * nc, nc * sizeof(float), nr * sizeof(float),
				168	&output_params);
				169	}
				170	}
				171
				172	state.counters["Freq"] = benchmark::utils::GetCurrentCpuFrequency();
				173	state.counters["FLOPS"] = benchmark::Counter(
				174	uint64_t(state.iterations()) * 2 * mc * nc * kc, benchmark::Counter::kIsRate);
				175	}
				176
				177	static void PPMM2PBenchmark(benchmark::State& state,
				178	xnn_f32_ppmm_ukernel_function ppmm,
				179	xnn_x32_packx_ukernel_function packx,
				180	size_t mr, size_t nr)
				181	{
				182	if (!cpuinfo_initialize()) {
				183	state.SkipWithError("cpuinfo initialization failed");
				184	return;
				185	}
				186
				187	const size_t mc = state.range(0);
				188	const size_t nc = state.range(1);
				189	const size_t kc = state.range(2);
				190
Marat Dukhan	4232323	2019-10-23 02:09:02 -0700	[diff] [blame]	191	const size_t mc_stride = benchmark::utils::RoundUp(mc, mr);
				192	const size_t nc_stride = benchmark::utils::RoundUp(nc, nr);
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	193
				194	std::random_device random_device;
				195	auto rng = std::mt19937(random_device());
				196	auto f32rng = std::bind(std::uniform_real_distribution<float>(), rng);
				197
				198	std::vector<float> a(mc * kc);
				199	std::generate(a.begin(), a.end(), std::ref(f32rng));
				200	std::vector<float> k(nc * kc);
				201	std::generate(k.begin(), k.end(), std::ref(f32rng));
				202	std::vector<float> b(nc);
				203	std::generate(b.begin(), b.end(), std::ref(f32rng));
				204
				205	std::vector<uint32_t, AlignedAllocator<uint32_t, 32>> t(mc_stride * kc);
				206
				207	const size_t w_elements = nc_stride * kc + nc_stride;
				208	const size_t c_elements = mc * nc;
				209	const size_t num_buffers = 1 +
Marat Dukhan	4232323	2019-10-23 02:09:02 -0700	[diff] [blame]	210	benchmark::utils::DivideRoundUp<size_t>(benchmark::utils::GetMaxCacheSize(),
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	211	sizeof(float) * (w_elements + c_elements));
				212
				213	std::vector<float, AlignedAllocator<float, 32>> w(w_elements * num_buffers);
				214	std::fill(w.begin(), w.end(), 0.0f);
				215	xnn_pack_f32_gemm_goi_w(1 /* groups /, nc, kc, nr, 1 / kr /, 1 / sr */, k.data(), b.data(), w.data());
				216	std::vector<float> c(c_elements * num_buffers);
				217	std::fill(c.begin(), c.end(), std::nanf(""));
				218
				219	xnn_f32_output_params output_params =
				220	xnn_compute_f32_output_params(-std::numeric_limits<float>::infinity(), +std::numeric_limits<float>::infinity());
				221
				222	size_t buffer_index = 0;
				223	for (auto _ : state) {
				224	// Use circular buffers (exceeding cache size) and prefetch to control cache state:
				225	// - A is always in L1 cache (if fits, otherwise L2, L3, etc)
				226	// - W is not in cache (for any cache level)
				227	// - C is not in cache (for any cache level)
				228	state.PauseTiming();
Marat Dukhan	4232323	2019-10-23 02:09:02 -0700	[diff] [blame]	229	benchmark::utils::PrefetchToL1(a.data(), a.size() * sizeof(float));
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	230	buffer_index = (buffer_index + 1) % num_buffers;
				231	state.ResumeTiming();
				232
				233	for (uint32_t m = 0; m < mc; m += mr) {
				234	const uint32_t mb = min(mc - m, mr);
				235	packx(mb, kc, reinterpret_cast<const uint32_t>(a.data() + m kc), kc, t.data() + m * kc);
				236	}
				237	for (uint32_t m = 0; m < mc; m += mr) {
				238	const uint32_t mb = min(mc - m, mr);
				239	ppmm(
				240	mb, nc, kc * sizeof(float),
				241	reinterpret_cast<const float>(t.data() + m kc),
				242	w.data() + nc_stride * buffer_index * (kc + 1),
				243	c.data() + (mc * buffer_index + m) * nc, nc * sizeof(float), nr * sizeof(float),
				244	&output_params);
				245	}
				246	}
				247
				248	state.counters["Freq"] = benchmark::utils::GetCurrentCpuFrequency();
				249	state.counters["FLOPS"] = benchmark::Counter(
				250	uint64_t(state.iterations()) * 2 * mc * nc * kc, benchmark::Counter::kIsRate);
				251	}
				252
Marat Dukhan	33f0c7a	2019-10-01 13:33:08 -0700	[diff] [blame]	253	#ifdef BENCHMARK_RUY
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	254	static void RuyBenchmark(benchmark::State& state, uint32_t threads)
				255	{
				256	std::random_device random_device;
				257	auto rng = std::mt19937(random_device());
				258	auto f32rng = std::bind(std::uniform_real_distribution<float>(), rng);
				259
				260	const size_t mc = state.range(0);
				261	const size_t nc = state.range(1);
				262	const size_t kc = state.range(2);
				263
				264	const size_t num_buffers = 1 +
Marat Dukhan	4232323	2019-10-23 02:09:02 -0700	[diff] [blame]	265	benchmark::utils::DivideRoundUp<size_t>(benchmark::utils::GetMaxCacheSize(),
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	266	sizeof(float) * (nc * (mc + kc + 1)));
				267
				268	std::vector<float> a(mc * kc);
				269	std::generate(a.begin(), a.end(), std::ref(f32rng));
				270	std::vector<float> k(num_buffers * nc * kc);
				271	std::generate(k.begin(), k.end(), std::ref(f32rng));
				272	std::vector<float> b(num_buffers * nc);
				273	std::generate(b.begin(), b.end(), std::ref(f32rng));
				274	std::vector<float> c(num_buffers * nc * mc);
				275	std::fill(c.begin(), c.end(), std::nanf(""));
				276
				277	// Note: context must be static to avoid the cost of re-creating it for each benchmark.
				278	static ruy::Context context;
				279	context.max_num_threads = threads;
				280
				281	ruy::Matrix<float> ruy_a;
				282	ruy::MakeSimpleLayout(nc, kc, ruy::Order::kRowMajor, &ruy_a.layout);
				283	ruy::Matrix<float> ruy_b;
				284	ruy::MakeSimpleLayout(kc, mc, ruy::Order::kColMajor, &ruy_b.layout);
				285	ruy_b.data = a.data();
				286	ruy::Matrix<float> ruy_c;
				287	ruy::MakeSimpleLayout(nc, mc, ruy::Order::kColMajor, &ruy_c.layout);
				288
				289	ruy::BasicSpec<float, float> spec;
				290
				291	// ruy::Context uses deferred initialization, which affects percieved GEMM performance. Initialization happens during
				292	// the first GEMM calls, and per Benoit Jacob it takes up to ~250 milliseconds for performance to stabilize.
				293	// Thus, on the first benchmark, we compute GEMM for 500 milliseconds (to be safe) without recording performance, and
				294	// keep the ruy::Context object initialized (by being static) between subsequent benchmarks.
				295	static std::once_flag warmup;
				296	std::call_once(warmup, [&](){
				297	auto start = std::chrono::steady_clock::now();
				298	do {
				299	ruy_a.data = k.data();
				300	ruy_c.data = c.data();
				301	spec.bias = b.data();
				302
				303	ruy::Mul<ruy::kAllPaths>(ruy_a, ruy_b, spec, &context, &ruy_c);
				304	} while (std::chrono::duration<double>(std::chrono::steady_clock::now() - start).count() < 0.5);
				305	});
				306
				307	size_t buffer_index = 0;
				308	for (auto _ : state) {
				309	// Use circular buffers (exceeding cache size) and prefetch to control cache state:
				310	// - A is always in L1 cache (if fits, otherwise L2, L3, etc)
				311	// - K is not in cache (for any cache level)
				312	// - B is not in cache (for any cache level)
				313	// - C is not in cache (for any cache level)
				314	state.PauseTiming();
Marat Dukhan	4232323	2019-10-23 02:09:02 -0700	[diff] [blame]	315	benchmark::utils::PrefetchToL1(a.data(), a.size() * sizeof(float));
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	316	buffer_index = (buffer_index + 1) % num_buffers;
				317	state.ResumeTiming();
				318
				319	ruy_a.data = k.data() + buffer_index * nc * kc;
				320	ruy_c.data = c.data() + buffer_index * mc * nc;
				321	spec.bias = b.data() + buffer_index * nc;
				322
				323	ruy::Mul<ruy::kAllPaths>(ruy_a, ruy_b, spec, &context, &ruy_c);
				324	}
				325
				326	state.counters["Freq"] = benchmark::utils::GetCurrentCpuFrequency();
				327	state.counters["FLOPS"] = benchmark::Counter(
				328	uint64_t(state.iterations()) * 2 * mc * nc * kc, benchmark::Counter::kIsRate);
				329	}
				330
				331	static void ruy_st(benchmark::State& state, const char* net)
				332	{
				333	RuyBenchmark(state, 1);
				334	}
Marat Dukhan	33f0c7a	2019-10-01 13:33:08 -0700	[diff] [blame]	335	#endif // BENCHMARK_RUY
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	336
				337
Frank Barchard	dbafc58	2019-10-09 16:30:48 -0700	[diff] [blame]	338	#if XNN_ARCH_ARM64 && XNN_ENABLE_ASSEMBLY
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	339	static void sgemm_1x12__aarch64_neonfma_cortex_a53(benchmark::State& state, const char* net) {
				340	GEMMBenchmark(state, xnn_f32_gemm_ukernel_1x12__aarch64_neonfma_cortex_a53, 1, 12, 1, 1);
				341	}
Frank Barchard	21be34f	2019-10-09 19:32:19 -0700	[diff] [blame]	342	static void sgemm_1x8__aarch64_neonfma_cortex_a53(benchmark::State& state, const char* net) {
				343	GEMMBenchmark(state, xnn_f32_gemm_ukernel_1x8__aarch64_neonfma_cortex_a53, 1, 8, 1, 1);
				344	}
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	345	static void sgemm_1x8__aarch64_neonfma_cortex_a57(benchmark::State& state, const char* net) {
				346	GEMMBenchmark(state, xnn_f32_gemm_ukernel_1x8__aarch64_neonfma_cortex_a57, 1, 8, 1, 1);
				347	}
				348	static void sgemm_1x8__aarch64_neonfma_cortex_a75(benchmark::State& state, const char* net) {
				349	GEMMBenchmark(state, xnn_f32_gemm_ukernel_1x8__aarch64_neonfma_cortex_a75, 1, 8, 1, 1);
				350	}
				351	static void sgemm_4x12__aarch64_neonfma_cortex_a53(benchmark::State& state, const char* net) {
				352	GEMMBenchmark(state, xnn_f32_gemm_ukernel_4x12__aarch64_neonfma_cortex_a53, 4, 12, 1, 1);
				353	}
Frank Barchard	46fb807	2019-10-25 12:54:22 -0700	[diff] [blame^]	354	static void sgemm_4x8__aarch64_neonfma_cortex_a53(benchmark::State& state, const char* net) {
				355	GEMMBenchmark(state, xnn_f32_gemm_ukernel_4x8__aarch64_neonfma_cortex_a53, 4, 8, 1, 1);
				356	}
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	357	static void sgemm_4x8__aarch64_neonfma_cortex_a57(benchmark::State& state, const char* net) {
				358	GEMMBenchmark(state, xnn_f32_gemm_ukernel_4x8__aarch64_neonfma_cortex_a57, 4, 8, 1, 1);
				359	}
				360	static void sgemm_4x8__aarch64_neonfma_cortex_a75(benchmark::State& state, const char* net) {
				361	GEMMBenchmark(state, xnn_f32_gemm_ukernel_4x8__aarch64_neonfma_cortex_a75, 4, 8, 1, 1);
				362	}
				363	static void sgemm_4x8__aarch64_neonfma_ld64(benchmark::State& state, const char* net) {
				364	GEMMBenchmark(state, xnn_f32_gemm_ukernel_4x8__aarch64_neonfma_ld64, 4, 8, 1, 1);
				365	}
				366	static void sgemm_4x8__aarch64_neonfma_ld128(benchmark::State& state, const char* net) {
				367	GEMMBenchmark(state, xnn_f32_gemm_ukernel_4x8__aarch64_neonfma_ld128, 4, 8, 1, 1);
				368	}
				369	static void sgemm_5x8__aarch64_neonfma_cortex_a75(benchmark::State& state, const char* net) {
				370	GEMMBenchmark(state, xnn_f32_gemm_ukernel_5x8__aarch64_neonfma_cortex_a75, 5, 8, 1, 1);
				371	}
				372	static void sgemm_6x8__aarch64_neonfma_ld64(benchmark::State& state, const char* net) {
				373	GEMMBenchmark(state, xnn_f32_gemm_ukernel_6x8__aarch64_neonfma_ld64, 6, 8, 1, 1);
				374	}
				375	static void sgemm_6x8__aarch64_neonfma_ld128(benchmark::State& state, const char* net) {
				376	GEMMBenchmark(state, xnn_f32_gemm_ukernel_6x8__aarch64_neonfma_ld128, 6, 8, 1, 1);
				377	}
Frank Barchard	a7fb855	2019-10-23 17:14:17 -0700	[diff] [blame]	378	static void sgemm_6x8__aarch64_neonfma_cortex_a53(benchmark::State& state, const char* net) {
				379	GEMMBenchmark(state, xnn_f32_gemm_ukernel_6x8__aarch64_neonfma_cortex_a53, 6, 8, 1, 1);
				380	}
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	381	static void sgemm_6x8__aarch64_neonfma_cortex_a57(benchmark::State& state, const char* net) {
				382	GEMMBenchmark(state, xnn_f32_gemm_ukernel_6x8__aarch64_neonfma_cortex_a57, 6, 8, 1, 1);
				383	}
				384	static void sgemm_6x8__aarch64_neonfma_cortex_a73(benchmark::State& state, const char* net) {
				385	GEMMBenchmark(state, xnn_f32_gemm_ukernel_6x8__aarch64_neonfma_cortex_a73, 6, 8, 1, 1);
				386	}
				387	static void sgemm_6x8__aarch64_neonfma_cortex_a75(benchmark::State& state, const char* net) {
				388	GEMMBenchmark(state, xnn_f32_gemm_ukernel_6x8__aarch64_neonfma_cortex_a75, 6, 8, 1, 1);
				389	}
				390
				391	BENCHMARK_GEMM(sgemm_1x12__aarch64_neonfma_cortex_a53)
Frank Barchard	21be34f	2019-10-09 19:32:19 -0700	[diff] [blame]	392	BENCHMARK_GEMM(sgemm_1x8__aarch64_neonfma_cortex_a53)
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	393	BENCHMARK_GEMM(sgemm_1x8__aarch64_neonfma_cortex_a57)
				394	BENCHMARK_GEMM(sgemm_1x8__aarch64_neonfma_cortex_a75)
				395	BENCHMARK_GEMM(sgemm_4x12__aarch64_neonfma_cortex_a53)
Frank Barchard	46fb807	2019-10-25 12:54:22 -0700	[diff] [blame^]	396	BENCHMARK_GEMM(sgemm_4x8__aarch64_neonfma_cortex_a53)
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	397	BENCHMARK_GEMM(sgemm_4x8__aarch64_neonfma_cortex_a57)
				398	BENCHMARK_GEMM(sgemm_4x8__aarch64_neonfma_cortex_a75)
				399	BENCHMARK_GEMM(sgemm_4x8__aarch64_neonfma_ld128)
				400	BENCHMARK_GEMM(sgemm_4x8__aarch64_neonfma_ld64)
				401	BENCHMARK_GEMM(sgemm_5x8__aarch64_neonfma_cortex_a75)
Frank Barchard	a7fb855	2019-10-23 17:14:17 -0700	[diff] [blame]	402	BENCHMARK_GEMM(sgemm_6x8__aarch64_neonfma_cortex_a53)
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	403	BENCHMARK_GEMM(sgemm_6x8__aarch64_neonfma_cortex_a57)
				404	BENCHMARK_GEMM(sgemm_6x8__aarch64_neonfma_cortex_a73)
				405	BENCHMARK_GEMM(sgemm_6x8__aarch64_neonfma_cortex_a75)
				406	BENCHMARK_GEMM(sgemm_6x8__aarch64_neonfma_ld64)
				407	BENCHMARK_GEMM(sgemm_6x8__aarch64_neonfma_ld128)
Marat Dukhan	1dadbf7	2019-10-01 10:46:20 -0700	[diff] [blame]	408	#endif // XNN_ARCH_ARM64
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	409
Marat Dukhan	1dadbf7	2019-10-01 10:46:20 -0700	[diff] [blame]	410	#if XNN_ARCH_ARM \|\| XNN_ARCH_ARM64
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	411	static void sgemm_1x8__neon_ld64(benchmark::State& state, const char* net) {
				412	GEMMBenchmark(state, xnn_f32_gemm_ukernel_1x8__neon_ld64, 1, 8, 1, 1);
				413	}
				414
				415	static void sgemm_1x8__neonfma_ld64(benchmark::State& state, const char* net) {
				416	GEMMBenchmark(state, xnn_f32_gemm_ukernel_1x8__neonfma_ld64, 1, 8, 1, 1);
				417	}
				418
				419	static void sgemm_4x8__neon_ld64(benchmark::State& state, const char* net) {
				420	GEMMBenchmark(state, xnn_f32_gemm_ukernel_4x8__neon_ld64, 4, 8, 1, 1);
				421	}
				422
				423	static void sgemm_4x8__neon_ld128(benchmark::State& state, const char* net) {
				424	GEMMBenchmark(state, xnn_f32_gemm_ukernel_4x8__neon_ld128, 4, 8, 1, 1);
				425	}
				426
				427	static void sgemm_5x8__neon_ld64(benchmark::State& state, const char* net) {
				428	GEMMBenchmark(state, xnn_f32_gemm_ukernel_5x8__neon_ld64, 5, 8, 1, 1);
				429	}
				430
				431	static void sgemm_6x8__neon_ld64(benchmark::State& state, const char* net) {
				432	GEMMBenchmark(state, xnn_f32_gemm_ukernel_6x8__neon_ld64, 6, 8, 1, 1);
				433	}
				434
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	435	static void sgemm_4x8__neonfma_ld64(benchmark::State& state, const char* net) {
				436	GEMMBenchmark(state, xnn_f32_gemm_ukernel_4x8__neonfma_ld64, 4, 8, 1, 1);
				437	}
				438
				439	static void sgemm_4x8__neonfma_ld128(benchmark::State& state, const char* net) {
				440	GEMMBenchmark(state, xnn_f32_gemm_ukernel_4x8__neonfma_ld128, 4, 8, 1, 1);
				441	}
				442
				443	static void sgemm_5x8__neonfma_ld64(benchmark::State& state, const char* net) {
				444	GEMMBenchmark(state, xnn_f32_gemm_ukernel_5x8__neonfma_ld64, 5, 8, 1, 1);
				445	}
				446
				447	static void sgemm_6x8__neonfma_ld64(benchmark::State& state, const char* net) {
				448	GEMMBenchmark(state, xnn_f32_gemm_ukernel_6x8__neonfma_ld64, 6, 8, 1, 1);
				449	}
				450
				451	static void sppmm_4x8_unipass__neonfma(benchmark::State& state, const char* net) {
				452	PPMM1PBenchmark(state, xnn_f32_ppmm_ukernel_4x8__neonfma, xnn_x32_packx_ukernel_4x__neon_st4, 4, 8);
				453	}
				454
				455	static void sppmm_4x8_twopass__neonfma(benchmark::State& state, const char* net) {
				456	PPMM2PBenchmark(state, xnn_f32_ppmm_ukernel_4x8__neonfma, xnn_x32_packx_ukernel_4x__neon_st4, 4, 8);
				457	}
				458
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	459	BENCHMARK_GEMM(sgemm_1x8__neon_ld64)
				460	BENCHMARK_GEMM(sgemm_1x8__neonfma_ld64)
				461	BENCHMARK_GEMM(sgemm_4x8__neon_ld128)
				462	BENCHMARK_GEMM(sgemm_4x8__neon_ld64)
				463	BENCHMARK_GEMM(sgemm_4x8__neonfma_ld128)
				464	BENCHMARK_GEMM(sgemm_4x8__neonfma_ld64)
				465	BENCHMARK_GEMM(sgemm_5x8__neon_ld64)
				466	BENCHMARK_GEMM(sgemm_5x8__neonfma_ld64)
				467	BENCHMARK_GEMM(sgemm_6x8__neon_ld64)
				468	BENCHMARK_GEMM(sgemm_6x8__neonfma_ld64)
				469
				470	BENCHMARK_GEMM(sppmm_4x8_unipass__neonfma)
				471	BENCHMARK_GEMM(sppmm_4x8_twopass__neonfma)
Marat Dukhan	1dadbf7	2019-10-01 10:46:20 -0700	[diff] [blame]	472	#endif // XNN_ARCH_ARM \|\| XNN_ARCH_ARM64
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	473
Marat Dukhan	1dadbf7	2019-10-01 10:46:20 -0700	[diff] [blame]	474	#if XNN_ARCH_X86 \|\| XNN_ARCH_X86_64
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	475	static void sgemm_1x8__sse_load1(benchmark::State& state, const char* net) {
				476	GEMMBenchmark(state, xnn_f32_gemm_ukernel_1x8__sse_load1, 1, 8, 1, 1);
				477	}
				478
				479	static void sgemm_4x8__sse_load1(benchmark::State& state, const char* net) {
				480	GEMMBenchmark(state, xnn_f32_gemm_ukernel_4x8__sse_load1, 4, 8, 1, 1);
				481	}
				482
				483	static void sgemm_1x8__sse_dup(benchmark::State& state, const char* net) {
				484	GEMMBenchmark(state, xnn_f32_gemm_ukernel_1x8__sse_dup, 1, 8, 1, 1);
				485	}
				486
				487	static void sgemm_4x8__sse_dup(benchmark::State& state, const char* net) {
				488	GEMMBenchmark(state, xnn_f32_gemm_ukernel_4x8__sse_dup, 4, 8, 1, 1);
				489	}
				490
				491	static void sgemm_1x8s4__sse(benchmark::State& state, const char* net) {
				492	GEMMBenchmark(state, xnn_f32_gemm_ukernel_1x8s4__sse, 1, 8, 1, 4);
				493	}
				494
				495	static void sgemm_4x8s4__sse(benchmark::State& state, const char* net) {
				496	GEMMBenchmark(state, xnn_f32_gemm_ukernel_4x8s4__sse, 4, 8, 1, 4);
				497	}
				498
				499	static void sppmm_4x8_unipass__sse(benchmark::State& state, const char* net) {
				500	PPMM1PBenchmark(state, xnn_f32_ppmm_ukernel_4x8__sse, xnn_x32_packx_ukernel_4x__sse, 4, 8);
				501	}
				502
				503	static void sppmm_4x8_twopass__sse(benchmark::State& state, const char* net) {
				504	PPMM2PBenchmark(state, xnn_f32_ppmm_ukernel_4x8__sse, xnn_x32_packx_ukernel_4x__sse, 4, 8);
				505	}
				506
				507	BENCHMARK_GEMM(sgemm_1x8__sse_load1)
				508	BENCHMARK_GEMM(sgemm_4x8__sse_load1)
				509	BENCHMARK_GEMM(sgemm_1x8__sse_dup)
				510	BENCHMARK_GEMM(sgemm_4x8__sse_dup)
				511	BENCHMARK_GEMM(sgemm_1x8s4__sse)
				512	BENCHMARK_GEMM(sgemm_4x8s4__sse)
				513	BENCHMARK_GEMM(sppmm_4x8_unipass__sse)
				514	BENCHMARK_GEMM(sppmm_4x8_twopass__sse)
Marat Dukhan	1dadbf7	2019-10-01 10:46:20 -0700	[diff] [blame]	515	#endif // XNN_ARCH_X86 \|\| XNN_ARCH_X86_64
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	516
Marat Dukhan	1dadbf7	2019-10-01 10:46:20 -0700	[diff] [blame]	517	#if !XNN_ARCH_WASM && !XNN_ARCH_ASMJS
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	518	static void sgemm_4x8__psimd_loadsplat(benchmark::State& state, const char* net) {
				519	GEMMBenchmark(state, xnn_f32_gemm_ukernel_4x8__psimd_loadsplat, 4, 8, 1, 1);
				520	}
				521
				522	static void sgemm_6x8__psimd_loadsplat(benchmark::State& state, const char* net) {
				523	GEMMBenchmark(state, xnn_f32_gemm_ukernel_6x8__psimd_loadsplat, 6, 8, 1, 1);
				524	}
				525
				526	static void sgemm_4x8__psimd_splat(benchmark::State& state, const char* net) {
				527	GEMMBenchmark(state, xnn_f32_gemm_ukernel_4x8__psimd_splat, 4, 8, 1, 1);
				528	}
				529
				530	static void sgemm_6x8__psimd_splat(benchmark::State& state, const char* net) {
				531	GEMMBenchmark(state, xnn_f32_gemm_ukernel_6x8__psimd_splat, 6, 8, 1, 1);
				532	}
				533
				534	static void sgemm_4x8s4__psimd(benchmark::State& state, const char* net) {
				535	GEMMBenchmark(state, xnn_f32_gemm_ukernel_4x8s4__psimd, 4, 8, 1, 4);
				536	}
				537
				538	static void sgemm_6x8s4__psimd(benchmark::State& state, const char* net) {
				539	GEMMBenchmark(state, xnn_f32_gemm_ukernel_6x8s4__psimd, 6, 8, 1, 4);
				540	}
				541
				542	static void sppmm_4x8_unipass__psimd(benchmark::State& state, const char* net) {
				543	PPMM1PBenchmark(state, xnn_f32_ppmm_ukernel_4x8__psimd, xnn_x32_packx_ukernel_4x__psimd, 4, 8);
				544	}
				545
				546	static void sppmm_4x8_twopass__psimd(benchmark::State& state, const char* net) {
				547	PPMM2PBenchmark(state, xnn_f32_ppmm_ukernel_4x8__psimd, xnn_x32_packx_ukernel_4x__psimd, 4, 8);
				548	}
				549
				550	BENCHMARK_GEMM(sgemm_4x8__psimd_loadsplat)
				551	BENCHMARK_GEMM(sgemm_6x8__psimd_loadsplat)
				552	BENCHMARK_GEMM(sgemm_4x8__psimd_splat)
				553	BENCHMARK_GEMM(sgemm_6x8__psimd_splat)
				554	BENCHMARK_GEMM(sgemm_4x8s4__psimd)
				555	BENCHMARK_GEMM(sgemm_6x8s4__psimd)
				556	BENCHMARK_GEMM(sppmm_4x8_unipass__psimd)
				557	BENCHMARK_GEMM(sppmm_4x8_twopass__psimd)
Marat Dukhan	1dadbf7	2019-10-01 10:46:20 -0700	[diff] [blame]	558	#endif // !XNN_ARCH_WASM && !XNN_ARCH_ASMJS
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	559
				560	static void sgemm_1x4__scalar(benchmark::State& state, const char* net) {
				561	GEMMBenchmark(state, xnn_f32_gemm_ukernel_1x4__scalar, 1, 4, 1, 1);
				562	}
				563
				564	static void sgemm_2x4__scalar(benchmark::State& state, const char* net) {
				565	GEMMBenchmark(state, xnn_f32_gemm_ukernel_2x4__scalar, 2, 4, 1, 1);
				566	}
				567
				568	static void sgemm_4x4__scalar(benchmark::State& state, const char* net) {
				569	GEMMBenchmark(state, xnn_f32_gemm_ukernel_4x4__scalar, 4, 4, 1, 1);
				570	}
				571
				572	static void sppmm_2x4_unipass__scalar(benchmark::State& state, const char* net) {
				573	PPMM1PBenchmark(state, xnn_f32_ppmm_ukernel_2x4__scalar, xnn_x32_packx_ukernel_2x__scalar, 2, 4);
				574	}
				575
				576	static void sppmm_4x2_unipass__scalar(benchmark::State& state, const char* net) {
				577	PPMM1PBenchmark(state, xnn_f32_ppmm_ukernel_4x2__scalar, xnn_x32_packx_ukernel_4x__scalar, 4, 2);
				578	}
				579
				580	static void sppmm_4x4_unipass__scalar(benchmark::State& state, const char* net) {
				581	PPMM1PBenchmark(state, xnn_f32_ppmm_ukernel_4x4__scalar, xnn_x32_packx_ukernel_4x__scalar, 4, 4);
				582	}
				583
				584	static void sppmm_3x3_unipass__scalar(benchmark::State& state, const char* net) {
				585	PPMM1PBenchmark(state, xnn_f32_ppmm_ukernel_3x3__scalar, xnn_x32_packx_ukernel_3x__scalar, 3, 3);
				586	}
				587
				588	static void sppmm_2x4_twopass__scalar(benchmark::State& state, const char* net) {
				589	PPMM2PBenchmark(state, xnn_f32_ppmm_ukernel_2x4__scalar, xnn_x32_packx_ukernel_2x__scalar, 2, 4);
				590	}
				591
				592	static void sppmm_4x2_twopass__scalar(benchmark::State& state, const char* net) {
				593	PPMM2PBenchmark(state, xnn_f32_ppmm_ukernel_4x2__scalar, xnn_x32_packx_ukernel_4x__scalar, 4, 2);
				594	}
				595
				596	static void sppmm_4x4_twopass__scalar(benchmark::State& state, const char* net) {
				597	PPMM2PBenchmark(state, xnn_f32_ppmm_ukernel_4x4__scalar, xnn_x32_packx_ukernel_4x__scalar, 4, 4);
				598	}
				599
				600	static void sppmm_3x3_twopass__scalar(benchmark::State& state, const char* net) {
				601	PPMM2PBenchmark(state, xnn_f32_ppmm_ukernel_3x3__scalar, xnn_x32_packx_ukernel_3x__scalar, 3, 3);
				602	}
				603
				604	BENCHMARK_GEMM(sgemm_1x4__scalar)
				605	BENCHMARK_GEMM(sgemm_2x4__scalar)
				606	BENCHMARK_GEMM(sgemm_4x4__scalar)
				607
				608	BENCHMARK_GEMM(sppmm_2x4_unipass__scalar)
				609	BENCHMARK_GEMM(sppmm_4x2_unipass__scalar)
				610	BENCHMARK_GEMM(sppmm_4x4_unipass__scalar)
				611	BENCHMARK_GEMM(sppmm_3x3_unipass__scalar)
				612
				613	BENCHMARK_GEMM(sppmm_2x4_twopass__scalar)
				614	BENCHMARK_GEMM(sppmm_4x2_twopass__scalar)
				615	BENCHMARK_GEMM(sppmm_4x4_twopass__scalar)
				616	BENCHMARK_GEMM(sppmm_3x3_twopass__scalar)
				617
				618
Marat Dukhan	33f0c7a	2019-10-01 13:33:08 -0700	[diff] [blame]	619	#ifdef BENCHMARK_RUY
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	620	BENCHMARK_GEMM(ruy_st)
Marat Dukhan	33f0c7a	2019-10-01 13:33:08 -0700	[diff] [blame]	621	#endif // BENCHMARK_RUY
XNNPACK Team	b455b12	2019-09-27 18:10:33 -0700	[diff] [blame]	622
				623	#ifndef XNNPACK_BENCHMARK_NO_MAIN
				624	BENCHMARK_MAIN();
				625	#endif