Blame - src/opts/SkVM_opts.h - platform/external/skia

2020-03-05 10:15:35 -0600

[diff] [blame]

1

Mike Klein

a67d1ae

2020-03-09 17:36:00 -0500

[diff] [blame]

2

// Use of this source code is governed by a BSD-style license that can be found in the LICENSE file.

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

3

4

#ifndef SkVM_opts_DEFINED

5

#define SkVM_opts_DEFINED

6

7

#include "include/private/SkVx.h"

8

#include "src/core/SkVM.h"

9

Mike Klein

6d94b65

2020-09-16 11:37:03 -0500

[diff] [blame]

10

// Ideally this is (x*y + 0x2000)>>14,

11

// but to let use vpmulhrsw we'll approximate that as ((x*y + 0x4000)>>15)<<1.

12

template <int N>

13

static inline skvx::Vec<N,int16_t> mul_q14(const skvx::Vec<N,int16_t>& x,

14

const skvx::Vec<N,int16_t>& y) {

15

#if SK_CPU_SSE_LEVEL >= SK_CPU_SSE_LEVEL_AVX2

16

if constexpr (N == 16) {

17

return skvx::bit_pun<skvx::Vec<N,int16_t>>(_mm256_mulhrs_epi16(skvx::bit_pun<__m256i>(x),

18

skvx::bit_pun<__m256i>(y)))

<< 1;

}

#endif

#if SK_CPU_SSE_LEVEL >= SK_CPU_SSE_LEVEL_SSSE3

23

if constexpr (N == 8) {

24

return skvx::bit_pun<skvx::Vec<N,int16_t>>(_mm_mulhrs_epi16(skvx::bit_pun<__m128i>(x),

25

skvx::bit_pun<__m128i>(y)))

<< 1;

}

#endif

// TODO: NEON specialization with vqrdmulh.s16?

30

31

// Try to recurse onto the specializations above.

32

if constexpr (N > 8) {

33

return join(mul_q14(x.lo, y.lo),

34

mul_q14(x.hi, y.hi));

35

}

36

return skvx::cast<int16_t>((skvx::cast<int>(x) *

37

skvx::cast<int>(y) + 0x4000)>>15 ) <<1;

38

}

39

Mike Klein

2e69a13

2020-09-18 08:02:46 -0500

[diff] [blame]

40

template <int N>

41

static inline skvx::Vec<N,int> gather32(const int* ptr, const skvx::Vec<N,int>& ix) {

42

#if SK_CPU_SSE_LEVEL >= SK_CPU_SSE_LEVEL_AVX2

43

if constexpr (N == 8) {

44

return skvx::bit_pun<skvx::Vec<N,int>>(

45

_mm256_i32gather_epi32(ptr, skvx::bit_pun<__m256i>(ix), 4));

46

}

47

#endif

48

// Try to recurse on specializations, falling back on standard scalar map()-based impl.

49

if constexpr (N > 8) {

50

return join(gather32(ptr, ix.lo),

51

gather32(ptr, ix.hi));

52

}

53

return map(ix, [&](int i) { return ptr[i]; });

54

}

55

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

56

namespace SK_OPTS_NS {

57

58

inline void interpret_skvm(const skvm::InterpreterInstruction insts[], const int ninsts,

59

const int nregs, const int loop,

60

const int strides[], const int nargs,

61

int n, void* args[]) {

62

using namespace skvm;

63

64

// We'll operate in SIMT style, knocking off K-size chunks from n while possible.

Mike Klein

51d35ed

2020-04-24 08:16:22 -0500

[diff] [blame]

65

#if SK_CPU_SSE_LEVEL >= SK_CPU_SSE_LEVEL_AVX2

Mike Klein

394a6d5

2020-09-18 14:04:19 -0500

[diff] [blame^]

66

constexpr int K = 32; // 1024-bit: 4 ymm or 2 zmm at a time

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

67

#else

Mike Klein

394a6d5

2020-09-18 14:04:19 -0500

[diff] [blame^]

68

constexpr int K = 8; // 256-bit: 2 xmm, 2 v-registers, etc.

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

69

#endif

70

using I32 = skvx::Vec<K, int>;

71

using F32 = skvx::Vec<K, float>;

Mike Klein

6732da0

2020-07-16 13:03:18 -0500

[diff] [blame]

72

using U64 = skvx::Vec<K, uint64_t>;

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

73

using U32 = skvx::Vec<K, uint32_t>;

74

using U16 = skvx::Vec<K, uint16_t>;

75

using U8 = skvx::Vec<K, uint8_t>;

76

Mike Klein

2020-09-15 12:43:38 -0500

[diff] [blame]

77

using I16x2 = skvx::Vec<2*K, int16_t>;

78

using U16x2 = skvx::Vec<2*K, uint16_t>;

79

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

union Slot {

F32 f32;

I32 i32;

U32 u32;

Mike Klein

2020-09-15 12:43:38 -0500

[diff] [blame]

84

I16x2 i16x2;

85

U16x2 u16x2;

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

};

Slot few_regs[16];

std::unique_ptr<char[]> many_regs;

90

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

91

Slot* r = few_regs;

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

92

93

if (nregs > (int)SK_ARRAY_COUNT(few_regs)) {

94

// Annoyingly we can't trust that malloc() or new will work with Slot because

95

// the skvx::Vec types may have alignment greater than what they provide.

96

// We'll overallocate one extra register so we can align manually.

97

many_regs.reset(new char[ sizeof(Slot) * (nregs + 1) ]);

98

99

uintptr_t addr = (uintptr_t)many_regs.get();

100

addr += alignof(Slot) -

101

(addr & (alignof(Slot) - 1));

102

SkASSERT((addr & (alignof(Slot) - 1)) == 0);

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

103

r = (Slot*)addr;

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

}

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

107

// Step each argument pointer ahead by its stride a number of times.

108

auto step_args = [&](int times) {

109

for (int i = 0; i < nargs; i++) {

110

args[i] = (void*)( (char*)args[i] + times * strides[i] );

}

};

int start = 0,

stride;

for ( ; n > 0; start = loop, n -= stride, step_args(stride)) {

117

stride = n >= K ? K : 1;

118

119

for (int i = start; i < ninsts; i++) {

120

InterpreterInstruction inst = insts[i];

121

122

// d = op(x,y/imm,z/imm)

Reg d = inst.d,

x = inst.x,

y = inst.y,

z = inst.z;

int immy = inst.immy,

128

immz = inst.immz;

129

130

// Ops that interact with memory need to know whether we're stride=1 or K,

131

// but all non-memory ops can run the same code no matter the stride.

132

switch (2*(int)inst.op + (stride == K ? 1 : 0)) {

133

default: SkUNREACHABLE;

134

135

#define STRIDE_1(op) case 2*(int)op

136

#define STRIDE_K(op) case 2*(int)op + 1

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

137

STRIDE_1(Op::store8 ): memcpy(args[immy], &r[x].i32, 1); break;

138

STRIDE_1(Op::store16): memcpy(args[immy], &r[x].i32, 2); break;

139

STRIDE_1(Op::store32): memcpy(args[immy], &r[x].i32, 4); break;

Mike Klein

6732da0

2020-07-16 13:03:18 -0500

[diff] [blame]

140

STRIDE_1(Op::store64): memcpy((char*)args[immz]+0, &r[x].i32, 4);

141

memcpy((char*)args[immz]+4, &r[y].i32, 4); break;

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

142

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

143

STRIDE_K(Op::store8 ): skvx::cast<uint8_t> (r[x].i32).store(args[immy]); break;

144

STRIDE_K(Op::store16): skvx::cast<uint16_t>(r[x].i32).store(args[immy]); break;

145

STRIDE_K(Op::store32): (r[x].i32).store(args[immy]); break;

Mike Klein

6732da0

2020-07-16 13:03:18 -0500

[diff] [blame]

146

STRIDE_K(Op::store64): (skvx::cast<uint64_t>(r[x].u32) << 0 |

147

skvx::cast<uint64_t>(r[y].u32) << 32).store(args[immz]);

148

break;

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

149

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

150

STRIDE_1(Op::load8 ): r[d].i32 = 0; memcpy(&r[d].i32, args[immy], 1); break;

151

STRIDE_1(Op::load16): r[d].i32 = 0; memcpy(&r[d].i32, args[immy], 2); break;

152

STRIDE_1(Op::load32): r[d].i32 = 0; memcpy(&r[d].i32, args[immy], 4); break;

Mike Klein

2020-07-30 08:19:12 -0500

[diff] [blame]

153

STRIDE_1(Op::load64):

154

r[d].i32 = 0; memcpy(&r[d].i32, (char*)args[immy] + 4*immz, 4); break;

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

155

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

156

STRIDE_K(Op::load8 ): r[d].i32= skvx::cast<int>(U8 ::Load(args[immy])); break;

157

STRIDE_K(Op::load16): r[d].i32= skvx::cast<int>(U16::Load(args[immy])); break;

158

STRIDE_K(Op::load32): r[d].i32= I32::Load(args[immy]) ; break;

Mike Klein

2020-07-30 08:19:12 -0500

[diff] [blame]

159

STRIDE_K(Op::load64):

160

// Low 32 bits if immz=0, or high 32 bits if immz=1.

161

r[d].i32 = skvx::cast<int>(U64::Load(args[immy]) >> (32*immz)); break;

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

162

163

// The pointer we base our gather on is loaded indirectly from a uniform:

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

164

// - args[immy] is the uniform holding our gather base pointer somewhere;

165

// - (const uint8_t*)args[immy] + immz points to the gather base pointer;

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

166

// - memcpy() loads the gather base and into a pointer of the right type.

167

// After all that we have an ordinary (uniform) pointer `ptr` to load from,

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

168

// and we then gather from it using the varying indices in r[x].

Mike Klein

feb4d10

2020-09-17 08:54:08 -0500

[diff] [blame]

169

STRIDE_1(Op::gather8): {

170

const uint8_t* ptr;

171

memcpy(&ptr, (const uint8_t*)args[immy] + immz, sizeof(ptr));

172

r[d].i32 = ptr[ r[x].i32[0] ];

173

} break;

174

STRIDE_1(Op::gather16): {

175

const uint16_t* ptr;

176

memcpy(&ptr, (const uint8_t*)args[immy] + immz, sizeof(ptr));

177

r[d].i32 = ptr[ r[x].i32[0] ];

178

} break;

179

STRIDE_1(Op::gather32): {

180

const int* ptr;

181

memcpy(&ptr, (const uint8_t*)args[immy] + immz, sizeof(ptr));

182

r[d].i32 = ptr[ r[x].i32[0] ];

183

} break;

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

184

Mike Klein

feb4d10

2020-09-17 08:54:08 -0500

[diff] [blame]

185

STRIDE_K(Op::gather8): {

186

const uint8_t* ptr;

187

memcpy(&ptr, (const uint8_t*)args[immy] + immz, sizeof(ptr));

188

r[d].i32 = map(r[x].i32, [&](int ix) { return (int)ptr[ix]; });

189

} break;

190

STRIDE_K(Op::gather16): {

191

const uint16_t* ptr;

192

memcpy(&ptr, (const uint8_t*)args[immy] + immz, sizeof(ptr));

193

r[d].i32 = map(r[x].i32, [&](int ix) { return (int)ptr[ix]; });

194

} break;

195

STRIDE_K(Op::gather32): {

196

const int* ptr;

197

memcpy(&ptr, (const uint8_t*)args[immy] + immz, sizeof(ptr));

Mike Klein

2e69a13

2020-09-18 08:02:46 -0500

[diff] [blame]

198

r[d].i32 = gather32(ptr, r[x].i32);

Mike Klein

feb4d10

2020-09-17 08:54:08 -0500

[diff] [blame]

199

} break;

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

#undef STRIDE_1

#undef STRIDE_K

// Ops that don't interact with memory should never care about the stride.

205

#define CASE(op) case 2*(int)op: /*fallthrough*/ case 2*(int)op+1

206

Mike Klein

2020-07-29 16:45:05 -0500

[diff] [blame]

207

// These 128-bit ops are implemented serially for simplicity.

Mike Klein

2020-07-30 08:19:12 -0500

[diff] [blame]

208

CASE(Op::store128): {

209

int ptr = immz>>1,

210

lane = immz&1;

Mike Klein

2020-07-29 16:45:05 -0500

[diff] [blame]

211

U64 src = (skvx::cast<uint64_t>(r[x].u32) << 0 |

212

skvx::cast<uint64_t>(r[y].u32) << 32);

213

for (int i = 0; i < stride; i++) {

Mike Klein

2020-07-30 08:19:12 -0500

[diff] [blame]

214

memcpy((char*)args[ptr] + 16*i + 8*lane, &src[i], 8);

Mike Klein

2020-07-29 16:45:05 -0500

[diff] [blame]

}

} break;

Mike Klein

2020-07-30 08:19:12 -0500

[diff] [blame]

218

CASE(Op::load128):

Mike Klein

2020-07-29 16:45:05 -0500

[diff] [blame]

219

r[d].i32 = 0;

220

for (int i = 0; i < stride; i++) {

221

memcpy(&r[d].i32[i], (const char*)args[immy] + 16*i+ 4*immz, 4);

222

} break;

223

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

224

CASE(Op::assert_true):

225

#ifdef SK_DEBUG

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

226

if (!all(r[x].i32)) {

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

227

SkDebugf("inst %d, register %d\n", i, y);

228

for (int i = 0; i < K; i++) {

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

229

SkDebugf("\t%2d: %08x (%g)\n", i, r[y].i32[i], r[y].f32[i]);

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

230

}

Mike Klein

51a7f95

2020-09-16 16:00:33 -0500

[diff] [blame]

231

SkASSERT(false);

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

232

}

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

#endif

break;

CASE(Op::index): {

const int iota[] = { 0, 1, 2, 3, 4, 5, 6, 7, 8, 9,10,11,12,13,14,15,

Mike Klein

394a6d5

2020-09-18 14:04:19 -0500

[diff] [blame^]

238

16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,

239

32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,

240

48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63 };

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

241

static_assert(K <= SK_ARRAY_COUNT(iota), "");

242

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

243

r[d].i32 = n - I32::Load(iota);

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

244

} break;

245

246

CASE(Op::uniform8):

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

247

r[d].i32 = *(const uint8_t* )( (const char*)args[immy] + immz );

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

248

break;

249

CASE(Op::uniform16):

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

250

r[d].i32 = *(const uint16_t*)( (const char*)args[immy] + immz );

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

251

break;

252

CASE(Op::uniform32):

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

253

r[d].i32 = *(const int* )( (const char*)args[immy] + immz );

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

254

break;

255

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

256

CASE(Op::splat): r[d].i32 = immy; break;

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

257

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

258

CASE(Op::add_f32): r[d].f32 = r[x].f32 + r[y].f32; break;

259

CASE(Op::sub_f32): r[d].f32 = r[x].f32 - r[y].f32; break;

260

CASE(Op::mul_f32): r[d].f32 = r[x].f32 * r[y].f32; break;

261

CASE(Op::div_f32): r[d].f32 = r[x].f32 / r[y].f32; break;

262

CASE(Op::min_f32): r[d].f32 = min(r[x].f32, r[y].f32); break;

263

CASE(Op::max_f32): r[d].f32 = max(r[x].f32, r[y].f32); break;

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

264

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

265

CASE(Op::fma_f32): r[d].f32 = fma( r[x].f32, r[y].f32, r[z].f32); break;

266

CASE(Op::fms_f32): r[d].f32 = fma( r[x].f32, r[y].f32, -r[z].f32); break;

267

CASE(Op::fnma_f32): r[d].f32 = fma(-r[x].f32, r[y].f32, r[z].f32); break;

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

268

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

269

CASE(Op::sqrt_f32): r[d].f32 = sqrt(r[x].f32); break;

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

270

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

271

CASE(Op::add_i32): r[d].i32 = r[x].i32 + r[y].i32; break;

272

CASE(Op::sub_i32): r[d].i32 = r[x].i32 - r[y].i32; break;

273

CASE(Op::mul_i32): r[d].i32 = r[x].i32 * r[y].i32; break;

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

274

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

275

CASE(Op::shl_i32): r[d].i32 = r[x].i32 << immy; break;

276

CASE(Op::sra_i32): r[d].i32 = r[x].i32 >> immy; break;

277

CASE(Op::shr_i32): r[d].u32 = r[x].u32 >> immy; break;

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

278

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

279

CASE(Op:: eq_f32): r[d].i32 = r[x].f32 == r[y].f32; break;

280

CASE(Op::neq_f32): r[d].i32 = r[x].f32 != r[y].f32; break;

281

CASE(Op:: gt_f32): r[d].i32 = r[x].f32 > r[y].f32; break;

282

CASE(Op::gte_f32): r[d].i32 = r[x].f32 >= r[y].f32; break;

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

283

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

284

CASE(Op:: eq_i32): r[d].i32 = r[x].i32 == r[y].i32; break;

285

CASE(Op:: gt_i32): r[d].i32 = r[x].i32 > r[y].i32; break;

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

286

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

287

CASE(Op::bit_and ): r[d].i32 = r[x].i32 & r[y].i32; break;

288

CASE(Op::bit_or ): r[d].i32 = r[x].i32 | r[y].i32; break;

289

CASE(Op::bit_xor ): r[d].i32 = r[x].i32 ^ r[y].i32; break;

290

CASE(Op::bit_clear): r[d].i32 = r[x].i32 & ~r[y].i32; break;

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

291

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

292

CASE(Op::select): r[d].i32 = skvx::if_then_else(r[x].i32, r[y].i32, r[z].i32);

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

293

break;

294

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

295

CASE(Op::pack): r[d].u32 = r[x].u32 | (r[y].u32 << immz); break;

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

296

Mike Klein

2020-07-10 15:16:17 -0500

[diff] [blame]

297

CASE(Op::ceil): r[d].f32 = skvx::ceil(r[x].f32) ; break;

298

CASE(Op::floor): r[d].f32 = skvx::floor(r[x].f32) ; break;

299

CASE(Op::to_f32): r[d].f32 = skvx::cast<float>( r[x].i32 ); break;

300

CASE(Op::trunc): r[d].i32 = skvx::cast<int> ( r[x].f32 ); break;

301

CASE(Op::round): r[d].i32 = skvx::cast<int> (skvx::lrint(r[x].f32)); break;

Mike Klein

4d680cd

2020-07-15 09:58:51 -0500

[diff] [blame]

302

303

CASE(Op::to_half):

304

r[d].i32 = skvx::cast<int>(skvx::to_half(r[x].f32));

305

break;

306

CASE(Op::from_half):

307

r[d].f32 = skvx::from_half(skvx::cast<uint16_t>(r[x].i32));

308

break;

Mike Klein

98c512c

2020-09-15 10:00:27 -0500

[diff] [blame]

309

Mike Klein

2020-09-15 12:43:38 -0500

[diff] [blame]

310

CASE(Op::add_q14x2): r[d].i16x2 = r[x].i16x2 + r[y].i16x2; break;

311

CASE(Op::sub_q14x2): r[d].i16x2 = r[x].i16x2 - r[y].i16x2; break;

Mike Klein

6d94b65

2020-09-16 11:37:03 -0500

[diff] [blame]

312

CASE(Op::mul_q14x2): r[d].i16x2 = mul_q14(r[x].i16x2, r[y].i16x2); break;

Mike Klein

2020-09-15 12:43:38 -0500

[diff] [blame]

313

314

CASE(Op::shl_q14x2): r[d].i16x2 = r[x].i16x2 << immy; break;

315

CASE(Op::sra_q14x2): r[d].i16x2 = r[x].i16x2 >> immy; break;

316

CASE(Op::shr_q14x2): r[d].u16x2 = r[x].u16x2 >> immy; break;

317

318

CASE(Op::eq_q14x2): r[d].i16x2 = r[x].i16x2 == r[y].i16x2; break;

319

CASE(Op::gt_q14x2): r[d].i16x2 = r[x].i16x2 > r[y].i16x2; break;

320

321

CASE(Op:: min_q14x2): r[d].i16x2 = min(r[x].i16x2, r[y].i16x2); break;

322

CASE(Op:: max_q14x2): r[d].i16x2 = max(r[x].i16x2, r[y].i16x2); break;

323

CASE(Op::umin_q14x2): r[d].u16x2 = min(r[x].u16x2, r[y].u16x2); break;

324

Mike Klein

7b1620f

2020-09-16 10:18:47 -0500

[diff] [blame]

325

// Happily, Clang can see through this one and generates perfect code

326

// using vpavgw without any help from us!

Mike Klein

98c512c

2020-09-15 10:00:27 -0500

[diff] [blame]

327

CASE(Op::uavg_q14x2):

Mike Klein

2020-09-15 12:43:38 -0500

[diff] [blame]

328

r[d].u16x2 = skvx::cast<uint16_t>( (skvx::cast<int>(r[x].u16x2) +

329

skvx::cast<int>(r[y].u16x2) + 1)>>1 );

330

break;

Mike Klein

2020-03-05 10:15:35 -0600

[diff] [blame]

#undef CASE

}

}

}

}

John Stiles

2020-08-06 14:11:56 -0400

[diff] [blame]

337

} // namespace SK_OPTS_NS

Mike Klein