Blame - src/opts/SkRasterPipeline_opts.h - platform/external/skia

2017-02-15 13:31:12 -0500

[diff] [blame]

1

/*

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

2

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

3

*

4

* Use of this source code is governed by a BSD-style license that can be

5

* found in the LICENSE file.

6

*/

7

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

8

#ifndef SkRasterPipeline_opts_DEFINED

9

#define SkRasterPipeline_opts_DEFINED

Mike Klein

2017-04-03 13:54:55 -0400

[diff] [blame]

10

Mike Klein

c0bd9f9

2019-04-23 12:05:21 -0500

[diff] [blame]

11

#include "include/core/SkTypes.h"

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

12

#include "src/core/SkUtils.h" // unaligned_{load,store}

Brian Osman

2019-06-19 11:40:33 -0400

[diff] [blame]

13

#include "src/sksl/SkSLByteCode.h"

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

14

15

// Every function in this file should be marked static and inline using SI.

16

#if defined(__clang__)

17

#define SI __attribute__((always_inline)) static inline

18

#else

19

#define SI static inline

20

#endif

21

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

22

template <typename Dst, typename Src>

23

SI Dst bit_cast(const Src& src) {

24

static_assert(sizeof(Dst) == sizeof(Src), "");

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

25

return sk_unaligned_load<Dst>(&src);

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

26

}

27

28

template <typename Dst, typename Src>

29

SI Dst widen_cast(const Src& src) {

30

static_assert(sizeof(Dst) > sizeof(Src), "");

31

Dst dst;

32

memcpy(&dst, &src, sizeof(Src));

return dst;

}

// Our program is an array of void*, either

37

// - 1 void* per stage with no context pointer, the next stage;

38

// - 2 void* per stage with a context pointer, first the context pointer, then the next stage.

39

40

// load_and_inc() steps the program forward by 1 void*, returning that pointer.

41

SI void* load_and_inc(void**& program) {

42

#if defined(__GNUC__) && defined(__x86_64__)

43

// If program is in %rsi (we try to make this likely) then this is a single instruction.

44

void* rax;

45

asm("lodsq" : "=a"(rax), "+S"(program)); // Write-only %rax, read-write %rsi.

46

return rax;

47

#else

48

// On ARM *program++ compiles into pretty ideal code without any handholding.

return *program++;

#endif

}

// Lazily resolved on first cast. Does nothing if cast to Ctx::None.

struct Ctx {

struct None {};

void* ptr;

void**& program;

explicit Ctx(void**& p) : ptr(nullptr), program(p) {}

61

62

template <typename T>

63

operator T*() {

64

if (!ptr) { ptr = load_and_inc(program); }

65

return (T*)ptr;

66

}

67

operator None() { return None{}; }

68

};

69

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

70

71

#if !defined(__clang__)

72

#define JUMPER_IS_SCALAR

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

73

#elif defined(SK_ARM_HAS_NEON)

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

74

#define JUMPER_IS_NEON

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

75

#elif SK_CPU_SSE_LEVEL >= SK_CPU_SSE_LEVEL_AVX512

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

76

#define JUMPER_IS_AVX512

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

77

#elif SK_CPU_SSE_LEVEL >= SK_CPU_SSE_LEVEL_AVX2

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

78

#define JUMPER_IS_HSW

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

79

#elif SK_CPU_SSE_LEVEL >= SK_CPU_SSE_LEVEL_AVX

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

80

#define JUMPER_IS_AVX

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

81

#elif SK_CPU_SSE_LEVEL >= SK_CPU_SSE_LEVEL_SSE41

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

82

#define JUMPER_IS_SSE41

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

83

#elif SK_CPU_SSE_LEVEL >= SK_CPU_SSE_LEVEL_SSE2

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

84

#define JUMPER_IS_SSE2

85

#else

86

#define JUMPER_IS_SCALAR

87

#endif

88

89

// Older Clangs seem to crash when generating non-optimized NEON code for ARMv7.

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

90

#if defined(__clang__) && !defined(__OPTIMIZE__) && defined(SK_CPU_ARM32)

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

91

// Apple Clang 9 and vanilla Clang 5 are fine, and may even be conservative.

92

#if defined(__apple_build_version__) && __clang_major__ < 9

93

#define JUMPER_IS_SCALAR

94

#elif __clang_major__ < 5

95

#define JUMPER_IS_SCALAR

96

#endif

Mike Klein

b54d223

2018-06-01 15:53:21 -0400

[diff] [blame]

97

98

#if defined(JUMPER_IS_NEON) && defined(JUMPER_IS_SCALAR)

99

#undef JUMPER_IS_NEON

100

#endif

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

101

#endif

102

103

#if defined(JUMPER_IS_SCALAR)

Mike Klein

5cc94cc

2018-03-07 17:04:18 +0000

[diff] [blame]

104

#include <math.h>

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

105

#elif defined(JUMPER_IS_NEON)

106

#include <arm_neon.h>

107

#else

108

#include <immintrin.h>

109

#endif

Mike Klein

5cc94cc

2018-03-07 17:04:18 +0000

[diff] [blame]

110

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

111

namespace SK_OPTS_NS {

112

113

#if defined(JUMPER_IS_SCALAR)

114

// This path should lead to portable scalar code.

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

115

using F = float ;

116

using I32 = int32_t;

117

using U64 = uint64_t;

118

using U32 = uint32_t;

119

using U16 = uint16_t;

120

using U8 = uint8_t ;

121

122

SI F mad(F f, F m, F a) { return f*m+a; }

123

SI F min(F a, F b) { return fminf(a,b); }

124

SI F max(F a, F b) { return fmaxf(a,b); }

125

SI F abs_ (F v) { return fabsf(v); }

126

SI F floor_(F v) { return floorf(v); }

127

SI F rcp (F v) { return 1.0f / v; }

128

SI F rsqrt (F v) { return 1.0f / sqrtf(v); }

129

SI F sqrt_(F v) { return sqrtf(v); }

130

SI U32 round (F v, F scale) { return (uint32_t)(v*scale + 0.5f); }

131

SI U16 pack(U32 v) { return (U16)v; }

132

SI U8 pack(U16 v) { return (U8)v; }

133

134

SI F if_then_else(I32 c, F t, F e) { return c ? t : e; }

135

136

template <typename T>

137

SI T gather(const T* p, U32 ix) { return p[ix]; }

138

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

139

SI void load2(const uint16_t* ptr, size_t tail, U16* r, U16* g) {

*r = ptr[0];

*g = ptr[1];

}

SI void store2(uint16_t* ptr, size_t tail, U16 r, U16 g) {

144

ptr[0] = r;

145

ptr[1] = g;

146

}

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

147

SI void load3(const uint16_t* ptr, size_t tail, U16* r, U16* g, U16* b) {

*r = ptr[0];

*g = ptr[1];

*b = ptr[2];

}

SI void load4(const uint16_t* ptr, size_t tail, U16* r, U16* g, U16* b, U16* a) {

*r = ptr[0];

*g = ptr[1];

*b = ptr[2];

*a = ptr[3];

}

SI void store4(uint16_t* ptr, size_t tail, U16 r, U16 g, U16 b, U16 a) {

ptr[0] = r;

ptr[1] = g;

ptr[2] = b;

ptr[3] = a;

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

165

SI void load2(const float* ptr, size_t tail, F* r, F* g) {

*r = ptr[0];

*g = ptr[1];

}

SI void store2(float* ptr, size_t tail, F r, F g) {

170

ptr[0] = r;

171

ptr[1] = g;

172

}

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

173

SI void load4(const float* ptr, size_t tail, F* r, F* g, F* b, F* a) {

*r = ptr[0];

*g = ptr[1];

*b = ptr[2];

*a = ptr[3];

}

SI void store4(float* ptr, size_t tail, F r, F g, F b, F a) {

ptr[0] = r;

ptr[1] = g;

ptr[2] = b;

ptr[3] = a;

}

#elif defined(JUMPER_IS_NEON)

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

187

// Since we know we're using Clang, we can use its vector extensions.

188

template <typename T> using V = T __attribute__((ext_vector_type(4)));

189

using F = V<float >;

190

using I32 = V< int32_t>;

191

using U64 = V<uint64_t>;

192

using U32 = V<uint32_t>;

193

using U16 = V<uint16_t>;

194

using U8 = V<uint8_t >;

195

196

// We polyfill a few routines that Clang doesn't build into ext_vector_types.

197

SI F min(F a, F b) { return vminq_f32(a,b); }

198

SI F max(F a, F b) { return vmaxq_f32(a,b); }

199

SI F abs_ (F v) { return vabsq_f32(v); }

200

SI F rcp (F v) { auto e = vrecpeq_f32 (v); return vrecpsq_f32 (v,e ) * e; }

201

SI F rsqrt (F v) { auto e = vrsqrteq_f32(v); return vrsqrtsq_f32(v,e*e) * e; }

202

SI U16 pack(U32 v) { return __builtin_convertvector(v, U16); }

203

SI U8 pack(U16 v) { return __builtin_convertvector(v, U8); }

204

205

SI F if_then_else(I32 c, F t, F e) { return vbslq_f32((U32)c,t,e); }

206

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

207

#if defined(SK_CPU_ARM64)

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

208

SI F mad(F f, F m, F a) { return vfmaq_f32(a,f,m); }

209

SI F floor_(F v) { return vrndmq_f32(v); }

210

SI F sqrt_(F v) { return vsqrtq_f32(v); }

211

SI U32 round(F v, F scale) { return vcvtnq_u32_f32(v*scale); }

212

#else

213

SI F mad(F f, F m, F a) { return vmlaq_f32(a,f,m); }

214

SI F floor_(F v) {

215

F roundtrip = vcvtq_f32_s32(vcvtq_s32_f32(v));

216

return roundtrip - if_then_else(roundtrip > v, 1, 0);

}

SI F sqrt_(F v) {

auto e = vrsqrteq_f32(v); // Estimate and two refinement steps for e = rsqrt(v).

221

e *= vrsqrtsq_f32(v,e*e);

222

e *= vrsqrtsq_f32(v,e*e);

223

return v*e; // sqrt(v) == v*rsqrt(v).

224

}

225

226

SI U32 round(F v, F scale) {

227

return vcvtq_u32_f32(mad(v,scale,0.5f));

}

#endif

template <typename T>

233

SI V<T> gather(const T* p, U32 ix) {

234

return {p[ix[0]], p[ix[1]], p[ix[2]], p[ix[3]]};

235

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

236

SI void load2(const uint16_t* ptr, size_t tail, U16* r, U16* g) {

237

uint16x4x2_t rg;

238

if (__builtin_expect(tail,0)) {

239

if ( true ) { rg = vld2_lane_u16(ptr + 0, rg, 0); }

240

if (tail > 1) { rg = vld2_lane_u16(ptr + 2, rg, 1); }

241

if (tail > 2) { rg = vld2_lane_u16(ptr + 4, rg, 2); }

} else {

rg = vld2_u16(ptr);

}

*r = rg.val[0];

*g = rg.val[1];

}

SI void store2(uint16_t* ptr, size_t tail, U16 r, U16 g) {

249

if (__builtin_expect(tail,0)) {

250

if ( true ) { vst2_lane_u16(ptr + 0, (uint16x4x2_t{{r,g}}), 0); }

251

if (tail > 1) { vst2_lane_u16(ptr + 2, (uint16x4x2_t{{r,g}}), 1); }

252

if (tail > 2) { vst2_lane_u16(ptr + 4, (uint16x4x2_t{{r,g}}), 2); }

253

} else {

254

vst2_u16(ptr, (uint16x4x2_t{{r,g}}));

255

}

256

}

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

257

SI void load3(const uint16_t* ptr, size_t tail, U16* r, U16* g, U16* b) {

258

uint16x4x3_t rgb;

259

if (__builtin_expect(tail,0)) {

260

if ( true ) { rgb = vld3_lane_u16(ptr + 0, rgb, 0); }

261

if (tail > 1) { rgb = vld3_lane_u16(ptr + 3, rgb, 1); }

262

if (tail > 2) { rgb = vld3_lane_u16(ptr + 6, rgb, 2); }

} else {

rgb = vld3_u16(ptr);

}

*r = rgb.val[0];

*g = rgb.val[1];

*b = rgb.val[2];

}

SI void load4(const uint16_t* ptr, size_t tail, U16* r, U16* g, U16* b, U16* a) {

271

uint16x4x4_t rgba;

272

if (__builtin_expect(tail,0)) {

273

if ( true ) { rgba = vld4_lane_u16(ptr + 0, rgba, 0); }

274

if (tail > 1) { rgba = vld4_lane_u16(ptr + 4, rgba, 1); }

275

if (tail > 2) { rgba = vld4_lane_u16(ptr + 8, rgba, 2); }

276

} else {

277

rgba = vld4_u16(ptr);

}

*r = rgba.val[0];

*g = rgba.val[1];

*b = rgba.val[2];

*a = rgba.val[3];

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

284

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

285

SI void store4(uint16_t* ptr, size_t tail, U16 r, U16 g, U16 b, U16 a) {

286

if (__builtin_expect(tail,0)) {

287

if ( true ) { vst4_lane_u16(ptr + 0, (uint16x4x4_t{{r,g,b,a}}), 0); }

288

if (tail > 1) { vst4_lane_u16(ptr + 4, (uint16x4x4_t{{r,g,b,a}}), 1); }

289

if (tail > 2) { vst4_lane_u16(ptr + 8, (uint16x4x4_t{{r,g,b,a}}), 2); }

290

} else {

291

vst4_u16(ptr, (uint16x4x4_t{{r,g,b,a}}));

292

}

293

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

294

SI void load2(const float* ptr, size_t tail, F* r, F* g) {

295

float32x4x2_t rg;

296

if (__builtin_expect(tail,0)) {

297

if ( true ) { rg = vld2q_lane_f32(ptr + 0, rg, 0); }

298

if (tail > 1) { rg = vld2q_lane_f32(ptr + 2, rg, 1); }

299

if (tail > 2) { rg = vld2q_lane_f32(ptr + 4, rg, 2); }

} else {

rg = vld2q_f32(ptr);

}

*r = rg.val[0];

*g = rg.val[1];

}

SI void store2(float* ptr, size_t tail, F r, F g) {

307

if (__builtin_expect(tail,0)) {

308

if ( true ) { vst2q_lane_f32(ptr + 0, (float32x4x2_t{{r,g}}), 0); }

309

if (tail > 1) { vst2q_lane_f32(ptr + 2, (float32x4x2_t{{r,g}}), 1); }

310

if (tail > 2) { vst2q_lane_f32(ptr + 4, (float32x4x2_t{{r,g}}), 2); }

311

} else {

312

vst2q_f32(ptr, (float32x4x2_t{{r,g}}));

313

}

314

}

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

315

SI void load4(const float* ptr, size_t tail, F* r, F* g, F* b, F* a) {

316

float32x4x4_t rgba;

317

if (__builtin_expect(tail,0)) {

318

if ( true ) { rgba = vld4q_lane_f32(ptr + 0, rgba, 0); }

319

if (tail > 1) { rgba = vld4q_lane_f32(ptr + 4, rgba, 1); }

320

if (tail > 2) { rgba = vld4q_lane_f32(ptr + 8, rgba, 2); }

321

} else {

322

rgba = vld4q_f32(ptr);

}

*r = rgba.val[0];

*g = rgba.val[1];

*b = rgba.val[2];

*a = rgba.val[3];

}

SI void store4(float* ptr, size_t tail, F r, F g, F b, F a) {

330

if (__builtin_expect(tail,0)) {

331

if ( true ) { vst4q_lane_f32(ptr + 0, (float32x4x4_t{{r,g,b,a}}), 0); }

332

if (tail > 1) { vst4q_lane_f32(ptr + 4, (float32x4x4_t{{r,g,b,a}}), 1); }

333

if (tail > 2) { vst4q_lane_f32(ptr + 8, (float32x4x4_t{{r,g,b,a}}), 2); }

334

} else {

335

vst4q_f32(ptr, (float32x4x4_t{{r,g,b,a}}));

}

}

#elif defined(JUMPER_IS_AVX) || defined(JUMPER_IS_HSW) || defined(JUMPER_IS_AVX512)

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

340

// These are __m256 and __m256i, but friendlier and strongly-typed.

341

template <typename T> using V = T __attribute__((ext_vector_type(8)));

342

using F = V<float >;

343

using I32 = V< int32_t>;

344

using U64 = V<uint64_t>;

345

using U32 = V<uint32_t>;

346

using U16 = V<uint16_t>;

347

using U8 = V<uint8_t >;

348

349

SI F mad(F f, F m, F a) {

350

#if defined(JUMPER_IS_HSW) || defined(JUMPER_IS_AVX512)

351

return _mm256_fmadd_ps(f,m,a);

#else

return f*m+a;

#endif

}

SI F min(F a, F b) { return _mm256_min_ps(a,b); }

358

SI F max(F a, F b) { return _mm256_max_ps(a,b); }

359

SI F abs_ (F v) { return _mm256_and_ps(v, 0-v); }

360

SI F floor_(F v) { return _mm256_floor_ps(v); }

361

SI F rcp (F v) { return _mm256_rcp_ps (v); }

362

SI F rsqrt (F v) { return _mm256_rsqrt_ps(v); }

363

SI F sqrt_(F v) { return _mm256_sqrt_ps (v); }

364

SI U32 round (F v, F scale) { return _mm256_cvtps_epi32(v*scale); }

365

366

SI U16 pack(U32 v) {

367

return _mm_packus_epi32(_mm256_extractf128_si256(v, 0),

368

_mm256_extractf128_si256(v, 1));

369

}

370

SI U8 pack(U16 v) {

371

auto r = _mm_packus_epi16(v,v);

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

372

return sk_unaligned_load<U8>(&r);

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

373

}

374

375

SI F if_then_else(I32 c, F t, F e) { return _mm256_blendv_ps(e,t,c); }

376

377

template <typename T>

378

SI V<T> gather(const T* p, U32 ix) {

379

return { p[ix[0]], p[ix[1]], p[ix[2]], p[ix[3]],

380

p[ix[4]], p[ix[5]], p[ix[6]], p[ix[7]], };

381

}

382

#if defined(JUMPER_IS_HSW) || defined(JUMPER_IS_AVX512)

383

SI F gather(const float* p, U32 ix) { return _mm256_i32gather_ps (p, ix, 4); }

384

SI U32 gather(const uint32_t* p, U32 ix) { return _mm256_i32gather_epi32(p, ix, 4); }

385

SI U64 gather(const uint64_t* p, U32 ix) {

386

__m256i parts[] = {

387

_mm256_i32gather_epi64(p, _mm256_extracti128_si256(ix,0), 8),

388

_mm256_i32gather_epi64(p, _mm256_extracti128_si256(ix,1), 8),

389

};

390

return bit_cast<U64>(parts);

}

#endif

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

394

SI void load2(const uint16_t* ptr, size_t tail, U16* r, U16* g) {

395

U16 _0123, _4567;

396

if (__builtin_expect(tail,0)) {

397

_0123 = _4567 = _mm_setzero_si128();

398

auto* d = &_0123;

399

if (tail > 3) {

400

*d = _mm_loadu_si128(((__m128i*)ptr) + 0);

tail -= 4;

ptr += 8;

d = &_4567;

}

bool high = false;

if (tail > 1) {

*d = _mm_loadu_si64(ptr);

tail -= 2;

ptr += 4;

high = true;

}

if (tail > 0) {

(*d)[high ? 4 : 0] = *(ptr + 0);

414

(*d)[high ? 5 : 1] = *(ptr + 1);

415

}

416

} else {

417

_0123 = _mm_loadu_si128(((__m128i*)ptr) + 0);

418

_4567 = _mm_loadu_si128(((__m128i*)ptr) + 1);

419

}

420

*r = _mm_packs_epi32(_mm_srai_epi32(_mm_slli_epi32(_0123, 16), 16),

421

_mm_srai_epi32(_mm_slli_epi32(_4567, 16), 16));

422

*g = _mm_packs_epi32(_mm_srai_epi32(_0123, 16),

423

_mm_srai_epi32(_4567, 16));

424

}

425

SI void store2(uint16_t* ptr, size_t tail, U16 r, U16 g) {

426

auto _0123 = _mm_unpacklo_epi16(r, g),

427

_4567 = _mm_unpackhi_epi16(r, g);

428

if (__builtin_expect(tail,0)) {

429

const auto* s = &_0123;

430

if (tail > 3) {

431

_mm_storeu_si128((__m128i*)ptr, *s);

s = &_4567;

tail -= 4;

ptr += 8;

}

bool high = false;

if (tail > 1) {

_mm_storel_epi64((__m128i*)ptr, *s);

ptr += 4;

tail -= 2;

high = true;

}

if (tail > 0) {

if (high) {

*(int32_t*)ptr = _mm_extract_epi32(*s, 2);

446

} else {

447

*(int32_t*)ptr = _mm_cvtsi128_si32(*s);

}

}

} else {

_mm_storeu_si128((__m128i*)ptr + 0, _0123);

452

_mm_storeu_si128((__m128i*)ptr + 1, _4567);

}

}

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

456

SI void load3(const uint16_t* ptr, size_t tail, U16* r, U16* g, U16* b) {

457

__m128i _0,_1,_2,_3,_4,_5,_6,_7;

458

if (__builtin_expect(tail,0)) {

459

auto load_rgb = [](const uint16_t* src) {

460

auto v = _mm_cvtsi32_si128(*(const uint32_t*)src);

461

return _mm_insert_epi16(v, src[2], 2);

462

};

463

_1 = _2 = _3 = _4 = _5 = _6 = _7 = _mm_setzero_si128();

464

if ( true ) { _0 = load_rgb(ptr + 0); }

465

if (tail > 1) { _1 = load_rgb(ptr + 3); }

466

if (tail > 2) { _2 = load_rgb(ptr + 6); }

467

if (tail > 3) { _3 = load_rgb(ptr + 9); }

468

if (tail > 4) { _4 = load_rgb(ptr + 12); }

469

if (tail > 5) { _5 = load_rgb(ptr + 15); }

470

if (tail > 6) { _6 = load_rgb(ptr + 18); }

471

} else {

472

// Load 0+1, 2+3, 4+5 normally, and 6+7 backed up 4 bytes so we don't run over.

473

auto _01 = _mm_loadu_si128((const __m128i*)(ptr + 0)) ;

474

auto _23 = _mm_loadu_si128((const __m128i*)(ptr + 6)) ;

475

auto _45 = _mm_loadu_si128((const __m128i*)(ptr + 12)) ;

476

auto _67 = _mm_srli_si128(_mm_loadu_si128((const __m128i*)(ptr + 16)), 4);

477

_0 = _01; _1 = _mm_srli_si128(_01, 6);

478

_2 = _23; _3 = _mm_srli_si128(_23, 6);

479

_4 = _45; _5 = _mm_srli_si128(_45, 6);

480

_6 = _67; _7 = _mm_srli_si128(_67, 6);

481

}

482

483

auto _02 = _mm_unpacklo_epi16(_0, _2), // r0 r2 g0 g2 b0 b2 xx xx

484

_13 = _mm_unpacklo_epi16(_1, _3),

485

_46 = _mm_unpacklo_epi16(_4, _6),

486

_57 = _mm_unpacklo_epi16(_5, _7);

487

488

auto rg0123 = _mm_unpacklo_epi16(_02, _13), // r0 r1 r2 r3 g0 g1 g2 g3

489

bx0123 = _mm_unpackhi_epi16(_02, _13), // b0 b1 b2 b3 xx xx xx xx

490

rg4567 = _mm_unpacklo_epi16(_46, _57),

491

bx4567 = _mm_unpackhi_epi16(_46, _57);

492

493

*r = _mm_unpacklo_epi64(rg0123, rg4567);

494

*g = _mm_unpackhi_epi64(rg0123, rg4567);

495

*b = _mm_unpacklo_epi64(bx0123, bx4567);

496

}

497

SI void load4(const uint16_t* ptr, size_t tail, U16* r, U16* g, U16* b, U16* a) {

498

__m128i _01, _23, _45, _67;

499

if (__builtin_expect(tail,0)) {

500

auto src = (const double*)ptr;

501

_01 = _23 = _45 = _67 = _mm_setzero_si128();

502

if (tail > 0) { _01 = _mm_loadl_pd(_01, src+0); }

503

if (tail > 1) { _01 = _mm_loadh_pd(_01, src+1); }

504

if (tail > 2) { _23 = _mm_loadl_pd(_23, src+2); }

505

if (tail > 3) { _23 = _mm_loadh_pd(_23, src+3); }

506

if (tail > 4) { _45 = _mm_loadl_pd(_45, src+4); }

507

if (tail > 5) { _45 = _mm_loadh_pd(_45, src+5); }

508

if (tail > 6) { _67 = _mm_loadl_pd(_67, src+6); }

509

} else {

510

_01 = _mm_loadu_si128(((__m128i*)ptr) + 0);

511

_23 = _mm_loadu_si128(((__m128i*)ptr) + 1);

512

_45 = _mm_loadu_si128(((__m128i*)ptr) + 2);

513

_67 = _mm_loadu_si128(((__m128i*)ptr) + 3);

514

}

515

516

auto _02 = _mm_unpacklo_epi16(_01, _23), // r0 r2 g0 g2 b0 b2 a0 a2

517

_13 = _mm_unpackhi_epi16(_01, _23), // r1 r3 g1 g3 b1 b3 a1 a3

518

_46 = _mm_unpacklo_epi16(_45, _67),

519

_57 = _mm_unpackhi_epi16(_45, _67);

520

521

auto rg0123 = _mm_unpacklo_epi16(_02, _13), // r0 r1 r2 r3 g0 g1 g2 g3

522

ba0123 = _mm_unpackhi_epi16(_02, _13), // b0 b1 b2 b3 a0 a1 a2 a3

523

rg4567 = _mm_unpacklo_epi16(_46, _57),

524

ba4567 = _mm_unpackhi_epi16(_46, _57);

525

526

*r = _mm_unpacklo_epi64(rg0123, rg4567);

527

*g = _mm_unpackhi_epi64(rg0123, rg4567);

528

*b = _mm_unpacklo_epi64(ba0123, ba4567);

529

*a = _mm_unpackhi_epi64(ba0123, ba4567);

530

}

531

SI void store4(uint16_t* ptr, size_t tail, U16 r, U16 g, U16 b, U16 a) {

532

auto rg0123 = _mm_unpacklo_epi16(r, g), // r0 g0 r1 g1 r2 g2 r3 g3

533

rg4567 = _mm_unpackhi_epi16(r, g), // r4 g4 r5 g5 r6 g6 r7 g7

534

ba0123 = _mm_unpacklo_epi16(b, a),

535

ba4567 = _mm_unpackhi_epi16(b, a);

536

537

auto _01 = _mm_unpacklo_epi32(rg0123, ba0123),

538

_23 = _mm_unpackhi_epi32(rg0123, ba0123),

539

_45 = _mm_unpacklo_epi32(rg4567, ba4567),

540

_67 = _mm_unpackhi_epi32(rg4567, ba4567);

541

542

if (__builtin_expect(tail,0)) {

543

auto dst = (double*)ptr;

544

if (tail > 0) { _mm_storel_pd(dst+0, _01); }

545

if (tail > 1) { _mm_storeh_pd(dst+1, _01); }

546

if (tail > 2) { _mm_storel_pd(dst+2, _23); }

547

if (tail > 3) { _mm_storeh_pd(dst+3, _23); }

548

if (tail > 4) { _mm_storel_pd(dst+4, _45); }

549

if (tail > 5) { _mm_storeh_pd(dst+5, _45); }

550

if (tail > 6) { _mm_storel_pd(dst+6, _67); }

551

} else {

552

_mm_storeu_si128((__m128i*)ptr + 0, _01);

553

_mm_storeu_si128((__m128i*)ptr + 1, _23);

554

_mm_storeu_si128((__m128i*)ptr + 2, _45);

555

_mm_storeu_si128((__m128i*)ptr + 3, _67);

}

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

559

SI void load2(const float* ptr, size_t tail, F* r, F* g) {

560

F _0123, _4567;

561

if (__builtin_expect(tail, 0)) {

562

_0123 = _4567 = _mm256_setzero_ps();

563

F* d = &_0123;

564

if (tail > 3) {

565

*d = _mm256_loadu_ps(ptr);

ptr += 8;

tail -= 4;

d = &_4567;

}

bool high = false;

if (tail > 1) {

*d = _mm256_castps128_ps256(_mm_loadu_ps(ptr));

ptr += 4;

tail -= 2;

high = true;

}

if (tail > 0) {

*d = high ? _mm256_insertf128_ps(*d, _mm_loadu_si64(ptr), 1)

579

: _mm256_insertf128_ps(*d, _mm_loadu_si64(ptr), 0);

580

}

581

} else {

582

_0123 = _mm256_loadu_ps(ptr + 0);

583

_4567 = _mm256_loadu_ps(ptr + 8);

584

}

585

586

F _0145 = _mm256_permute2f128_pd(_0123, _4567, 0x20),

587

_2367 = _mm256_permute2f128_pd(_0123, _4567, 0x31);

588

589

*r = _mm256_shuffle_ps(_0145, _2367, 0x88);

590

*g = _mm256_shuffle_ps(_0145, _2367, 0xDD);

591

}

592

SI void store2(float* ptr, size_t tail, F r, F g) {

593

F _0145 = _mm256_unpacklo_ps(r, g),

594

_2367 = _mm256_unpackhi_ps(r, g);

595

F _0123 = _mm256_permute2f128_pd(_0145, _2367, 0x20),

596

_4567 = _mm256_permute2f128_pd(_0145, _2367, 0x31);

597

598

if (__builtin_expect(tail, 0)) {

599

const __m256* s = &_0123;

600

if (tail > 3) {

601

_mm256_storeu_ps(ptr, *s);

s = &_4567;

tail -= 4;

ptr += 8;

}

bool high = false;

if (tail > 1) {

_mm_storeu_ps(ptr, _mm256_extractf128_ps(*s, 0));

ptr += 4;

tail -= 2;

high = true;

}

if (tail > 0) {

*(ptr + 0) = (*s)[ high ? 4 : 0];

615

*(ptr + 1) = (*s)[ high ? 5 : 1];

616

}

617

} else {

618

_mm256_storeu_ps(ptr + 0, _0123);

619

_mm256_storeu_ps(ptr + 8, _4567);

}

}

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

623

SI void load4(const float* ptr, size_t tail, F* r, F* g, F* b, F* a) {

624

F _04, _15, _26, _37;

625

_04 = _15 = _26 = _37 = 0;

626

switch (tail) {

627

case 0: _37 = _mm256_insertf128_ps(_37, _mm_loadu_ps(ptr+28), 1);

628

case 7: _26 = _mm256_insertf128_ps(_26, _mm_loadu_ps(ptr+24), 1);

629

case 6: _15 = _mm256_insertf128_ps(_15, _mm_loadu_ps(ptr+20), 1);

630

case 5: _04 = _mm256_insertf128_ps(_04, _mm_loadu_ps(ptr+16), 1);

631

case 4: _37 = _mm256_insertf128_ps(_37, _mm_loadu_ps(ptr+12), 0);

632

case 3: _26 = _mm256_insertf128_ps(_26, _mm_loadu_ps(ptr+ 8), 0);

633

case 2: _15 = _mm256_insertf128_ps(_15, _mm_loadu_ps(ptr+ 4), 0);

634

case 1: _04 = _mm256_insertf128_ps(_04, _mm_loadu_ps(ptr+ 0), 0);

635

}

636

637

F rg0145 = _mm256_unpacklo_ps(_04,_15), // r0 r1 g0 g1 | r4 r5 g4 g5

638

ba0145 = _mm256_unpackhi_ps(_04,_15),

639

rg2367 = _mm256_unpacklo_ps(_26,_37),

640

ba2367 = _mm256_unpackhi_ps(_26,_37);

641

642

*r = _mm256_unpacklo_pd(rg0145, rg2367);

643

*g = _mm256_unpackhi_pd(rg0145, rg2367);

644

*b = _mm256_unpacklo_pd(ba0145, ba2367);

645

*a = _mm256_unpackhi_pd(ba0145, ba2367);

646

}

647

SI void store4(float* ptr, size_t tail, F r, F g, F b, F a) {

648

F rg0145 = _mm256_unpacklo_ps(r, g), // r0 g0 r1 g1 | r4 g4 r5 g5

649

rg2367 = _mm256_unpackhi_ps(r, g), // r2 ... | r6 ...

650

ba0145 = _mm256_unpacklo_ps(b, a), // b0 a0 b1 a1 | b4 a4 b5 a5

651

ba2367 = _mm256_unpackhi_ps(b, a); // b2 ... | b6 ...

652

653

F _04 = _mm256_unpacklo_pd(rg0145, ba0145), // r0 g0 b0 a0 | r4 g4 b4 a4

654

_15 = _mm256_unpackhi_pd(rg0145, ba0145), // r1 ... | r5 ...

655

_26 = _mm256_unpacklo_pd(rg2367, ba2367), // r2 ... | r6 ...

656

_37 = _mm256_unpackhi_pd(rg2367, ba2367); // r3 ... | r7 ...

657

658

if (__builtin_expect(tail, 0)) {

659

if (tail > 0) { _mm_storeu_ps(ptr+ 0, _mm256_extractf128_ps(_04, 0)); }

660

if (tail > 1) { _mm_storeu_ps(ptr+ 4, _mm256_extractf128_ps(_15, 0)); }

661

if (tail > 2) { _mm_storeu_ps(ptr+ 8, _mm256_extractf128_ps(_26, 0)); }

662

if (tail > 3) { _mm_storeu_ps(ptr+12, _mm256_extractf128_ps(_37, 0)); }

663

if (tail > 4) { _mm_storeu_ps(ptr+16, _mm256_extractf128_ps(_04, 1)); }

664

if (tail > 5) { _mm_storeu_ps(ptr+20, _mm256_extractf128_ps(_15, 1)); }

665

if (tail > 6) { _mm_storeu_ps(ptr+24, _mm256_extractf128_ps(_26, 1)); }

666

} else {

667

F _01 = _mm256_permute2f128_ps(_04, _15, 32), // 32 == 0010 0000 == lo, lo

668

_23 = _mm256_permute2f128_ps(_26, _37, 32),

669

_45 = _mm256_permute2f128_ps(_04, _15, 49), // 49 == 0011 0001 == hi, hi

670

_67 = _mm256_permute2f128_ps(_26, _37, 49);

671

_mm256_storeu_ps(ptr+ 0, _01);

672

_mm256_storeu_ps(ptr+ 8, _23);

673

_mm256_storeu_ps(ptr+16, _45);

674

_mm256_storeu_ps(ptr+24, _67);

}

}

#elif defined(JUMPER_IS_SSE2) || defined(JUMPER_IS_SSE41)

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

679

template <typename T> using V = T __attribute__((ext_vector_type(4)));

680

using F = V<float >;

681

using I32 = V< int32_t>;

682

using U64 = V<uint64_t>;

683

using U32 = V<uint32_t>;

684

using U16 = V<uint16_t>;

685

using U8 = V<uint8_t >;

686

687

SI F mad(F f, F m, F a) { return f*m+a; }

688

SI F min(F a, F b) { return _mm_min_ps(a,b); }

689

SI F max(F a, F b) { return _mm_max_ps(a,b); }

690

SI F abs_(F v) { return _mm_and_ps(v, 0-v); }

691

SI F rcp (F v) { return _mm_rcp_ps (v); }

692

SI F rsqrt (F v) { return _mm_rsqrt_ps(v); }

693

SI F sqrt_(F v) { return _mm_sqrt_ps (v); }

694

SI U32 round(F v, F scale) { return _mm_cvtps_epi32(v*scale); }

695

696

SI U16 pack(U32 v) {

697

#if defined(JUMPER_IS_SSE41)

698

auto p = _mm_packus_epi32(v,v);

699

#else

700

// Sign extend so that _mm_packs_epi32() does the pack we want.

701

auto p = _mm_srai_epi32(_mm_slli_epi32(v, 16), 16);

702

p = _mm_packs_epi32(p,p);

703

#endif

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

704

return sk_unaligned_load<U16>(&p); // We have two copies. Return (the lower) one.

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

705

}

706

SI U8 pack(U16 v) {

707

auto r = widen_cast<__m128i>(v);

708

r = _mm_packus_epi16(r,r);

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

709

return sk_unaligned_load<U8>(&r);

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

710

}

711

712

SI F if_then_else(I32 c, F t, F e) {

713

return _mm_or_ps(_mm_and_ps(c, t), _mm_andnot_ps(c, e));

}

SI F floor_(F v) {

#if defined(JUMPER_IS_SSE41)

718

return _mm_floor_ps(v);

719

#else

720

F roundtrip = _mm_cvtepi32_ps(_mm_cvttps_epi32(v));

721

return roundtrip - if_then_else(roundtrip > v, 1, 0);

#endif

}

template <typename T>

726

SI V<T> gather(const T* p, U32 ix) {

727

return {p[ix[0]], p[ix[1]], p[ix[2]], p[ix[3]]};

728

}

729

Mike Klein

0f55db5

2019-09-30 10:01:08 -0500

[diff] [blame]

730

// TODO: these loads and stores are incredibly difficult to follow.

731

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

732

SI void load2(const uint16_t* ptr, size_t tail, U16* r, U16* g) {

733

__m128i _01;

734

if (__builtin_expect(tail,0)) {

735

_01 = _mm_setzero_si128();

736

if (tail > 1) {

737

_01 = _mm_loadl_pd(_01, (const double*)ptr); // r0 g0 r1 g1 00 00 00 00

738

if (tail > 2) {

Robert Phillips

f73ef0b

2019-09-24 13:00:42 -0400

[diff] [blame]

739

_01 = _mm_insert_epi16(_01, *(ptr+4), 4); // r0 g0 r1 g1 r2 00 00 00

740

_01 = _mm_insert_epi16(_01, *(ptr+5), 5); // r0 g0 r1 g1 r2 g2 00 00

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

741

}

742

} else {

Mike Klein

0f55db5

2019-09-30 10:01:08 -0500

[diff] [blame]

743

_01 = _mm_cvtsi32_si128(*(const uint32_t*)ptr); // r0 g0 00 00 00 00 00 00

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

744

}

745

} else {

746

_01 = _mm_loadu_si128(((__m128i*)ptr) + 0); // r0 g0 r1 g1 r2 g2 r3 g3

747

}

748

auto rg01_23 = _mm_shufflelo_epi16(_01, 0xD8); // r0 r1 g0 g1 r2 g2 r3 g3

749

auto rg = _mm_shufflehi_epi16(rg01_23, 0xD8); // r0 r1 g0 g1 r2 r3 g2 g3

750

751

auto R = _mm_shuffle_epi32(rg, 0x88); // r0 r1 r2 r3 r0 r1 r2 r3

752

auto G = _mm_shuffle_epi32(rg, 0xDD); // g0 g1 g2 g3 g0 g1 g2 g3

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

753

*r = sk_unaligned_load<U16>(&R);

754

*g = sk_unaligned_load<U16>(&G);

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

755

}

756

SI void store2(uint16_t* ptr, size_t tail, U16 r, U16 g) {

757

U32 rg = _mm_unpacklo_epi16(widen_cast<__m128i>(r), widen_cast<__m128i>(g));

758

if (__builtin_expect(tail, 0)) {

759

if (tail > 1) {

760

_mm_storel_epi64((__m128i*)ptr, rg);

761

if (tail > 2) {

762

int32_t rgpair = rg[2];

763

memcpy(ptr + 4, &rgpair, sizeof(rgpair));

764

}

765

} else {

766

int32_t rgpair = rg[0];

767

memcpy(ptr, &rgpair, sizeof(rgpair));

768

}

769

} else {

770

_mm_storeu_si128((__m128i*)ptr + 0, rg);

}

}

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

774

SI void load3(const uint16_t* ptr, size_t tail, U16* r, U16* g, U16* b) {

775

__m128i _0, _1, _2, _3;

776

if (__builtin_expect(tail,0)) {

777

_1 = _2 = _3 = _mm_setzero_si128();

778

auto load_rgb = [](const uint16_t* src) {

779

auto v = _mm_cvtsi32_si128(*(const uint32_t*)src);

780

return _mm_insert_epi16(v, src[2], 2);

781

};

782

if ( true ) { _0 = load_rgb(ptr + 0); }

783

if (tail > 1) { _1 = load_rgb(ptr + 3); }

784

if (tail > 2) { _2 = load_rgb(ptr + 6); }

785

} else {

786

// Load slightly weirdly to make sure we don't load past the end of 4x48 bits.

787

auto _01 = _mm_loadu_si128((const __m128i*)(ptr + 0)) ,

788

_23 = _mm_srli_si128(_mm_loadu_si128((const __m128i*)(ptr + 4)), 4);

789

790

// Each _N holds R,G,B for pixel N in its lower 3 lanes (upper 5 are ignored).

791

_0 = _01;

792

_1 = _mm_srli_si128(_01, 6);

793

_2 = _23;

794

_3 = _mm_srli_si128(_23, 6);

795

}

796

797

// De-interlace to R,G,B.

798

auto _02 = _mm_unpacklo_epi16(_0, _2), // r0 r2 g0 g2 b0 b2 xx xx

799

_13 = _mm_unpacklo_epi16(_1, _3); // r1 r3 g1 g3 b1 b3 xx xx

800

801

auto R = _mm_unpacklo_epi16(_02, _13), // r0 r1 r2 r3 g0 g1 g2 g3

802

G = _mm_srli_si128(R, 8),

803

B = _mm_unpackhi_epi16(_02, _13); // b0 b1 b2 b3 xx xx xx xx

804

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

805

*r = sk_unaligned_load<U16>(&R);

806

*g = sk_unaligned_load<U16>(&G);

807

*b = sk_unaligned_load<U16>(&B);

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

808

}

809

810

SI void load4(const uint16_t* ptr, size_t tail, U16* r, U16* g, U16* b, U16* a) {

811

__m128i _01, _23;

812

if (__builtin_expect(tail,0)) {

813

_01 = _23 = _mm_setzero_si128();

814

auto src = (const double*)ptr;

815

if ( true ) { _01 = _mm_loadl_pd(_01, src + 0); } // r0 g0 b0 a0 00 00 00 00

816

if (tail > 1) { _01 = _mm_loadh_pd(_01, src + 1); } // r0 g0 b0 a0 r1 g1 b1 a1

817

if (tail > 2) { _23 = _mm_loadl_pd(_23, src + 2); } // r2 g2 b2 a2 00 00 00 00

818

} else {

819

_01 = _mm_loadu_si128(((__m128i*)ptr) + 0); // r0 g0 b0 a0 r1 g1 b1 a1

820

_23 = _mm_loadu_si128(((__m128i*)ptr) + 1); // r2 g2 b2 a2 r3 g3 b3 a3

821

}

822

823

auto _02 = _mm_unpacklo_epi16(_01, _23), // r0 r2 g0 g2 b0 b2 a0 a2

824

_13 = _mm_unpackhi_epi16(_01, _23); // r1 r3 g1 g3 b1 b3 a1 a3

825

826

auto rg = _mm_unpacklo_epi16(_02, _13), // r0 r1 r2 r3 g0 g1 g2 g3

827

ba = _mm_unpackhi_epi16(_02, _13); // b0 b1 b2 b3 a0 a1 a2 a3

828

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

829

*r = sk_unaligned_load<U16>((uint16_t*)&rg + 0);

830

*g = sk_unaligned_load<U16>((uint16_t*)&rg + 4);

831

*b = sk_unaligned_load<U16>((uint16_t*)&ba + 0);

832

*a = sk_unaligned_load<U16>((uint16_t*)&ba + 4);

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

833

}

834

835

SI void store4(uint16_t* ptr, size_t tail, U16 r, U16 g, U16 b, U16 a) {

836

auto rg = _mm_unpacklo_epi16(widen_cast<__m128i>(r), widen_cast<__m128i>(g)),

837

ba = _mm_unpacklo_epi16(widen_cast<__m128i>(b), widen_cast<__m128i>(a));

838

839

if (__builtin_expect(tail, 0)) {

840

auto dst = (double*)ptr;

841

if ( true ) { _mm_storel_pd(dst + 0, _mm_unpacklo_epi32(rg, ba)); }

842

if (tail > 1) { _mm_storeh_pd(dst + 1, _mm_unpacklo_epi32(rg, ba)); }

843

if (tail > 2) { _mm_storel_pd(dst + 2, _mm_unpackhi_epi32(rg, ba)); }

844

} else {

845

_mm_storeu_si128((__m128i*)ptr + 0, _mm_unpacklo_epi32(rg, ba));

846

_mm_storeu_si128((__m128i*)ptr + 1, _mm_unpackhi_epi32(rg, ba));

}

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

850

SI void load2(const float* ptr, size_t tail, F* r, F* g) {

851

F _01, _23;

852

if (__builtin_expect(tail, 0)) {

853

_01 = _23 = _mm_setzero_si128();

854

if ( true ) { _01 = _mm_loadl_pi(_01, (__m64 const*)(ptr + 0)); }

855

if (tail > 1) { _01 = _mm_loadh_pi(_01, (__m64 const*)(ptr + 2)); }

856

if (tail > 2) { _23 = _mm_loadl_pi(_23, (__m64 const*)(ptr + 4)); }

857

} else {

858

_01 = _mm_loadu_ps(ptr + 0);

859

_23 = _mm_loadu_ps(ptr + 4);

860

}

861

*r = _mm_shuffle_ps(_01, _23, 0x88);

862

*g = _mm_shuffle_ps(_01, _23, 0xDD);

863

}

864

SI void store2(float* ptr, size_t tail, F r, F g) {

865

F _01 = _mm_unpacklo_ps(r, g),

866

_23 = _mm_unpackhi_ps(r, g);

867

if (__builtin_expect(tail, 0)) {

868

if ( true ) { _mm_storel_pi((__m64*)(ptr + 0), _01); }

869

if (tail > 1) { _mm_storeh_pi((__m64*)(ptr + 2), _01); }

870

if (tail > 2) { _mm_storel_pi((__m64*)(ptr + 4), _23); }

871

} else {

872

_mm_storeu_ps(ptr + 0, _01);

873

_mm_storeu_ps(ptr + 4, _23);

}

}

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

877

SI void load4(const float* ptr, size_t tail, F* r, F* g, F* b, F* a) {

878

F _0, _1, _2, _3;

879

if (__builtin_expect(tail, 0)) {

880

_1 = _2 = _3 = _mm_setzero_si128();

881

if ( true ) { _0 = _mm_loadu_ps(ptr + 0); }

882

if (tail > 1) { _1 = _mm_loadu_ps(ptr + 4); }

883

if (tail > 2) { _2 = _mm_loadu_ps(ptr + 8); }

884

} else {

885

_0 = _mm_loadu_ps(ptr + 0);

886

_1 = _mm_loadu_ps(ptr + 4);

887

_2 = _mm_loadu_ps(ptr + 8);

888

_3 = _mm_loadu_ps(ptr +12);

889

}

890

_MM_TRANSPOSE4_PS(_0,_1,_2,_3);

*r = _0;

*g = _1;

*b = _2;

*a = _3;

}

SI void store4(float* ptr, size_t tail, F r, F g, F b, F a) {

898

_MM_TRANSPOSE4_PS(r,g,b,a);

899

if (__builtin_expect(tail, 0)) {

900

if ( true ) { _mm_storeu_ps(ptr + 0, r); }

901

if (tail > 1) { _mm_storeu_ps(ptr + 4, g); }

902

if (tail > 2) { _mm_storeu_ps(ptr + 8, b); }

903

} else {

904

_mm_storeu_ps(ptr + 0, r);

905

_mm_storeu_ps(ptr + 4, g);

906

_mm_storeu_ps(ptr + 8, b);

907

_mm_storeu_ps(ptr +12, a);

}

}

#endif

// We need to be a careful with casts.

913

// (F)x means cast x to float in the portable path, but bit_cast x to float in the others.

914

// These named casts and bit_cast() are always what they seem to be.

915

#if defined(JUMPER_IS_SCALAR)

916

SI F cast (U32 v) { return (F)v; }

Brian Salomon

2019-06-12 17:42:58 -0400

[diff] [blame]

917

SI F cast64(U64 v) { return (F)v; }

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

918

SI U32 trunc_(F v) { return (U32)v; }

919

SI U32 expand(U16 v) { return (U32)v; }

920

SI U32 expand(U8 v) { return (U32)v; }

921

#else

922

SI F cast (U32 v) { return __builtin_convertvector((I32)v, F); }

Brian Salomon

2019-06-12 17:42:58 -0400

[diff] [blame]

923

SI F cast64(U64 v) { return __builtin_convertvector( v, F); }

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

924

SI U32 trunc_(F v) { return (U32)__builtin_convertvector( v, I32); }

925

SI U32 expand(U16 v) { return __builtin_convertvector( v, U32); }

926

SI U32 expand(U8 v) { return __builtin_convertvector( v, U32); }

927

#endif

928

929

template <typename V>

930

SI V if_then_else(I32 c, V t, V e) {

931

return bit_cast<V>(if_then_else(c, bit_cast<F>(t), bit_cast<F>(e)));

932

}

933

934

SI U16 bswap(U16 x) {

935

#if defined(JUMPER_IS_SSE2) || defined(JUMPER_IS_SSE41)

936

// Somewhat inexplicably Clang decides to do (x<<8) | (x>>8) in 32-bit lanes

937

// when generating code for SSE2 and SSE4.1. We'll do it manually...

938

auto v = widen_cast<__m128i>(x);

939

v = _mm_slli_epi16(v,8) | _mm_srli_epi16(v,8);

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

940

return sk_unaligned_load<U16>(&v);

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

941

#else

942

return (x<<8) | (x>>8);

#endif

}

SI F fract(F v) { return v - floor_(v); }

947

948

// See http://www.machinedlearnings.com/2011/06/fast-approximate-logarithm-exponential.html.

949

SI F approx_log2(F x) {

950

// e - 127 is a fair approximation of log2(x) in its own right...

951

F e = cast(bit_cast<U32>(x)) * (1.0f / (1<<23));

952

953

// ... but using the mantissa to refine its error is _much_ better.

954

F m = bit_cast<F>((bit_cast<U32>(x) & 0x007fffff) | 0x3f000000);

return e

- 124.225514990f

- 1.498030302f * m

- 1.725879990f / (0.3520887068f + m);

959

}

Brian Osman

11e6aa8

2019-10-16 13:58:42 -0400

[diff] [blame]

960

961

SI F approx_log(F x) {

962

const float ln2 = 0.69314718f;

963

return ln2 * approx_log2(x);

964

}

965

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

966

SI F approx_pow2(F x) {

967

F f = fract(x);

968

return bit_cast<F>(round(1.0f * (1<<23),

969

x + 121.274057500f

970

- 1.490129070f * f

971

+ 27.728023300f / (4.84252568f - f)));

972

}

973

Brian Osman

11e6aa8

2019-10-16 13:58:42 -0400

[diff] [blame]

974

SI F approx_exp(F x) {

975

const float log2_e = 1.4426950408889634074f;

976

return approx_pow2(log2_e * x);

977

}

978

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

979

SI F approx_powf(F x, F y) {

Mike Klein

229befe

2018-10-26 12:07:57 -0400

[diff] [blame]

980

#if defined(SK_LEGACY_APPROX_POWF_SPECIALCASE)

981

return if_then_else((x == 0) , 0

982

#else

983

return if_then_else((x == 0)|(x == 1), x

984

#endif

985

, approx_pow2(approx_log2(x) * y));

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

986

}

987

988

SI F from_half(U16 h) {

Mike Klein

7aacb0b

2019-07-02 13:23:06 -0500

[diff] [blame]

989

#if defined(JUMPER_IS_NEON) && defined(SK_CPU_ARM64) \

990

&& !defined(SK_BUILD_FOR_GOOGLE3) // Temporary workaround for some Google3 builds.

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

991

return vcvt_f32_f16(h);

992

993

#elif defined(JUMPER_IS_HSW) || defined(JUMPER_IS_AVX512)

994

return _mm256_cvtph_ps(h);

995

996

#else

997

// Remember, a half is 1-5-10 (sign-exponent-mantissa) with 15 exponent bias.

U32 sem = expand(h),

s = sem & 0x8000,

em = sem ^ s;

// Convert to 1-8-23 float with 127 bias, flushing denorm halfs (including zero) to zero.

1003

auto denorm = (I32)em < 0x0400; // I32 comparison is often quicker, and always safe here.

1004

return if_then_else(denorm, F(0)

1005

, bit_cast<F>( (s<<16) + (em<<13) + ((127-15)<<23) ));

#endif

}

SI U16 to_half(F f) {

Mike Klein

7aacb0b

2019-07-02 13:23:06 -0500

[diff] [blame]

1010

#if defined(JUMPER_IS_NEON) && defined(SK_CPU_ARM64) \

1011

&& !defined(SK_BUILD_FOR_GOOGLE3) // Temporary workaround for some Google3 builds.

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

1012

return vcvt_f16_f32(f);

1013

1014

#elif defined(JUMPER_IS_HSW) || defined(JUMPER_IS_AVX512)

1015

return _mm256_cvtps_ph(f, _MM_FROUND_CUR_DIRECTION);

1016

1017

#else

1018

// Remember, a float is 1-8-23 (sign-exponent-mantissa) with 127 exponent bias.

1019

U32 sem = bit_cast<U32>(f),

1020

s = sem & 0x80000000,

1021

em = sem ^ s;

1022

1023

// Convert to 1-5-10 half with 15 bias, flushing denorm halfs (including zero) to zero.

1024

auto denorm = (I32)em < 0x38800000; // I32 comparison is often quicker, and always safe here.

1025

return pack(if_then_else(denorm, U32(0)

1026

, (s>>16) + (em>>13) - ((127-15)<<10)));

#endif

}

// Our fundamental vector depth is our pixel stride.

1031

static const size_t N = sizeof(F) / sizeof(float);

1032

Mike Klein

2017-04-03 13:54:55 -0400

[diff] [blame]

1033

// We're finally going to get to what a Stage function looks like!

Mike Klein

2017-09-27 11:04:34 -0400

[diff] [blame]

1034

// tail == 0 ~~> work on a full N pixels

Mike Klein

b5e4842

2017-05-30 18:09:29 -0400

[diff] [blame]

1035

// tail != 0 ~~> work on only the first tail pixels

Mike Klein

2017-09-27 11:04:34 -0400

[diff] [blame]

1036

// tail is always < N.

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1037

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

1038

// Any custom ABI to use for all (non-externally-facing) stage functions?

1039

// Also decide here whether to use narrow (compromise) or wide (ideal) stages.

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

1040

#if defined(SK_CPU_ARM32) && defined(JUMPER_IS_NEON)

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1041

// This lets us pass vectors more efficiently on 32-bit ARM.

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

1042

// We can still only pass 16 floats, so best as 4x {r,g,b,a}.

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1043

#define ABI __attribute__((pcs("aapcs-vfp")))

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1044

#define JUMPER_NARROW_STAGES 1

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

1045

#elif 0 && defined(_MSC_VER) && defined(__clang__) && defined(__x86_64__)

1046

// SysV ABI makes it very sensible to use wide stages with clang-cl.

1047

// TODO: crashes during compilation :(

1048

#define ABI __attribute__((sysv_abi))

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1049

#define JUMPER_NARROW_STAGES 0

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

1050

#elif defined(_MSC_VER)

1051

// Even if not vectorized, this lets us pass {r,g,b,a} as registers,

1052

// instead of {b,a} on the stack. Narrow stages work best for __vectorcall.

1053

#define ABI __vectorcall

1054

#define JUMPER_NARROW_STAGES 1

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

1055

#elif defined(__x86_64__) || defined(SK_CPU_ARM64)

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

1056

// These platforms are ideal for wider stages, and their default ABI is ideal.

1057

#define ABI

1058

#define JUMPER_NARROW_STAGES 0

1059

#else

1060

// 32-bit or unknown... shunt them down the narrow path.

1061

// Odds are these have few registers and are better off there.

1062

#define ABI

1063

#define JUMPER_NARROW_STAGES 1

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1064

#endif

1065

1066

#if JUMPER_NARROW_STAGES

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1067

struct Params {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1068

size_t dx, dy, tail;

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1069

F dr,dg,db,da;

1070

};

Mike Klein

2017-12-11 16:53:26 -0500

[diff] [blame]

1071

using Stage = void(ABI*)(Params*, void** program, F r, F g, F b, F a);

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1072

#else

1073

// We keep program the second argument, so that it's passed in rsi for load_and_inc().

Mike Klein

2017-12-11 16:53:26 -0500

[diff] [blame]

1074

using Stage = void(ABI*)(size_t tail, void** program, size_t dx, size_t dy, F,F,F,F, F,F,F,F);

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1075

#endif

Mike Klein

2017-04-03 13:54:55 -0400

[diff] [blame]

1076

Mike Klein

2017-12-11 16:53:26 -0500

[diff] [blame]

1077

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1078

static void start_pipeline(size_t dx, size_t dy, size_t xlimit, size_t ylimit, void** program) {

Mike Klein

2017-12-11 16:53:26 -0500

[diff] [blame]

1079

auto start = (Stage)load_and_inc(program);

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1080

const size_t x0 = dx;

1081

for (; dy < ylimit; dy++) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1082

#if JUMPER_NARROW_STAGES

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1083

Params params = { x0,dy,0, 0,0,0,0 };

1084

while (params.dx + N <= xlimit) {

Mike Klein

abb8bb3

2017-09-27 11:12:01 -0400

[diff] [blame]

1085

start(&params,program, 0,0,0,0);

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1086

params.dx += N;

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1087

}

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1088

if (size_t tail = xlimit - params.dx) {

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1089

params.tail = tail;

Mike Klein

abb8bb3

2017-09-27 11:12:01 -0400

[diff] [blame]

1090

start(&params,program, 0,0,0,0);

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1091

}

1092

#else

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1093

dx = x0;

1094

while (dx + N <= xlimit) {

1095

start(0,program,dx,dy, 0,0,0,0, 0,0,0,0);

1096

dx += N;

Mike Klein

2017-07-18 18:15:13 -0400

[diff] [blame]

1097

}

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1098

if (size_t tail = xlimit - dx) {

1099

start(tail,program,dx,dy, 0,0,0,0, 0,0,0,0);

Mike Klein

2017-07-18 18:15:13 -0400

[diff] [blame]

1100

}

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1101

#endif

Mike Klein

3b92b69

2017-07-18 11:30:25 -0400

[diff] [blame]

}

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1105

#if JUMPER_NARROW_STAGES

1106

#define STAGE(name, ...) \

1107

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, \

1108

F& r, F& g, F& b, F& a, F& dr, F& dg, F& db, F& da); \

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

1109

static void ABI name(Params* params, void** program, \

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1110

F r, F g, F b, F a) { \

1111

name##_k(Ctx{program},params->dx,params->dy,params->tail, r,g,b,a, \

1112

params->dr, params->dg, params->db, params->da); \

1113

auto next = (Stage)load_and_inc(program); \

1114

next(params,program, r,g,b,a); \

1115

} \

1116

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, \

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1117

F& r, F& g, F& b, F& a, F& dr, F& dg, F& db, F& da)

1118

#else

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1119

#define STAGE(name, ...) \

1120

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, \

1121

F& r, F& g, F& b, F& a, F& dr, F& dg, F& db, F& da); \

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

1122

static void ABI name(size_t tail, void** program, size_t dx, size_t dy, \

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1123

F r, F g, F b, F a, F dr, F dg, F db, F da) { \

1124

name##_k(Ctx{program},dx,dy,tail, r,g,b,a, dr,dg,db,da); \

1125

auto next = (Stage)load_and_inc(program); \

1126

next(tail,program,dx,dy, r,g,b,a, dr,dg,db,da); \

1127

} \

1128

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, \

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1129

F& r, F& g, F& b, F& a, F& dr, F& dg, F& db, F& da)

1130

#endif

Mike Klein

b5e4842

2017-05-30 18:09:29 -0400

[diff] [blame]

1131

Mike Klein

2017-04-03 13:54:55 -0400

[diff] [blame]

1132

1133

// just_return() is a simple no-op stage that only exists to end the chain,

1134

// returning back up to start_pipeline(), and from there to the caller.

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1135

#if JUMPER_NARROW_STAGES

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

1136

static void ABI just_return(Params*, void**, F,F,F,F) {}

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1137

#else

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

1138

static void ABI just_return(size_t, void**, size_t,size_t, F,F,F,F, F,F,F,F) {}

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1139

#endif

Mike Klein

2017-04-03 13:54:55 -0400

[diff] [blame]

1140

1141

Mike Klein

8a823fa

2017-04-05 17:29:26 -0400

[diff] [blame]

1142

// We could start defining normal Stages now. But first, some helper functions.

Mike Klein

2017-04-03 13:54:55 -0400

[diff] [blame]

1143

1144

// These load() and store() methods are tail-aware,

1145

// but focus mainly on keeping the at-stride tail==0 case fast.

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1146

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

1147

template <typename V, typename T>

Mike Klein

64b9748

2017-03-14 17:35:04 -0700

[diff] [blame]

1148

SI V load(const T* src, size_t tail) {

Mike Klein

d6e1286

2017-08-28 12:18:26 -0400

[diff] [blame]

1149

#if !defined(JUMPER_IS_SCALAR)

Mike Klein

2017-09-27 11:04:34 -0400

[diff] [blame]

1150

__builtin_assume(tail < N);

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

1151

if (__builtin_expect(tail, 0)) {

1152

V v{}; // Any inactive lanes are zeroed.

Mike Klein

c4fcbed

2017-06-26 16:12:48 -0400

[diff] [blame]

1153

switch (tail) {

1154

case 7: v[6] = src[6];

1155

case 6: v[5] = src[5];

1156

case 5: v[4] = src[4];

1157

case 4: memcpy(&v, src, 4*sizeof(T)); break;

1158

case 3: v[2] = src[2];

1159

case 2: memcpy(&v, src, 2*sizeof(T)); break;

1160

case 1: memcpy(&v, src, 1*sizeof(T)); break;

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

}

return v;

}

#endif

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

1165

return sk_unaligned_load<V>(src);

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

1166

}

1167

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

1168

template <typename V, typename T>

Mike Klein

64b9748

2017-03-14 17:35:04 -0700

[diff] [blame]

1169

SI void store(T* dst, V v, size_t tail) {

Mike Klein

d6e1286

2017-08-28 12:18:26 -0400

[diff] [blame]

1170

#if !defined(JUMPER_IS_SCALAR)

Mike Klein

2017-09-27 11:04:34 -0400

[diff] [blame]

1171

__builtin_assume(tail < N);

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

1172

if (__builtin_expect(tail, 0)) {

Mike Klein

c4fcbed

2017-06-26 16:12:48 -0400

[diff] [blame]

1173

switch (tail) {

1174

case 7: dst[6] = v[6];

1175

case 6: dst[5] = v[5];

1176

case 5: dst[4] = v[4];

1177

case 4: memcpy(dst, &v, 4*sizeof(T)); break;

1178

case 3: dst[2] = v[2];

1179

case 2: memcpy(dst, &v, 2*sizeof(T)); break;

1180

case 1: memcpy(dst, &v, 1*sizeof(T)); break;

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

}

return;

}

#endif

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

1185

sk_unaligned_store(dst, v);

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

1186

}

1187

Mike Klein

2017-04-07 13:09:29 -0400

[diff] [blame]

1188

SI F from_byte(U8 b) {

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1189

return cast(expand(b)) * (1/255.0f);

Mike Klein

2017-04-07 13:09:29 -0400

[diff] [blame]

1190

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

1191

SI F from_short(U16 s) {

1192

return cast(expand(s)) * (1/65535.0f);

1193

}

Mike Klein

64b9748

2017-03-14 17:35:04 -0700

[diff] [blame]

1194

SI void from_565(U16 _565, F* r, F* g, F* b) {

Mike Klein

2017-02-23 13:03:57 -0500

[diff] [blame]

1195

U32 wide = expand(_565);

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1196

*r = cast(wide & (31<<11)) * (1.0f / (31<<11));

1197

*g = cast(wide & (63<< 5)) * (1.0f / (63<< 5));

1198

*b = cast(wide & (31<< 0)) * (1.0f / (31<< 0));

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1199

}

Mike Klein

2017-03-31 13:52:45 -0400

[diff] [blame]

1200

SI void from_4444(U16 _4444, F* r, F* g, F* b, F* a) {

1201

U32 wide = expand(_4444);

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1202

*r = cast(wide & (15<<12)) * (1.0f / (15<<12));

1203

*g = cast(wide & (15<< 8)) * (1.0f / (15<< 8));

1204

*b = cast(wide & (15<< 4)) * (1.0f / (15<< 4));

1205

*a = cast(wide & (15<< 0)) * (1.0f / (15<< 0));

Mike Klein

2017-03-31 13:52:45 -0400

[diff] [blame]

1206

}

Mike Klein

2017-04-06 15:04:05 -0400

[diff] [blame]

1207

SI void from_8888(U32 _8888, F* r, F* g, F* b, F* a) {

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1208

*r = cast((_8888 ) & 0xff) * (1/255.0f);

1209

*g = cast((_8888 >> 8) & 0xff) * (1/255.0f);

1210

*b = cast((_8888 >> 16) & 0xff) * (1/255.0f);

1211

*a = cast((_8888 >> 24) ) * (1/255.0f);

Mike Klein

2017-04-06 15:04:05 -0400

[diff] [blame]

1212

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

1213

SI void from_88(U16 _88, F* r, F* g) {

1214

U32 wide = expand(_88);

1215

*r = cast((wide ) & 0xff) * (1/255.0f);

1216

*g = cast((wide >> 8) & 0xff) * (1/255.0f);

1217

}

Mike Klein

2018-01-25 09:09:32 -0500

[diff] [blame]

1218

SI void from_1010102(U32 rgba, F* r, F* g, F* b, F* a) {

1219

*r = cast((rgba ) & 0x3ff) * (1/1023.0f);

1220

*g = cast((rgba >> 10) & 0x3ff) * (1/1023.0f);

1221

*b = cast((rgba >> 20) & 0x3ff) * (1/1023.0f);

1222

*a = cast((rgba >> 30) ) * (1/ 3.0f);

1223

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

1224

SI void from_1616(U32 _1616, F* r, F* g) {

1225

*r = cast((_1616 ) & 0xffff) * (1/65535.0f);

1226

*g = cast((_1616 >> 16) & 0xffff) * (1/65535.0f);

1227

}

Brian Salomon

2019-06-12 17:42:58 -0400

[diff] [blame]

1228

SI void from_16161616(U64 _16161616, F* r, F* g, F* b, F* a) {

1229

*r = cast64((_16161616 ) & 0xffff) * (1/65535.0f);

1230

*g = cast64((_16161616 >> 16) & 0xffff) * (1/65535.0f);

1231

*b = cast64((_16161616 >> 32) & 0xffff) * (1/65535.0f);

1232

*a = cast64((_16161616 >> 48) & 0xffff) * (1/65535.0f);

1233

}

Mike Klein

2017-04-06 15:04:05 -0400

[diff] [blame]

1234

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1235

// Used by load_ and store_ stages to get to the right (dx,dy) starting point of contiguous memory.

Mike Klein

2017-07-18 18:15:13 -0400

[diff] [blame]

1236

template <typename T>

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1237

SI T* ptr_at_xy(const SkRasterPipeline_MemoryCtx* ctx, size_t dx, size_t dy) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1238

return (T*)ctx->pixels + dy*ctx->stride + dx;

Mike Klein

2017-07-18 18:15:13 -0400

[diff] [blame]

1239

}

1240

Mike Klein

1fa9c43

2017-12-11 09:59:47 -0500

[diff] [blame]

1241

// clamp v to [0,limit).

1242

SI F clamp(F v, F limit) {

1243

F inclusive = bit_cast<F>( bit_cast<U32>(limit) - 1 ); // Exclusive -> inclusive.

1244

return min(max(0, v), inclusive);

1245

}

1246

Mike Klein

2017-07-18 18:15:13 -0400

[diff] [blame]

1247

// Used by gather_ stages to calculate the base pointer and a vector of indices to load.

Mike Klein

2017-04-06 15:04:05 -0400

[diff] [blame]

1248

template <typename T>

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1249

SI U32 ix_and_ptr(T** ptr, const SkRasterPipeline_GatherCtx* ctx, F x, F y) {

Mike Klein

2017-09-22 15:32:59 -0400

[diff] [blame]

1250

x = clamp(x, ctx->width);

1251

y = clamp(y, ctx->height);

1252

Mike Klein

2017-04-06 15:04:05 -0400

[diff] [blame]

1253

*ptr = (const T*)ctx->pixels;

1254

return trunc_(y)*ctx->stride + trunc_(x);

1255

}

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1256

Mike Klein

2017-12-15 09:55:03 -0500

[diff] [blame]

1257

// We often have a nominally [0,1] float value we need to scale and convert to an integer,

1258

// whether for a table lookup or to pack back down into bytes for storage.

1259

//

1260

// In practice, especially when dealing with interesting color spaces, that notionally

1261

// [0,1] float may be out of [0,1] range. Unorms cannot represent that, so we must clamp.

1262

//

1263

// You can adjust the expected input to [0,bias] by tweaking that parameter.

1264

SI U32 to_unorm(F v, F scale, F bias = 1.0f) {

1265

// TODO: platform-specific implementations to to_unorm(), removing round() entirely?

1266

// Any time we use round() we probably want to use to_unorm().

1267

return round(min(max(0, v), bias), scale);

1268

}

1269

Mike Reed

2018-02-16 12:40:18 -0500

[diff] [blame]

1270

SI I32 cond_to_mask(I32 cond) { return if_then_else(cond, I32(~0), I32(0)); }

1271

Mike Klein

2017-04-03 13:54:55 -0400

[diff] [blame]

1272

// Now finally, normal Stages!

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1273

Mike Klein

e8de024

2018-03-10 12:37:11 -0500

[diff] [blame]

1274

STAGE(seed_shader, Ctx::None) {

1275

static const float iota[] = {

1276

0.5f, 1.5f, 2.5f, 3.5f, 4.5f, 5.5f, 6.5f, 7.5f,

1277

8.5f, 9.5f,10.5f,11.5f,12.5f,13.5f,14.5f,15.5f,

1278

};

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1279

// It's important for speed to explicitly cast(dx) and cast(dy),

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1280

// which has the effect of splatting them to vectors before converting to floats.

1281

// On Intel this breaks a data dependency on previous loop iterations' registers.

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

1282

r = cast(dx) + sk_unaligned_load<F>(iota);

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1283

g = cast(dy) + 0.5f;

Mike Klein

2229b57

2017-04-21 10:30:29 -0400

[diff] [blame]

1284

b = 1.0f;

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1285

a = 0;

1286

dr = dg = db = da = 0;

1287

}

1288

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1289

STAGE(dither, const float* rate) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1290

// Get [(dx,dy), (dx+1,dy), (dx+2,dy), ...] loaded up in integer vectors.

Mike Klein

856b3c3

2017-08-29 13:38:09 -0400

[diff] [blame]

1291

uint32_t iota[] = {0,1,2,3,4,5,6,7};

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

1292

U32 X = dx + sk_unaligned_load<U32>(iota),

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1293

Y = dy;

Mike Klein

581e698

2017-05-03 13:05:13 -0400

[diff] [blame]

1294

1295

// We're doing 8x8 ordered dithering, see https://en.wikipedia.org/wiki/Ordered_dithering.

1296

// In this case n=8 and we're using the matrix that looks like 1/64 x [ 0 48 12 60 ... ].

1297

1298

// We only need X and X^Y from here on, so it's easier to just think of that as "Y".

1299

Y ^= X;

1300

1301

// We'll mix the bottom 3 bits of each of X and Y to make 6 bits,

1302

// for 2^6 == 64 == 8x8 matrix values. If X=abc and Y=def, we make fcebda.

1303

U32 M = (Y & 1) << 5 | (X & 1) << 4

1304

| (Y & 2) << 2 | (X & 2) << 1

1305

| (Y & 4) >> 1 | (X & 4) >> 2;

1306

Mike Klein

db711c9

2017-05-03 17:57:48 -0400

[diff] [blame]

1307

// Scale that dither to [0,1), then (-0.5,+0.5), here using 63/128 = 0.4921875 as 0.5-epsilon.

1308

// We want to make sure our dither is less than 0.5 in either direction to keep exact values

1309

// like 0 and 1 unchanged after rounding.

1310

F dither = cast(M) * (2/128.0f) - (63/128.0f);

Mike Klein

581e698

2017-05-03 13:05:13 -0400

[diff] [blame]

1311

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1312

r += *rate*dither;

1313

g += *rate*dither;

1314

b += *rate*dither;

Mike Klein

7e68bc9

2017-05-16 12:03:15 -0400

[diff] [blame]

1315

1316

r = max(0, min(r, a));

1317

g = max(0, min(g, a));

1318

b = max(0, min(b, a));

Mike Klein

581e698

2017-05-03 13:05:13 -0400

[diff] [blame]

1319

}

1320

Mike Reed

2017-05-15 09:34:22 -0400

[diff] [blame]

1321

// load 4 floats from memory, and splat them into r,g,b,a

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1322

STAGE(uniform_color, const SkRasterPipeline_UniformColorCtx* c) {

Mike Klein

1a2e3e1

2017-08-03 11:24:13 -0400

[diff] [blame]

r = c->r;

g = c->g;

b = c->b;

a = c->a;

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1327

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1328

STAGE(unbounded_uniform_color, const SkRasterPipeline_UniformColorCtx* c) {

Mike Klein

cd3e13a

2018-07-10 15:52:06 +0000

[diff] [blame]

r = c->r;

g = c->g;

b = c->b;

a = c->a;

}

Mike Reed

9318a6c

2019-08-16 16:16:25 -0400

[diff] [blame]

1334

// load 4 floats from memory, and splat them into dr,dg,db,da

1335

STAGE(uniform_color_dst, const SkRasterPipeline_UniformColorCtx* c) {

dr = c->r;

dg = c->g;

db = c->b;

da = c->a;

}

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1341

Mike Reed

c91e387

2017-07-05 14:12:37 -0400

[diff] [blame]

1342

// splats opaque-black into r,g,b,a

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1343

STAGE(black_color, Ctx::None) {

Mike Reed

c91e387

2017-07-05 14:12:37 -0400

[diff] [blame]

r = g = b = 0.0f;

a = 1.0f;

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1348

STAGE(white_color, Ctx::None) {

Mike Reed

c91e387

2017-07-05 14:12:37 -0400

[diff] [blame]

1349

r = g = b = a = 1.0f;

1350

}

1351

Mike Reed

2017-05-15 09:34:22 -0400

[diff] [blame]

1352

// load registers r,g,b,a from context (mirrors store_rgba)

Mike Reed

2019-03-08 11:50:35 -0500

[diff] [blame]

1353

STAGE(load_src, const float* ptr) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

1354

r = sk_unaligned_load<F>(ptr + 0*N);

1355

g = sk_unaligned_load<F>(ptr + 1*N);

1356

b = sk_unaligned_load<F>(ptr + 2*N);

1357

a = sk_unaligned_load<F>(ptr + 3*N);

Mike Reed

2017-05-15 09:34:22 -0400

[diff] [blame]

1358

}

1359

1360

// store registers r,g,b,a into context (mirrors load_rgba)

Mike Reed

2019-03-08 11:50:35 -0500

[diff] [blame]

1361

STAGE(store_src, float* ptr) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

1362

sk_unaligned_store(ptr + 0*N, r);

1363

sk_unaligned_store(ptr + 1*N, g);

1364

sk_unaligned_store(ptr + 2*N, b);

1365

sk_unaligned_store(ptr + 3*N, a);

Mike Reed

2017-05-15 09:34:22 -0400

[diff] [blame]

1366

}

1367

Mike Reed

2019-03-08 11:50:35 -0500

[diff] [blame]

1368

// load registers dr,dg,db,da from context (mirrors store_dst)

1369

STAGE(load_dst, const float* ptr) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

1370

dr = sk_unaligned_load<F>(ptr + 0*N);

1371

dg = sk_unaligned_load<F>(ptr + 1*N);

1372

db = sk_unaligned_load<F>(ptr + 2*N);

1373

da = sk_unaligned_load<F>(ptr + 3*N);

Mike Reed

2019-03-08 11:50:35 -0500

[diff] [blame]

1374

}

1375

1376

// store registers dr,dg,db,da into context (mirrors load_dst)

1377

STAGE(store_dst, float* ptr) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

1378

sk_unaligned_store(ptr + 0*N, dr);

1379

sk_unaligned_store(ptr + 1*N, dg);

1380

sk_unaligned_store(ptr + 2*N, db);

1381

sk_unaligned_store(ptr + 3*N, da);

Mike Reed

2019-03-08 11:50:35 -0500

[diff] [blame]

1382

}

1383

Mike Klein

2017-04-03 13:54:55 -0400

[diff] [blame]

1384

// Most blend modes apply the same logic to each channel.

Mike Klein

2017-03-31 09:29:01 -0400

[diff] [blame]

1385

#define BLEND_MODE(name) \

1386

SI F name##_channel(F s, F d, F sa, F da); \

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1387

STAGE(name, Ctx::None) { \

Mike Klein

2017-03-31 09:29:01 -0400

[diff] [blame]

1388

r = name##_channel(r,dr,a,da); \

1389

g = name##_channel(g,dg,a,da); \

1390

b = name##_channel(b,db,a,da); \

1391

a = name##_channel(a,da,a,da); \

1392

} \

1393

SI F name##_channel(F s, F d, F sa, F da)

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1394

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1395

SI F inv(F x) { return 1.0f - x; }

Mike Klein

2017-03-31 10:29:40 -0400

[diff] [blame]

1396

SI F two(F x) { return x + x; }

Yuqian Li

7741c75

2017-12-11 14:17:47 -0500

[diff] [blame]

1397

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1398

Mike Klein

2017-03-31 09:29:01 -0400

[diff] [blame]

1399

BLEND_MODE(clear) { return 0; }

1400

BLEND_MODE(srcatop) { return s*da + d*inv(sa); }

1401

BLEND_MODE(dstatop) { return d*sa + s*inv(da); }

1402

BLEND_MODE(srcin) { return s * da; }

1403

BLEND_MODE(dstin) { return d * sa; }

1404

BLEND_MODE(srcout) { return s * inv(da); }

1405

BLEND_MODE(dstout) { return d * inv(sa); }

1406

BLEND_MODE(srcover) { return mad(d, inv(sa), s); }

1407

BLEND_MODE(dstover) { return mad(s, inv(da), d); }

1408

1409

BLEND_MODE(modulate) { return s*d; }

1410

BLEND_MODE(multiply) { return s*inv(da) + d*inv(sa) + s*d; }

Mike Klein

b90c080

2019-03-15 14:03:41 +0000

[diff] [blame]

1411

BLEND_MODE(plus_) { return min(s + d, 1.0f); } // We can clamp to either 1 or sa.

Mike Klein

2017-03-31 09:29:01 -0400

[diff] [blame]

1412

BLEND_MODE(screen) { return s + d - s*d; }

1413

BLEND_MODE(xor_) { return s*inv(da) + d*inv(sa); }

Mike Klein

2017-03-31 10:29:40 -0400

[diff] [blame]

1414

#undef BLEND_MODE

Mike Klein

2017-04-03 13:54:55 -0400

[diff] [blame]

1415

1416

// Most other blend modes apply the same logic to colors, and srcover to alpha.

Mike Klein

2017-03-31 10:29:40 -0400

[diff] [blame]

1417

#define BLEND_MODE(name) \

1418

SI F name##_channel(F s, F d, F sa, F da); \

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1419

STAGE(name, Ctx::None) { \

Mike Klein

2017-03-31 10:29:40 -0400

[diff] [blame]

1420

r = name##_channel(r,dr,a,da); \

1421

g = name##_channel(g,dg,a,da); \

1422

b = name##_channel(b,db,a,da); \

1423

a = mad(da, inv(a), a); \

1424

} \

1425

SI F name##_channel(F s, F d, F sa, F da)

1426

1427

BLEND_MODE(darken) { return s + d - max(s*da, d*sa) ; }

1428

BLEND_MODE(lighten) { return s + d - min(s*da, d*sa) ; }

1429

BLEND_MODE(difference) { return s + d - two(min(s*da, d*sa)); }

1430

BLEND_MODE(exclusion) { return s + d - two(s*d); }

1431

Mike Klein

2017-03-31 11:48:14 -0400

[diff] [blame]

1432

BLEND_MODE(colorburn) {

Florin Malita

59a62ed

2017-08-23 12:08:37 -0400

[diff] [blame]

1433

return if_then_else(d == da, d + s*inv(da),

1434

if_then_else(s == 0, /* s + */ d*inv(sa),

1435

sa*(da - min(da, (da-d)*sa*rcp(s))) + s*inv(da) + d*inv(sa)));

Mike Klein

2017-03-31 11:48:14 -0400

[diff] [blame]

1436

}

1437

BLEND_MODE(colordodge) {

Florin Malita

59a62ed

2017-08-23 12:08:37 -0400

[diff] [blame]

1438

return if_then_else(d == 0, /* d + */ s*inv(da),

1439

if_then_else(s == sa, s + d*inv(sa),

1440

sa*min(da, (d*sa)*rcp(sa - s)) + s*inv(da) + d*inv(sa)));

Mike Klein

2017-03-31 11:48:14 -0400

[diff] [blame]

1441

}

1442

BLEND_MODE(hardlight) {

1443

return s*inv(da) + d*inv(sa)

1444

+ if_then_else(two(s) <= sa, two(s*d), sa*da - two((da-d)*(sa-s)));

1445

}

1446

BLEND_MODE(overlay) {

1447

return s*inv(da) + d*inv(sa)

1448

+ if_then_else(two(d) <= da, two(s*d), sa*da - two((da-d)*(sa-s)));

1449

}

1450

1451

BLEND_MODE(softlight) {

1452

F m = if_then_else(da > 0, d / da, 0),

s2 = two(s),

m4 = two(two(m));

// The logic forks three ways:

1457

// 1. dark src?

1458

// 2. light src, dark dst?

1459

// 3. light src, light dst?

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1460

F darkSrc = d*(sa + (s2 - sa)*(1.0f - m)), // Used in case 1.

1461

darkDst = (m4*m4 + m4)*(m - 1.0f) + 7.0f*m, // Used in case 2.

1462

liteDst = rcp(rsqrt(m)) - m, // Used in case 3.

Mike Klein

2017-03-31 11:48:14 -0400

[diff] [blame]

1463

liteSrc = d*sa + da*(s2 - sa) * if_then_else(two(two(d)) <= da, darkDst, liteDst); // 2 or 3?

1464

return s*inv(da) + d*inv(sa) + if_then_else(s2 <= sa, darkSrc, liteSrc); // 1 or (2 or 3)?

1465

}

Mike Klein

2017-04-03 13:54:55 -0400

[diff] [blame]

1466

#undef BLEND_MODE

Mike Klein

2017-03-31 11:48:14 -0400

[diff] [blame]

1467

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1468

// We're basing our implemenation of non-separable blend modes on

1469

// https://www.w3.org/TR/compositing-1/#blendingnonseparable.

1470

// and

1471

// https://www.khronos.org/registry/OpenGL/specs/es/3.2/es_spec_3.2.pdf

1472

// They're equivalent, but ES' math has been better simplified.

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1473

//

1474

// Anything extra we add beyond that is to make the math work with premul inputs.

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1475

Mike Klein

2019-10-16 13:28:55 -0500

[diff] [blame]

1476

SI F sat(F r, F g, F b) { return max(r, max(g,b)) - min(r, min(g,b)); }

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1477

SI F lum(F r, F g, F b) { return r*0.30f + g*0.59f + b*0.11f; }

1478

1479

SI void set_sat(F* r, F* g, F* b, F s) {

Mike Klein

2019-10-16 13:28:55 -0500

[diff] [blame]

1480

F mn = min(*r, min(*g,*b)),

1481

mx = max(*r, max(*g,*b)),

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1482

sat = mx - mn;

1483

1484

// Map min channel to 0, max channel to s, and scale the middle proportionally.

1485

auto scale = [=](F c) {

1486

return if_then_else(sat == 0, 0, (c - mn) * s / sat);

};

*r = scale(*r);

*g = scale(*g);

*b = scale(*b);

}

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1492

SI void set_lum(F* r, F* g, F* b, F l) {

1493

F diff = l - lum(*r, *g, *b);

*r += diff;

*g += diff;

*b += diff;

}

SI void clip_color(F* r, F* g, F* b, F a) {

Mike Klein

2019-10-16 13:28:55 -0500

[diff] [blame]

1499

F mn = min(*r, min(*g, *b)),

1500

mx = max(*r, max(*g, *b)),

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1501

l = lum(*r, *g, *b);

1502

1503

auto clip = [=](F c) {

1504

c = if_then_else(mn >= 0, c, l + (c - l) * ( l) / (l - mn) );

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1505

c = if_then_else(mx > a, l + (c - l) * (a - l) / (mx - l), c);

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1506

c = max(c, 0); // Sometimes without this we may dip just a little negative.

return c;

};

*r = clip(*r);

*g = clip(*g);

*b = clip(*b);

}

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1513

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1514

STAGE(hue, Ctx::None) {

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1515

F R = r*a,

1516

G = g*a,

1517

B = b*a;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1518

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1519

set_sat(&R, &G, &B, sat(dr,dg,db)*a);

1520

set_lum(&R, &G, &B, lum(dr,dg,db)*a);

1521

clip_color(&R,&G,&B, a*da);

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1522

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1523

r = r*inv(da) + dr*inv(a) + R;

1524

g = g*inv(da) + dg*inv(a) + G;

1525

b = b*inv(da) + db*inv(a) + B;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1526

a = a + da - a*da;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1527

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1528

STAGE(saturation, Ctx::None) {

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1529

F R = dr*a,

1530

G = dg*a,

1531

B = db*a;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1532

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1533

set_sat(&R, &G, &B, sat( r, g, b)*da);

1534

set_lum(&R, &G, &B, lum(dr,dg,db)* a); // (This is not redundant.)

1535

clip_color(&R,&G,&B, a*da);

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1536

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1537

r = r*inv(da) + dr*inv(a) + R;

1538

g = g*inv(da) + dg*inv(a) + G;

1539

b = b*inv(da) + db*inv(a) + B;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1540

a = a + da - a*da;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1541

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1542

STAGE(color, Ctx::None) {

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1543

F R = r*da,

1544

G = g*da,

1545

B = b*da;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1546

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1547

set_lum(&R, &G, &B, lum(dr,dg,db)*a);

1548

clip_color(&R,&G,&B, a*da);

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1549

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1550

r = r*inv(da) + dr*inv(a) + R;

1551

g = g*inv(da) + dg*inv(a) + G;

1552

b = b*inv(da) + db*inv(a) + B;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1553

a = a + da - a*da;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1554

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1555

STAGE(luminosity, Ctx::None) {

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1556

F R = dr*a,

1557

G = dg*a,

1558

B = db*a;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1559

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1560

set_lum(&R, &G, &B, lum(r,g,b)*da);

1561

clip_color(&R,&G,&B, a*da);

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1562

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1563

r = r*inv(da) + dr*inv(a) + R;

1564

g = g*inv(da) + dg*inv(a) + G;

1565

b = b*inv(da) + db*inv(a) + B;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1566

a = a + da - a*da;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1567

}

1568

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1569

STAGE(srcover_rgba_8888, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1570

auto ptr = ptr_at_xy<uint32_t>(ctx, dx,dy);

Mike Klein

2017-05-25 13:06:57 -0400

[diff] [blame]

1571

1572

U32 dst = load<U32>(ptr, tail);

1573

dr = cast((dst ) & 0xff);

1574

dg = cast((dst >> 8) & 0xff);

1575

db = cast((dst >> 16) & 0xff);

1576

da = cast((dst >> 24) );

1577

// {dr,dg,db,da} are in [0,255]

Mike Klein

2017-12-15 09:55:03 -0500

[diff] [blame]

1578

// { r, g, b, a} are in [0, 1] (but may be out of gamut)

Mike Klein

2017-05-25 13:06:57 -0400

[diff] [blame]

1579

1580

r = mad(dr, inv(a), r*255.0f);

1581

g = mad(dg, inv(a), g*255.0f);

1582

b = mad(db, inv(a), b*255.0f);

1583

a = mad(da, inv(a), a*255.0f);

Mike Klein

2017-12-15 09:55:03 -0500

[diff] [blame]

1584

// { r, g, b, a} are now in [0,255] (but may be out of gamut)

Mike Klein

2017-05-25 13:06:57 -0400

[diff] [blame]

1585

Mike Klein

2017-12-15 09:55:03 -0500

[diff] [blame]

1586

// to_unorm() clamps back to gamut. Scaling by 1 since we're already 255-biased.

1587

dst = to_unorm(r, 1, 255)

1588

| to_unorm(g, 1, 255) << 8

1589

| to_unorm(b, 1, 255) << 16

1590

| to_unorm(a, 1, 255) << 24;

Mike Klein

2017-05-25 13:06:57 -0400

[diff] [blame]

1591

store(ptr, dst, tail);

1592

}

1593

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1594

STAGE(clamp_0, Ctx::None) {

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

r = max(r, 0);

g = max(g, 0);

b = max(b, 0);

a = max(a, 0);

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1601

STAGE(clamp_1, Ctx::None) {

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

r = min(r, 1.0f);

g = min(g, 1.0f);

b = min(b, 1.0f);

a = min(a, 1.0f);

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1606

}

1607

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1608

STAGE(clamp_a, Ctx::None) {

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1609

a = min(a, 1.0f);

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

r = min(r, a);

g = min(g, a);

b = min(b, a);

}

Mike Klein

2018-09-07 11:08:53 -0400

[diff] [blame]

1615

STAGE(clamp_gamut, Ctx::None) {

1616

// If you're using this stage, a should already be in [0,1].

1617

r = min(max(r, 0), a);

1618

g = min(max(g, 0), a);

1619

b = min(max(b, 0), a);

1620

}

1621

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1622

STAGE(set_rgb, const float* rgb) {

Mike Klein

d9e8225

2017-02-22 14:17:32 -0500

[diff] [blame]

r = rgb[0];

g = rgb[1];

b = rgb[2];

}

Mike Klein

be56949

2018-09-14 09:34:21 -0400

[diff] [blame]

1627

STAGE(unbounded_set_rgb, const float* rgb) {

r = rgb[0];

g = rgb[1];

b = rgb[2];

}

Mike Klein

1a3eb52

2018-10-18 10:11:00 -0400

[diff] [blame]

1632

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1633

STAGE(swap_rb, Ctx::None) {

Mike Klein

d9e8225

2017-02-22 14:17:32 -0500

[diff] [blame]

auto tmp = r;

r = b;

b = tmp;

}

Mike Klein

1a3eb52

2018-10-18 10:11:00 -0400

[diff] [blame]

1638

STAGE(swap_rb_dst, Ctx::None) {

auto tmp = dr;

dr = db;

db = tmp;

}

Mike Klein

d9e8225

2017-02-22 14:17:32 -0500

[diff] [blame]

1643

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1644

STAGE(move_src_dst, Ctx::None) {

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

dr = r;

dg = g;

db = b;

da = a;

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1650

STAGE(move_dst_src, Ctx::None) {

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

r = dr;

g = dg;

b = db;

a = da;

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1657

STAGE(premul, Ctx::None) {

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

r = r * a;

g = g * a;

b = b * a;

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1662

STAGE(premul_dst, Ctx::None) {

Mike Reed

883c9bc

2017-07-19 10:57:53 -0400

[diff] [blame]

dr = dr * da;

dg = dg * da;

db = db * da;

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1667

STAGE(unpremul, Ctx::None) {

Mike Klein

a65f2f0

2017-10-11 13:05:24 -0400

[diff] [blame]

1668

float inf = bit_cast<float>(0x7f800000);

1669

auto scale = if_then_else(1.0f/a < inf, 1.0f/a, 0);

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1670

r *= scale;

1671

g *= scale;

1672

b *= scale;

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1673

}

1674

Mike Klein

2018-01-25 09:09:32 -0500

[diff] [blame]

1675

STAGE(force_opaque , Ctx::None) { a = 1; }

1676

STAGE(force_opaque_dst, Ctx::None) { da = 1; }

1677

Florin Malita

2019-10-23 17:37:35 -0400

[diff] [blame]

1678

// Clamp x to [0,1], both sides inclusive (think, gradients).

1679

// Even repeat and mirror funnel through a clamp to handle bad inputs like +Inf, NaN.

1680

SI F clamp_01(F v) { return min(max(0, v), 1); }

1681

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1682

STAGE(rgb_to_hsl, Ctx::None) {

Mike Klein

2019-10-16 13:28:55 -0500

[diff] [blame]

1683

F mx = max(r, max(g,b)),

1684

mn = min(r, min(g,b)),

Mike Klein

2017-04-12 08:35:41 -0400

[diff] [blame]

1685

d = mx - mn,

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1686

d_rcp = 1.0f / d;

Mike Klein

2017-04-12 08:35:41 -0400

[diff] [blame]

1687

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1688

F h = (1/6.0f) *

Mike Klein

2017-04-12 08:35:41 -0400

[diff] [blame]

1689

if_then_else(mx == mn, 0,

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1690

if_then_else(mx == r, (g-b)*d_rcp + if_then_else(g < b, 6.0f, 0),

1691

if_then_else(mx == g, (b-r)*d_rcp + 2.0f,

1692

(r-g)*d_rcp + 4.0f)));

Mike Klein

2017-04-12 08:35:41 -0400

[diff] [blame]

1693

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1694

F l = (mx + mn) * 0.5f;

Mike Klein

2017-04-12 08:35:41 -0400

[diff] [blame]

1695

F s = if_then_else(mx == mn, 0,

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1696

d / if_then_else(l > 0.5f, 2.0f-mx-mn, mx+mn));

Mike Klein

2017-04-12 08:35:41 -0400

[diff] [blame]

r = h;

g = s;

b = l;

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1702

STAGE(hsl_to_rgb, Ctx::None) {

Florin Malita

2019-10-23 17:37:35 -0400

[diff] [blame]

1703

// See GrRGBToHSLFilterEffect.fp

1704

Mike Klein

2017-04-12 08:35:41 -0400

[diff] [blame]

1705

F h = r,

1706

s = g,

Florin Malita

2019-10-23 17:37:35 -0400

[diff] [blame]

1707

l = b,

1708

c = (1.0f - abs_(2.0f * l - 1)) * s;

Mike Klein

2017-04-12 08:35:41 -0400

[diff] [blame]

1709

Florin Malita

2019-10-23 17:37:35 -0400

[diff] [blame]

1710

auto hue_to_rgb = [&](F hue) {

1711

F q = clamp_01(abs_(fract(hue) * 6.0f - 3.0f) - 1.0f);

1712

return (q - 0.5f) * c + l;

Mike Klein

2017-04-12 08:35:41 -0400

[diff] [blame]

1713

};

1714

Florin Malita

2019-10-23 17:37:35 -0400

[diff] [blame]

1715

r = hue_to_rgb(h + 0.0f/3.0f);

1716

g = hue_to_rgb(h + 2.0f/3.0f);

1717

b = hue_to_rgb(h + 1.0f/3.0f);

Mike Klein

2017-04-12 08:35:41 -0400

[diff] [blame]

1718

}

1719

Mike Klein

2017-08-24 13:06:23 -0400

[diff] [blame]

1720

// Derive alpha's coverage from rgb coverage and the values of src and dst alpha.

1721

SI F alpha_coverage_from_rgb_coverage(F a, F da, F cr, F cg, F cb) {

Mike Klein

2019-10-16 13:28:55 -0500

[diff] [blame]

1722

return if_then_else(a < da, min(cr, min(cg,cb))

1723

, max(cr, max(cg,cb)));

Mike Klein

2017-08-24 13:06:23 -0400

[diff] [blame]

1724

}

1725

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1726

STAGE(scale_1_float, const float* c) {

r = r * *c;

g = g * *c;

b = b * *c;

a = a * *c;

Mike Klein

2017-02-24 08:21:18 -0500

[diff] [blame]

1731

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1732

STAGE(scale_u8, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1733

auto ptr = ptr_at_xy<const uint8_t>(ctx, dx,dy);

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1734

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

1735

auto scales = load<U8>(ptr, tail);

Mike Klein

2017-04-07 13:09:29 -0400

[diff] [blame]

1736

auto c = from_byte(scales);

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

r = r * c;

g = g * c;

b = b * c;

a = a * c;

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1743

STAGE(scale_565, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1744

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx,dy);

Mike Klein

2017-08-24 13:06:23 -0400

[diff] [blame]

1745

1746

F cr,cg,cb;

1747

from_565(load<U16>(ptr, tail), &cr, &cg, &cb);

1748

1749

F ca = alpha_coverage_from_rgb_coverage(a,da, cr,cg,cb);

r = r * cr;

g = g * cg;

b = b * cb;

a = a * ca;

}

Mike Klein

2017-02-24 08:21:18 -0500

[diff] [blame]

1756

Mike Klein

2017-04-03 13:54:55 -0400

[diff] [blame]

1757

SI F lerp(F from, F to, F t) {

1758

return mad(to-from, t, from);

1759

}

1760

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1761

STAGE(lerp_1_float, const float* c) {

r = lerp(dr, r, *c);

g = lerp(dg, g, *c);

b = lerp(db, b, *c);

a = lerp(da, a, *c);

Mike Klein

2017-02-24 08:21:18 -0500

[diff] [blame]

1766

}

Mike Reed

79a7542

2019-03-15 15:45:09 -0400

[diff] [blame]

1767

STAGE(lerp_native, const float scales[]) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

1768

auto c = sk_unaligned_load<F>(scales);

Mike Reed

79a7542

2019-03-15 15:45:09 -0400

[diff] [blame]

r = lerp(dr, r, c);

g = lerp(dg, g, c);

b = lerp(db, b, c);

a = lerp(da, a, c);

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1774

STAGE(lerp_u8, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1775

auto ptr = ptr_at_xy<const uint8_t>(ctx, dx,dy);

Mike Klein

2b76736

2017-02-22 13:52:40 -0500

[diff] [blame]

1776

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

1777

auto scales = load<U8>(ptr, tail);

Mike Klein

2017-04-07 13:09:29 -0400

[diff] [blame]

1778

auto c = from_byte(scales);

Mike Klein

2b76736

2017-02-22 13:52:40 -0500

[diff] [blame]

r = lerp(dr, r, c);

g = lerp(dg, g, c);

b = lerp(db, b, c);

a = lerp(da, a, c);

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1785

STAGE(lerp_565, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1786

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx,dy);

Mike Klein

2017-02-24 08:21:18 -0500

[diff] [blame]

1787

1788

F cr,cg,cb;

Mike Klein

5224f46

2017-03-07 17:29:54 -0500

[diff] [blame]

1789

from_565(load<U16>(ptr, tail), &cr, &cg, &cb);

Mike Klein

2017-02-24 08:21:18 -0500

[diff] [blame]

1790

Mike Klein

2017-08-24 13:06:23 -0400

[diff] [blame]

1791

F ca = alpha_coverage_from_rgb_coverage(a,da, cr,cg,cb);

1792

Mike Klein

2017-02-24 08:21:18 -0500

[diff] [blame]

1793

r = lerp(dr, r, cr);

1794

g = lerp(dg, g, cg);

1795

b = lerp(db, b, cb);

Mike Klein

2017-08-24 13:06:23 -0400

[diff] [blame]

1796

a = lerp(da, a, ca);

Mike Klein

2017-02-24 08:21:18 -0500

[diff] [blame]

1797

}

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1798

Mike Klein

eda2ac2

2018-11-06 11:53:59 -0500

[diff] [blame]

1799

STAGE(emboss, const SkRasterPipeline_EmbossCtx* ctx) {

1800

auto mptr = ptr_at_xy<const uint8_t>(&ctx->mul, dx,dy),

1801

aptr = ptr_at_xy<const uint8_t>(&ctx->add, dx,dy);

1802

1803

F mul = from_byte(load<U8>(mptr, tail)),

1804

add = from_byte(load<U8>(aptr, tail));

1805

1806

r = mad(r, mul, add);

1807

g = mad(g, mul, add);

1808

b = mad(b, mul, add);

1809

}

1810

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1811

STAGE(byte_tables, const void* ctx) { // TODO: rename Tables SkRasterPipeline_ByteTablesCtx

Mike Klein

2017-04-07 13:09:29 -0400

[diff] [blame]

1812

struct Tables { const uint8_t *r, *g, *b, *a; };

1813

auto tables = (const Tables*)ctx;

1814

Mike Klein

2017-12-15 09:55:03 -0500

[diff] [blame]

1815

r = from_byte(gather(tables->r, to_unorm(r, 255)));

1816

g = from_byte(gather(tables->g, to_unorm(g, 255)));

1817

b = from_byte(gather(tables->b, to_unorm(b, 255)));

1818

a = from_byte(gather(tables->a, to_unorm(a, 255)));

Mike Klein

2017-04-07 13:09:29 -0400

[diff] [blame]

1819

}

1820

Mike Klein

b1c77e4

2018-09-06 15:23:29 -0400

[diff] [blame]

1821

SI F strip_sign(F x, U32* sign) {

1822

U32 bits = bit_cast<U32>(x);

1823

*sign = bits & 0x80000000;

1824

return bit_cast<F>(bits ^ *sign);

1825

}

Mike Klein

2018-09-05 15:16:52 -0400

[diff] [blame]

1826

Mike Klein

b1c77e4

2018-09-06 15:23:29 -0400

[diff] [blame]

1827

SI F apply_sign(F x, U32 sign) {

1828

return bit_cast<F>(sign | bit_cast<U32>(x));

1829

}

Mike Klein

2018-09-05 15:16:52 -0400

[diff] [blame]

1830

Brian Osman

5deadca

2019-01-24 12:18:17 -0500

[diff] [blame]

1831

STAGE(parametric, const skcms_TransferFunction* ctx) {

Mike Klein

4eebd9e

2018-07-11 14:49:51 -0400

[diff] [blame]

1832

auto fn = [&](F v) {

Mike Klein

2018-09-05 15:16:52 -0400

[diff] [blame]

1833

U32 sign;

1834

v = strip_sign(v, &sign);

1835

Brian Osman

5deadca

2019-01-24 12:18:17 -0500

[diff] [blame]

1836

F r = if_then_else(v <= ctx->d, mad(ctx->c, v, ctx->f)

1837

, approx_powf(mad(ctx->a, v, ctx->b), ctx->g) + ctx->e);

Mike Klein

33d3d31

2018-09-05 17:52:25 -0400

[diff] [blame]

1838

return apply_sign(r, sign);

Mike Klein

4eebd9e

2018-07-11 14:49:51 -0400

[diff] [blame]

};

r = fn(r);

g = fn(g);

b = fn(b);

Mike Klein

4437517

2017-04-17 19:32:05 -0400

[diff] [blame]

1843

}

Mike Klein

4437517

2017-04-17 19:32:05 -0400

[diff] [blame]

1844

Mike Klein

1ce03a6

2019-04-23 08:00:35 -0500

[diff] [blame]

1845

STAGE(gamma_, const float* G) {

Mike Klein

2018-09-05 15:16:52 -0400

[diff] [blame]

1846

auto fn = [&](F v) {

1847

U32 sign;

1848

v = strip_sign(v, &sign);

1849

return apply_sign(approx_powf(v, *G), sign);

};

r = fn(r);

g = fn(g);

b = fn(b);

}

Brian Osman

2019-10-16 13:58:42 -0400

[diff] [blame]

1856

STAGE(PQish, const skcms_TransferFunction* ctx) {

1857

auto fn = [&](F v) {

1858

U32 sign;

1859

v = strip_sign(v, &sign);

1860

1861

F r = approx_powf(max(mad(ctx->b, approx_powf(v, ctx->c), ctx->a), 0)

1862

/ (mad(ctx->e, approx_powf(v, ctx->c), ctx->d)),

1863

ctx->f);

1864

1865

return apply_sign(r, sign);

};

r = fn(r);

g = fn(g);

b = fn(b);

}

STAGE(HLGish, const skcms_TransferFunction* ctx) {

1873

auto fn = [&](F v) {

1874

U32 sign;

1875

v = strip_sign(v, &sign);

1876

1877

const float R = ctx->a, G = ctx->b,

1878

a = ctx->c, b = ctx->d, c = ctx->e;

1879

1880

F r = if_then_else(v*R <= 1, approx_powf(v*R, G)

1881

, approx_exp((v-c)*a) + b);

1882

1883

return apply_sign(r, sign);

};

r = fn(r);

g = fn(g);

b = fn(b);

}

STAGE(HLGinvish, const skcms_TransferFunction* ctx) {

1891

auto fn = [&](F v) {

1892

U32 sign;

1893

v = strip_sign(v, &sign);

1894

1895

const float R = ctx->a, G = ctx->b,

1896

a = ctx->c, b = ctx->d, c = ctx->e;

1897

1898

F r = if_then_else(v <= 1, R * approx_powf(v, G)

1899

, a * approx_log(v - b) + c);

1900

1901

return apply_sign(r, sign);

};

r = fn(r);

g = fn(g);

b = fn(b);

}

Mike Klein

2018-09-05 15:16:52 -0400

[diff] [blame]

1908

STAGE(from_srgb, Ctx::None) {

1909

auto fn = [](F s) {

1910

U32 sign;

1911

s = strip_sign(s, &sign);

1912

auto lo = s * (1/12.92f);

1913

auto hi = mad(s*s, mad(s, 0.3000f, 0.6975f), 0.0025f);

1914

return apply_sign(if_then_else(s < 0.055f, lo, hi), sign);

};

r = fn(r);

g = fn(g);

b = fn(b);

}

STAGE(to_srgb, Ctx::None) {

1921

auto fn = [](F l) {

1922

U32 sign;

1923

l = strip_sign(l, &sign);

1924

// We tweak c and d for each instruction set to make sure fn(1) is exactly 1.

1925

#if defined(JUMPER_IS_AVX512)

1926

const float c = 1.130026340485f,

1927

d = 0.141387879848f;

1928

#elif defined(JUMPER_IS_SSE2) || defined(JUMPER_IS_SSE41) || \

1929

defined(JUMPER_IS_AVX ) || defined(JUMPER_IS_HSW )

1930

const float c = 1.130048394203f,

1931

d = 0.141357362270f;

1932

#elif defined(JUMPER_IS_NEON)

1933

const float c = 1.129999995232f,

1934

d = 0.141381442547f;

1935

#else

1936

const float c = 1.129999995232f,

d = 0.141377761960f;

#endif

F t = rsqrt(l);

auto lo = l * 12.92f;

1941

auto hi = mad(t, mad(t, -0.0024542345f, 0.013832027f), c)

1942

* rcp(d + t);

1943

return apply_sign(if_then_else(l < 0.00465985f, lo, hi), sign);

};

r = fn(r);

g = fn(g);

b = fn(b);

Mike Klein

a07e430

2017-08-09 13:51:35 -0400

[diff] [blame]

1948

}

1949

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1950

STAGE(load_a8, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1951

auto ptr = ptr_at_xy<const uint8_t>(ctx, dx,dy);

Mike Klein

2017-02-24 09:05:14 -0500

[diff] [blame]

1952

1953

r = g = b = 0.0f;

Mike Klein

2017-04-07 13:09:29 -0400

[diff] [blame]

1954

a = from_byte(load<U8>(ptr, tail));

Mike Klein

2017-02-24 09:05:14 -0500

[diff] [blame]

1955

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1956

STAGE(load_a8_dst, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1957

auto ptr = ptr_at_xy<const uint8_t>(ctx, dx,dy);

Mike Reed

2017-06-27 16:58:00 -0400

[diff] [blame]

1958

1959

dr = dg = db = 0.0f;

1960

da = from_byte(load<U8>(ptr, tail));

1961

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1962

STAGE(gather_a8, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

2017-04-06 16:32:29 -0400

[diff] [blame]

1963

const uint8_t* ptr;

1964

U32 ix = ix_and_ptr(&ptr, ctx, r,g);

1965

r = g = b = 0.0f;

Mike Klein

2017-04-07 13:09:29 -0400

[diff] [blame]

1966

a = from_byte(gather(ptr, ix));

Mike Klein

2017-04-06 16:32:29 -0400

[diff] [blame]

1967

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1968

STAGE(store_a8, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1969

auto ptr = ptr_at_xy<uint8_t>(ctx, dx,dy);

Mike Klein

2017-02-24 09:05:14 -0500

[diff] [blame]

1970

Mike Klein

2017-12-15 09:55:03 -0500

[diff] [blame]

1971

U8 packed = pack(pack(to_unorm(a, 255)));

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

1972

store(ptr, packed, tail);

Mike Klein

2017-02-24 09:05:14 -0500

[diff] [blame]

1973

}

1974

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1975

STAGE(load_565, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1976

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx,dy);

Mike Klein

2017-02-23 13:03:57 -0500

[diff] [blame]

1977

Mike Klein

5224f46

2017-03-07 17:29:54 -0500

[diff] [blame]

1978

from_565(load<U16>(ptr, tail), &r,&g,&b);

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1979

a = 1.0f;

Mike Klein

2017-02-23 13:03:57 -0500

[diff] [blame]

1980

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1981

STAGE(load_565_dst, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1982

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx,dy);

Mike Reed

2017-06-27 16:58:00 -0400

[diff] [blame]

1983

1984

from_565(load<U16>(ptr, tail), &dr,&dg,&db);

1985

da = 1.0f;

1986

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1987

STAGE(gather_565, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

2017-04-06 16:32:29 -0400

[diff] [blame]

1988

const uint16_t* ptr;

1989

U32 ix = ix_and_ptr(&ptr, ctx, r,g);

1990

from_565(gather(ptr, ix), &r,&g,&b);

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1991

a = 1.0f;

Mike Klein

2017-04-06 16:32:29 -0400

[diff] [blame]

1992

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1993

STAGE(store_565, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1994

auto ptr = ptr_at_xy<uint16_t>(ctx, dx,dy);

Mike Klein

2017-02-23 13:03:57 -0500

[diff] [blame]

1995

Mike Klein

2017-12-15 09:55:03 -0500

[diff] [blame]

1996

U16 px = pack( to_unorm(r, 31) << 11

1997

| to_unorm(g, 63) << 5

1998

| to_unorm(b, 31) );

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

1999

store(ptr, px, tail);

Mike Klein

2017-02-23 13:03:57 -0500

[diff] [blame]

2000

}

2001

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2002

STAGE(load_4444, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

2003

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx,dy);

Mike Klein

2017-03-31 13:52:45 -0400

[diff] [blame]

2004

from_4444(load<U16>(ptr, tail), &r,&g,&b,&a);

2005

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2006

STAGE(load_4444_dst, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

2007

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx,dy);

Mike Reed

2017-06-27 16:58:00 -0400

[diff] [blame]

2008

from_4444(load<U16>(ptr, tail), &dr,&dg,&db,&da);

2009

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2010

STAGE(gather_4444, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

2017-04-06 16:32:29 -0400

[diff] [blame]

2011

const uint16_t* ptr;

2012

U32 ix = ix_and_ptr(&ptr, ctx, r,g);

2013

from_4444(gather(ptr, ix), &r,&g,&b,&a);

2014

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2015

STAGE(store_4444, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

2016

auto ptr = ptr_at_xy<uint16_t>(ctx, dx,dy);

Mike Klein

2017-12-15 09:55:03 -0500

[diff] [blame]

2017

U16 px = pack( to_unorm(r, 15) << 12

2018

| to_unorm(g, 15) << 8

2019

| to_unorm(b, 15) << 4

2020

| to_unorm(a, 15) );

Mike Klein

2017-03-31 13:52:45 -0400

[diff] [blame]

2021

store(ptr, px, tail);

2022

}

2023

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2024

STAGE(load_8888, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

2025

auto ptr = ptr_at_xy<const uint32_t>(ctx, dx,dy);

Mike Klein

2017-04-06 15:04:05 -0400

[diff] [blame]

2026

from_8888(load<U32>(ptr, tail), &r,&g,&b,&a);

2027

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2028

STAGE(load_8888_dst, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

2029

auto ptr = ptr_at_xy<const uint32_t>(ctx, dx,dy);

Mike Reed

2017-06-27 16:58:00 -0400

[diff] [blame]

2030

from_8888(load<U32>(ptr, tail), &dr,&dg,&db,&da);

2031

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2032

STAGE(gather_8888, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

2017-04-06 15:04:05 -0400

[diff] [blame]

2033

const uint32_t* ptr;

2034

U32 ix = ix_and_ptr(&ptr, ctx, r,g);

2035

from_8888(gather(ptr, ix), &r,&g,&b,&a);

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

2036

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2037

STAGE(store_8888, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

2038

auto ptr = ptr_at_xy<uint32_t>(ctx, dx,dy);

Mike Klein

3b92b69

2017-07-18 11:30:25 -0400

[diff] [blame]

2039

Mike Klein

2017-12-15 09:55:03 -0500

[diff] [blame]

2040

U32 px = to_unorm(r, 255)

2041

| to_unorm(g, 255) << 8

2042

| to_unorm(b, 255) << 16

2043

| to_unorm(a, 255) << 24;

Mike Klein

3b92b69

2017-07-18 11:30:25 -0400

[diff] [blame]

2044

store(ptr, px, tail);

2045

}

2046

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2047

STAGE(load_rg88, const SkRasterPipeline_MemoryCtx* ctx) {

Robert Phillips

2019-09-04 15:05:35 -0400

[diff] [blame]

2048

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx, dy);

2049

from_88(load<U16>(ptr, tail), &r, &g);

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2050

b = 0;

2051

a = 1;

Robert Phillips

2019-09-04 15:05:35 -0400

[diff] [blame]

2052

}

2053

STAGE(load_rg88_dst, const SkRasterPipeline_MemoryCtx* ctx) {

2054

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx, dy);

2055

from_88(load<U16>(ptr, tail), &dr, &dg);

db = 0;

da = 1;

}

STAGE(gather_rg88, const SkRasterPipeline_GatherCtx* ctx) {

2060

const uint16_t* ptr;

2061

U32 ix = ix_and_ptr(&ptr, ctx, r, g);

2062

from_88(gather(ptr, ix), &r, &g);

2063

b = 0;

2064

a = 1;

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2065

}

2066

STAGE(store_rg88, const SkRasterPipeline_MemoryCtx* ctx) {

Robert Phillips

2019-09-04 15:05:35 -0400

[diff] [blame]

2067

auto ptr = ptr_at_xy<uint16_t>(ctx, dx, dy);

2068

U16 px = pack( to_unorm(r, 255) | to_unorm(g, 255) << 8 );

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2069

store(ptr, px, tail);

2070

}

2071

2072

STAGE(load_a16, const SkRasterPipeline_MemoryCtx* ctx) {

2073

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx,dy);

2074

r = g = b = 0;

2075

a = from_short(load<U16>(ptr, tail));

2076

}

Robert Phillips

2019-09-11 17:03:28 -0400

[diff] [blame]

2077

STAGE(load_a16_dst, const SkRasterPipeline_MemoryCtx* ctx) {

2078

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx, dy);

2079

dr = dg = db = 0.0f;

2080

da = from_short(load<U16>(ptr, tail));

2081

}

2082

STAGE(gather_a16, const SkRasterPipeline_GatherCtx* ctx) {

2083

const uint16_t* ptr;

2084

U32 ix = ix_and_ptr(&ptr, ctx, r, g);

2085

r = g = b = 0.0f;

2086

a = from_short(gather(ptr, ix));

2087

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2088

STAGE(store_a16, const SkRasterPipeline_MemoryCtx* ctx) {

2089

auto ptr = ptr_at_xy<uint16_t>(ctx, dx,dy);

2090

2091

U16 px = pack(to_unorm(a, 65535));

2092

store(ptr, px, tail);

2093

}

Robert Phillips

2019-09-11 17:03:28 -0400

[diff] [blame]

2094

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2095

STAGE(load_rg1616, const SkRasterPipeline_MemoryCtx* ctx) {

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

2096

auto ptr = ptr_at_xy<const uint32_t>(ctx, dx, dy);

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2097

b = 0; a = 1;

2098

from_1616(load<U32>(ptr, tail), &r,&g);

2099

}

Robert Phillips

2019-09-11 17:03:28 -0400

[diff] [blame]

2100

STAGE(load_rg1616_dst, const SkRasterPipeline_MemoryCtx* ctx) {

2101

auto ptr = ptr_at_xy<const uint32_t>(ctx, dx, dy);

2102

from_1616(load<U32>(ptr, tail), &dr, &dg);

db = 0;

da = 1;

}

STAGE(gather_rg1616, const SkRasterPipeline_GatherCtx* ctx) {

2107

const uint32_t* ptr;

2108

U32 ix = ix_and_ptr(&ptr, ctx, r, g);

2109

from_1616(gather(ptr, ix), &r, &g);

2110

b = 0;

2111

a = 1;

2112

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2113

STAGE(store_rg1616, const SkRasterPipeline_MemoryCtx* ctx) {

2114

auto ptr = ptr_at_xy<uint32_t>(ctx, dx,dy);

2115

2116

U32 px = to_unorm(r, 65535)

2117

| to_unorm(g, 65535) << 16;

2118

store(ptr, px, tail);

2119

}

Robert Phillips

2019-09-11 17:03:28 -0400

[diff] [blame]

2120

Brian Salomon

2019-06-12 17:42:58 -0400

[diff] [blame]

2121

STAGE(load_16161616, const SkRasterPipeline_MemoryCtx* ctx) {

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

2122

auto ptr = ptr_at_xy<const uint64_t>(ctx, dx, dy);

Brian Salomon

2019-06-12 17:42:58 -0400

[diff] [blame]

2123

from_16161616(load<U64>(ptr, tail), &r,&g, &b, &a);

2124

}

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

2125

STAGE(load_16161616_dst, const SkRasterPipeline_MemoryCtx* ctx) {

2126

auto ptr = ptr_at_xy<const uint64_t>(ctx, dx, dy);

2127

from_16161616(load<U64>(ptr, tail), &dr, &dg, &db, &da);

2128

}

2129

STAGE(gather_16161616, const SkRasterPipeline_GatherCtx* ctx) {

2130

const uint64_t* ptr;

2131

U32 ix = ix_and_ptr(&ptr, ctx, r, g);

2132

from_16161616(gather(ptr, ix), &r, &g, &b, &a);

2133

}

Brian Salomon

2019-06-12 17:42:58 -0400

[diff] [blame]

2134

STAGE(store_16161616, const SkRasterPipeline_MemoryCtx* ctx) {

2135

auto ptr = ptr_at_xy<uint16_t>(ctx, 4*dx,4*dy);

2136

2137

U16 R = pack(to_unorm(r, 65535)),

2138

G = pack(to_unorm(g, 65535)),

2139

B = pack(to_unorm(b, 65535)),

2140

A = pack(to_unorm(a, 65535));

2141

2142

store4(ptr,tail, R,G,B,A);

2143

}

2144

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2145

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2146

STAGE(load_1010102, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-01-25 09:09:32 -0500

[diff] [blame]

2147

auto ptr = ptr_at_xy<const uint32_t>(ctx, dx,dy);

2148

from_1010102(load<U32>(ptr, tail), &r,&g,&b,&a);

2149

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2150

STAGE(load_1010102_dst, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-01-25 09:09:32 -0500

[diff] [blame]

2151

auto ptr = ptr_at_xy<const uint32_t>(ctx, dx,dy);

2152

from_1010102(load<U32>(ptr, tail), &dr,&dg,&db,&da);

2153

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2154

STAGE(gather_1010102, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

2018-01-25 09:09:32 -0500

[diff] [blame]

2155

const uint32_t* ptr;

2156

U32 ix = ix_and_ptr(&ptr, ctx, r,g);

2157

from_1010102(gather(ptr, ix), &r,&g,&b,&a);

2158

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2159

STAGE(store_1010102, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-01-25 09:09:32 -0500

[diff] [blame]

2160

auto ptr = ptr_at_xy<uint32_t>(ctx, dx,dy);

2161

2162

U32 px = to_unorm(r, 1023)

2163

| to_unorm(g, 1023) << 10

2164

| to_unorm(b, 1023) << 20

2165

| to_unorm(a, 3) << 30;

2166

store(ptr, px, tail);

2167

}

2168

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2169

STAGE(load_f16, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

2170

auto ptr = ptr_at_xy<const uint64_t>(ctx, dx,dy);

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

2171

Mike Klein

114e6b3

2017-04-03 22:21:15 -0400

[diff] [blame]

2172

U16 R,G,B,A;

Mike Klein

fa6eb91

2017-04-05 10:18:27 -0400

[diff] [blame]

2173

load4((const uint16_t*)ptr,tail, &R,&G,&B,&A);

Mike Klein

114e6b3

2017-04-03 22:21:15 -0400

[diff] [blame]

r = from_half(R);

g = from_half(G);

b = from_half(B);

a = from_half(A);

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

2178

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2179

STAGE(load_f16_dst, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

2180

auto ptr = ptr_at_xy<const uint64_t>(ctx, dx,dy);

Mike Reed

2017-06-27 16:58:00 -0400

[diff] [blame]

2181

2182

U16 R,G,B,A;

2183

load4((const uint16_t*)ptr,tail, &R,&G,&B,&A);

dr = from_half(R);

dg = from_half(G);

db = from_half(B);

da = from_half(A);

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2189

STAGE(gather_f16, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

5f055f0

2017-04-06 20:02:11 -0400

[diff] [blame]

2190

const uint64_t* ptr;

2191

U32 ix = ix_and_ptr(&ptr, ctx, r,g);

2192

auto px = gather(ptr, ix);

2193

2194

U16 R,G,B,A;

2195

load4((const uint16_t*)&px,0, &R,&G,&B,&A);

r = from_half(R);

g = from_half(G);

b = from_half(B);

a = from_half(A);

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2201

STAGE(store_f16, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

2202

auto ptr = ptr_at_xy<uint64_t>(ctx, dx,dy);

Mike Klein

fa6eb91

2017-04-05 10:18:27 -0400

[diff] [blame]

2203

store4((uint16_t*)ptr,tail, to_half(r)

2204

, to_half(g)

2205

, to_half(b)

2206

, to_half(a));

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

2207

}

2208

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2209

STAGE(store_u16_be, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

2210

auto ptr = ptr_at_xy<uint16_t>(ctx, 4*dx,dy);

Mike Klein

3146bb9

2017-04-05 14:45:02 -0400

[diff] [blame]

2211

Mike Klein

2017-12-15 09:55:03 -0500

[diff] [blame]

2212

U16 R = bswap(pack(to_unorm(r, 65535))),

2213

G = bswap(pack(to_unorm(g, 65535))),

2214

B = bswap(pack(to_unorm(b, 65535))),

2215

A = bswap(pack(to_unorm(a, 65535)));

Mike Klein

3146bb9

2017-04-05 14:45:02 -0400

[diff] [blame]

2216

Mike Klein

b382173

2017-04-17 10:58:05 -0400

[diff] [blame]

2217

store4(ptr,tail, R,G,B,A);

Mike Klein

3146bb9

2017-04-05 14:45:02 -0400

[diff] [blame]

2218

}

2219

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2220

STAGE(load_af16, const SkRasterPipeline_MemoryCtx* ctx) {

2221

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx,dy);

2222

2223

U16 A = load<U16>((const uint16_t*)ptr, tail);

r = 0;

g = 0;

b = 0;

a = from_half(A);

}

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

2229

STAGE(load_af16_dst, const SkRasterPipeline_MemoryCtx* ctx) {

2230

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx, dy);

2231

2232

U16 A = load<U16>((const uint16_t*)ptr, tail);

dr = dg = db = 0.0f;

da = from_half(A);

}

STAGE(gather_af16, const SkRasterPipeline_GatherCtx* ctx) {

2237

const uint16_t* ptr;

2238

U32 ix = ix_and_ptr(&ptr, ctx, r, g);

2239

r = g = b = 0.0f;

2240

a = from_half(gather(ptr, ix));

2241

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2242

STAGE(store_af16, const SkRasterPipeline_MemoryCtx* ctx) {

2243

auto ptr = ptr_at_xy<uint16_t>(ctx, dx,dy);

2244

store(ptr, to_half(a), tail);

2245

}

2246

2247

STAGE(load_rgf16, const SkRasterPipeline_MemoryCtx* ctx) {

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

2248

auto ptr = ptr_at_xy<const uint32_t>(ctx, dx, dy);

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2249

2250

U16 R,G;

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

2251

load2((const uint16_t*)ptr, tail, &R, &G);

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2252

r = from_half(R);

2253

g = from_half(G);

2254

b = 0;

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

2255

a = 1;

2256

}

2257

STAGE(load_rgf16_dst, const SkRasterPipeline_MemoryCtx* ctx) {

2258

auto ptr = ptr_at_xy<const uint32_t>(ctx, dx, dy);

2259

2260

U16 R,G;

2261

load2((const uint16_t*)ptr, tail, &R, &G);

dr = from_half(R);

dg = from_half(G);

db = 0;

da = 1;

}

STAGE(gather_rgf16, const SkRasterPipeline_GatherCtx* ctx) {

2268

const uint32_t* ptr;

2269

U32 ix = ix_and_ptr(&ptr, ctx, r, g);

2270

auto px = gather(ptr, ix);

2271

2272

U16 R,G;

2273

load2((const uint16_t*)&px, 0, &R, &G);

r = from_half(R);

g = from_half(G);

b = 0;

a = 1;

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2278

}

2279

STAGE(store_rgf16, const SkRasterPipeline_MemoryCtx* ctx) {

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

2280

auto ptr = ptr_at_xy<uint32_t>(ctx, dx, dy);

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2281

store2((uint16_t*)ptr, tail, to_half(r)

, to_half(g));

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2285

STAGE(load_f32, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-06-26 11:43:06 -0400

[diff] [blame]

2286

auto ptr = ptr_at_xy<const float>(ctx, 4*dx,4*dy);

Mike Klein

14987eb

2017-04-06 10:22:26 -0400

[diff] [blame]

2287

load4(ptr,tail, &r,&g,&b,&a);

2288

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2289

STAGE(load_f32_dst, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-06-26 11:43:06 -0400

[diff] [blame]

2290

auto ptr = ptr_at_xy<const float>(ctx, 4*dx,4*dy);

Mike Reed

2017-06-27 16:58:00 -0400

[diff] [blame]

2291

load4(ptr,tail, &dr,&dg,&db,&da);

2292

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2293

STAGE(gather_f32, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

2018-06-26 11:43:06 -0400

[diff] [blame]

2294

const float* ptr;

2295

U32 ix = ix_and_ptr(&ptr, ctx, r,g);

2296

r = gather(ptr, 4*ix + 0);

2297

g = gather(ptr, 4*ix + 1);

2298

b = gather(ptr, 4*ix + 2);

2299

a = gather(ptr, 4*ix + 3);

2300

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2301

STAGE(store_f32, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-06-26 11:43:06 -0400

[diff] [blame]

2302

auto ptr = ptr_at_xy<float>(ctx, 4*dx,4*dy);

Mike Klein

fa6eb91

2017-04-05 10:18:27 -0400

[diff] [blame]

2303

store4(ptr,tail, r,g,b,a);

Mike Klein

94fc0fe

2017-03-03 14:05:32 -0500

[diff] [blame]

2304

}

2305

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2306

STAGE(load_rgf32, const SkRasterPipeline_MemoryCtx* ctx) {

2307

auto ptr = ptr_at_xy<const float>(ctx, 2*dx,2*dy);

2308

load2(ptr, tail, &r, &g);

b = 0;

a = 1;

}

STAGE(store_rgf32, const SkRasterPipeline_MemoryCtx* ctx) {

2313

auto ptr = ptr_at_xy<float>(ctx, 2*dx,2*dy);

2314

store2(ptr, tail, r, g);

2315

}

2316

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2317

SI F exclusive_repeat(F v, const SkRasterPipeline_TileCtx* ctx) {

Mike Klein

2017-09-22 15:32:59 -0400

[diff] [blame]

2318

return v - floor_(v*ctx->invScale)*ctx->scale;

Mike Klein

0cc60b8

2017-06-22 11:00:17 -0700

[diff] [blame]

2319

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2320

SI F exclusive_mirror(F v, const SkRasterPipeline_TileCtx* ctx) {

Mike Reed

51e46d5

2017-06-23 14:21:25 -0400

[diff] [blame]

2321

auto limit = ctx->scale;

2322

auto invLimit = ctx->invScale;

Mike Klein

2017-09-22 15:32:59 -0400

[diff] [blame]

2323

return abs_( (v-limit) - (limit+limit)*floor_((v-limit)*(invLimit*0.5f)) - limit );

Mike Klein

0cc60b8

2017-06-22 11:00:17 -0700

[diff] [blame]

2324

}

Mike Klein

2017-09-22 15:32:59 -0400

[diff] [blame]

2325

// Tile x or y to [0,limit) == [0,limit - 1 ulp] (think, sampling from images).

2326

// The gather stages will hard clamp the output of these stages to [0,limit)...

2327

// we just need to do the basic repeat or mirroring.

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2328

STAGE(repeat_x, const SkRasterPipeline_TileCtx* ctx) { r = exclusive_repeat(r, ctx); }

2329

STAGE(repeat_y, const SkRasterPipeline_TileCtx* ctx) { g = exclusive_repeat(g, ctx); }

2330

STAGE(mirror_x, const SkRasterPipeline_TileCtx* ctx) { r = exclusive_mirror(r, ctx); }

2331

STAGE(mirror_y, const SkRasterPipeline_TileCtx* ctx) { g = exclusive_mirror(g, ctx); }

Mike Klein

0cc60b8

2017-06-22 11:00:17 -0700

[diff] [blame]

2332

Mike Klein

a3b8895

2017-10-05 13:21:31 -0400

[diff] [blame]

2333

STAGE( clamp_x_1, Ctx::None) { r = clamp_01(r); }

2334

STAGE(repeat_x_1, Ctx::None) { r = clamp_01(r - floor_(r)); }

2335

STAGE(mirror_x_1, Ctx::None) { r = clamp_01(abs_( (r-1.0f) - two(floor_((r-1.0f)*0.5f)) - 1.0f )); }

Mike Klein

9f85d68

2017-05-23 07:52:01 -0400

[diff] [blame]

2336

Mike Reed

2018-02-16 12:40:18 -0500

[diff] [blame]

2337

// Decal stores a 32bit mask after checking the coordinate (x and/or y) against its domain:

2338

// mask == 0x00000000 if the coordinate(s) are out of bounds

2339

// mask == 0xFFFFFFFF if the coordinate(s) are in bounds

2340

// After the gather stage, the r,g,b,a values are AND'd with this mask, setting them to 0

2341

// if either of the coordinates were out of bounds.

2342

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2343

STAGE(decal_x, SkRasterPipeline_DecalTileCtx* ctx) {

Mike Reed

2018-02-16 12:40:18 -0500

[diff] [blame]

2344

auto w = ctx->limit_x;

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2345

sk_unaligned_store(ctx->mask, cond_to_mask((0 <= r) & (r < w)));

Mike Reed

2018-02-16 12:40:18 -0500

[diff] [blame]

2346

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2347

STAGE(decal_y, SkRasterPipeline_DecalTileCtx* ctx) {

Mike Reed

2018-02-16 12:40:18 -0500

[diff] [blame]

2348

auto h = ctx->limit_y;

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2349

sk_unaligned_store(ctx->mask, cond_to_mask((0 <= g) & (g < h)));

Mike Reed

2018-02-16 12:40:18 -0500

[diff] [blame]

2350

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2351

STAGE(decal_x_and_y, SkRasterPipeline_DecalTileCtx* ctx) {

Mike Reed

2018-02-16 12:40:18 -0500

[diff] [blame]

2352

auto w = ctx->limit_x;

2353

auto h = ctx->limit_y;

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2354

sk_unaligned_store(ctx->mask,

Mike Reed

2018-02-16 12:40:18 -0500

[diff] [blame]

2355

cond_to_mask((0 <= r) & (r < w) & (0 <= g) & (g < h)));

2356

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2357

STAGE(check_decal_mask, SkRasterPipeline_DecalTileCtx* ctx) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2358

auto mask = sk_unaligned_load<U32>(ctx->mask);

Mike Reed

2018-02-16 12:40:18 -0500

[diff] [blame]

2359

r = bit_cast<F>( bit_cast<U32>(r) & mask );

2360

g = bit_cast<F>( bit_cast<U32>(g) & mask );

2361

b = bit_cast<F>( bit_cast<U32>(b) & mask );

2362

a = bit_cast<F>( bit_cast<U32>(a) & mask );

2363

}

2364

Mike Klein

b1df5e5

2018-10-17 17:06:03 -0400

[diff] [blame]

2365

STAGE(alpha_to_gray, Ctx::None) {

r = g = b = a;

a = 1;

}

STAGE(alpha_to_gray_dst, Ctx::None) {

2370

dr = dg = db = da;

2371

da = 1;

2372

}

Mike Klein

da69d59

2019-07-11 07:38:31 -0500

[diff] [blame]

2373

STAGE(bt709_luminance_or_luma_to_alpha, Ctx::None) {

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

2374

a = r*0.2126f + g*0.7152f + b*0.0722f;

Mike Klein

e9ed07d

2017-03-07 12:28:11 -0500

[diff] [blame]

r = g = b = 0;

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

2378

STAGE(matrix_translate, const float* m) {

Mike Reed

7aad8cc

2017-07-05 12:33:06 -0400

[diff] [blame]

2379

r += m[0];

2380

g += m[1];

2381

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

2382

STAGE(matrix_scale_translate, const float* m) {

Mike Klein

f04ff76

2017-10-20 15:50:12 -0400

[diff] [blame]

2383

r = mad(r,m[0], m[2]);

2384

g = mad(g,m[1], m[3]);

Mike Reed

7aad8cc

2017-07-05 12:33:06 -0400

[diff] [blame]

2385

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

2386

STAGE(matrix_2x3, const float* m) {

Mike Klein

b8d5275

2017-02-16 10:21:29 -0500

[diff] [blame]

2387

auto R = mad(r,m[0], mad(g,m[2], m[4])),

2388

G = mad(r,m[1], mad(g,m[3], m[5]));

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

2389

r = R;

2390

g = G;

2391

}

Mike Klein

b82edcc

2018-07-10 18:25:03 +0000

[diff] [blame]

2392

STAGE(matrix_3x3, const float* m) {

2393

auto R = mad(r,m[0], mad(g,m[3], b*m[6])),

2394

G = mad(r,m[1], mad(g,m[4], b*m[7])),

2395

B = mad(r,m[2], mad(g,m[5], b*m[8]));

r = R;

g = G;

b = B;

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

2400

STAGE(matrix_3x4, const float* m) {

Mike Klein

b8d5275

2017-02-16 10:21:29 -0500

[diff] [blame]

2401

auto R = mad(r,m[0], mad(g,m[3], mad(b,m[6], m[ 9]))),

2402

G = mad(r,m[1], mad(g,m[4], mad(b,m[7], m[10]))),

2403

B = mad(r,m[2], mad(g,m[5], mad(b,m[8], m[11])));

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

r = R;

g = G;

b = B;

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

2408

STAGE(matrix_4x5, const float* m) {

Mike Reed

361a640

2019-04-23 12:19:00 -0400

[diff] [blame]

2409

auto R = mad(r,m[ 0], mad(g,m[ 1], mad(b,m[ 2], mad(a,m[ 3], m[ 4])))),

2410

G = mad(r,m[ 5], mad(g,m[ 6], mad(b,m[ 7], mad(a,m[ 8], m[ 9])))),

2411

B = mad(r,m[10], mad(g,m[11], mad(b,m[12], mad(a,m[13], m[14])))),

2412

A = mad(r,m[15], mad(g,m[16], mad(b,m[17], mad(a,m[18], m[19]))));

Mike Klein

e9ed07d

2017-03-07 12:28:11 -0500

[diff] [blame]

r = R;

g = G;

b = B;

a = A;

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

2418

STAGE(matrix_4x3, const float* m) {

Mike Reed

0264095

2017-05-19 15:32:13 -0400

[diff] [blame]

auto X = r,

Y = g;

r = mad(X, m[0], mad(Y, m[4], m[ 8]));

2423

g = mad(X, m[1], mad(Y, m[5], m[ 9]));

2424

b = mad(X, m[2], mad(Y, m[6], m[10]));

2425

a = mad(X, m[3], mad(Y, m[7], m[11]));

2426

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

2427

STAGE(matrix_perspective, const float* m) {

Mike Klein

11d2df0

2017-02-24 11:51:36 -0500

[diff] [blame]

2428

// N.B. Unlike the other matrix_ stages, this matrix is row-major.

Mike Klein

11d2df0

2017-02-24 11:51:36 -0500

[diff] [blame]

2429

auto R = mad(r,m[0], mad(g,m[1], m[2])),

2430

G = mad(r,m[3], mad(g,m[4], m[5])),

2431

Z = mad(r,m[6], mad(g,m[7], m[8]));

2432

r = R * rcp(Z);

2433

g = G * rcp(Z);

2434

}

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

2435

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2436

SI void gradient_lookup(const SkRasterPipeline_GradientCtx* c, U32 idx, F t,

Herb Derby

2017-05-15 10:49:39 -0400

[diff] [blame]

2437

F* r, F* g, F* b, F* a) {

2438

F fr, br, fg, bg, fb, bb, fa, ba;

Mike Klein

106e17a

2017-12-12 17:07:49 -0500

[diff] [blame]

2439

#if defined(JUMPER_IS_HSW) || defined(JUMPER_IS_AVX512)

Herb Derby

2017-05-15 10:49:39 -0400

[diff] [blame]

2440

if (c->stopCount <=8) {

2441

fr = _mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[0]), idx);

2442

br = _mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[0]), idx);

2443

fg = _mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[1]), idx);

2444

bg = _mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[1]), idx);

2445

fb = _mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[2]), idx);

2446

bb = _mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[2]), idx);

2447

fa = _mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[3]), idx);

2448

ba = _mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[3]), idx);

} else

#endif

{

fr = gather(c->fs[0], idx);

2453

br = gather(c->bs[0], idx);

2454

fg = gather(c->fs[1], idx);

2455

bg = gather(c->bs[1], idx);

2456

fb = gather(c->fs[2], idx);

2457

bb = gather(c->bs[2], idx);

2458

fa = gather(c->fs[3], idx);

2459

ba = gather(c->bs[3], idx);

Herb Derby

2017-04-10 10:52:34 -0400

[diff] [blame]

2460

}

2461

Herb Derby

2017-05-15 10:49:39 -0400

[diff] [blame]

*r = mad(t, fr, br);

*g = mad(t, fg, bg);

*b = mad(t, fb, bb);

*a = mad(t, fa, ba);

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2468

STAGE(evenly_spaced_gradient, const SkRasterPipeline_GradientCtx* c) {

Herb Derby

2017-05-15 10:49:39 -0400

[diff] [blame]

2469

auto t = r;

2470

auto idx = trunc_(t * (c->stopCount-1));

2471

gradient_lookup(c, idx, t, &r, &g, &b, &a);

2472

}

2473

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2474

STAGE(gradient, const SkRasterPipeline_GradientCtx* c) {

Herb Derby

2017-05-15 10:49:39 -0400

[diff] [blame]

auto t = r;

U32 idx = 0;

// N.B. The loop starts at 1 because idx 0 is the color to use before the first stop.

2479

for (size_t i = 1; i < c->stopCount; i++) {

2480

idx += if_then_else(t >= c->ts[i], U32(1), U32(0));

2481

}

2482

2483

gradient_lookup(c, idx, t, &r, &g, &b, &a);

Herb Derby

2017-04-10 10:52:34 -0400

[diff] [blame]

2484

}

2485

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

2486

STAGE(evenly_spaced_2_stop_gradient, const void* ctx) {

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2487

// TODO: Rename Ctx SkRasterPipeline_EvenlySpaced2StopGradientCtx.

Herb Derby

2017-04-10 10:52:34 -0400

[diff] [blame]

2488

struct Ctx { float f[4], b[4]; };

Mike Klein

8a823fa

2017-04-05 17:29:26 -0400

[diff] [blame]

2489

auto c = (const Ctx*)ctx;

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

2490

2491

auto t = r;

Herb Derby

2017-04-10 10:52:34 -0400

[diff] [blame]

2492

r = mad(t, c->f[0], c->b[0]);

2493

g = mad(t, c->f[1], c->b[1]);

2494

b = mad(t, c->f[2], c->b[2]);

2495

a = mad(t, c->f[3], c->b[3]);

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

2496

}

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2497

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

2498

STAGE(xy_to_unit_angle, Ctx::None) {

Herb Derby

7eb8698

2017-05-02 19:04:39 -0400

[diff] [blame]

F X = r,

Y = g;

F xabs = abs_(X),

yabs = abs_(Y);

F slope = min(xabs, yabs)/max(xabs, yabs);

2505

F s = slope * slope;

2506

2507

// Use a 7th degree polynomial to approximate atan.

2508

// This was generated using sollya.gforge.inria.fr.

2509

// A float optimized polynomial was generated using the following command.

2510

// P1 = fpminimax((1/(2*Pi))*atan(x),[|1,3,5,7|],[|24...|],[2^(-40),1],relative);

2511

F phi = slope

2512

* (0.15912117063999176025390625f + s

2513

* (-5.185396969318389892578125e-2f + s

2514

* (2.476101927459239959716796875e-2f + s

2515

* (-7.0547382347285747528076171875e-3f))));

2516

2517

phi = if_then_else(xabs < yabs, 1.0f/4.0f - phi, phi);

2518

phi = if_then_else(X < 0.0f , 1.0f/2.0f - phi, phi);

2519

phi = if_then_else(Y < 0.0f , 1.0f - phi , phi);

2520

phi = if_then_else(phi != phi , 0 , phi); // Check for NaN.

r = phi;

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

2524

STAGE(xy_to_radius, Ctx::None) {

Herb Derby

090fbf8

2017-05-08 15:10:36 -0400

[diff] [blame]

2525

F X2 = r * r,

2526

Y2 = g * g;

Mike Klein

fd35c74

2017-05-15 15:55:54 -0400

[diff] [blame]

2527

r = sqrt_(X2 + Y2);

Herb Derby

090fbf8

2017-05-08 15:10:36 -0400

[diff] [blame]

2528

}

2529

Yuqian Li

2018-01-04 10:08:42 -0500

[diff] [blame]

2530

// Please see https://skia.org/dev/design/conical for how our 2pt conical shader works.

2531

2532

STAGE(negate_x, Ctx::None) { r = -r; }

2533

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2534

STAGE(xy_to_2pt_conical_strip, const SkRasterPipeline_2PtConicalCtx* ctx) {

Yuqian Li

2018-01-04 10:08:42 -0500

[diff] [blame]

2535

F x = r, y = g, &t = r;

2536

t = x + sqrt_(ctx->fP0 - y*y); // ctx->fP0 = r0 * r0

2537

}

2538

2539

STAGE(xy_to_2pt_conical_focal_on_circle, Ctx::None) {

2540

F x = r, y = g, &t = r;

2541

t = x + y*y / x; // (x^2 + y^2) / x

2542

}

2543

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2544

STAGE(xy_to_2pt_conical_well_behaved, const SkRasterPipeline_2PtConicalCtx* ctx) {

Yuqian Li

2018-01-04 10:08:42 -0500

[diff] [blame]

2545

F x = r, y = g, &t = r;

2546

t = sqrt_(x*x + y*y) - x * ctx->fP0; // ctx->fP0 = 1/r1

2547

}

2548

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2549

STAGE(xy_to_2pt_conical_greater, const SkRasterPipeline_2PtConicalCtx* ctx) {

Yuqian Li

2018-01-04 10:08:42 -0500

[diff] [blame]

2550

F x = r, y = g, &t = r;

2551

t = sqrt_(x*x - y*y) - x * ctx->fP0; // ctx->fP0 = 1/r1

2552

}

2553

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2554

STAGE(xy_to_2pt_conical_smaller, const SkRasterPipeline_2PtConicalCtx* ctx) {

Yuqian Li

2018-01-04 10:08:42 -0500

[diff] [blame]

2555

F x = r, y = g, &t = r;

2556

t = -sqrt_(x*x - y*y) - x * ctx->fP0; // ctx->fP0 = 1/r1

2557

}

2558

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2559

STAGE(alter_2pt_conical_compensate_focal, const SkRasterPipeline_2PtConicalCtx* ctx) {

Yuqian Li

2018-01-04 10:08:42 -0500

[diff] [blame]

2560

F& t = r;

2561

t = t + ctx->fP1; // ctx->fP1 = f

2562

}

2563

2564

STAGE(alter_2pt_conical_unswap, Ctx::None) {

F& t = r;

t = 1 - t;

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2569

STAGE(mask_2pt_conical_nan, SkRasterPipeline_2PtConicalCtx* c) {

Yuqian Li

2018-01-04 10:08:42 -0500

[diff] [blame]

2570

F& t = r;

2571

auto is_degenerate = (t != t); // NaN

2572

t = if_then_else(is_degenerate, F(0), t);

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2573

sk_unaligned_store(&c->fMask, cond_to_mask(!is_degenerate));

Yuqian Li

2018-01-04 10:08:42 -0500

[diff] [blame]

2574

}

2575

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2576

STAGE(mask_2pt_conical_degenerates, SkRasterPipeline_2PtConicalCtx* c) {

Yuqian Li

2018-01-04 10:08:42 -0500

[diff] [blame]

2577

F& t = r;

2578

auto is_degenerate = (t <= 0) | (t != t);

2579

t = if_then_else(is_degenerate, F(0), t);

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2580

sk_unaligned_store(&c->fMask, cond_to_mask(!is_degenerate));

Yuqian Li

2018-01-04 10:08:42 -0500

[diff] [blame]

2581

}

2582

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

2583

STAGE(apply_vector_mask, const uint32_t* ctx) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2584

const U32 mask = sk_unaligned_load<U32>(ctx);

Florin Malita

9026fe1

2017-06-29 11:03:45 -0400

[diff] [blame]

2585

r = bit_cast<F>(bit_cast<U32>(r) & mask);

2586

g = bit_cast<F>(bit_cast<U32>(g) & mask);

2587

b = bit_cast<F>(bit_cast<U32>(b) & mask);

2588

a = bit_cast<F>(bit_cast<U32>(a) & mask);

Florin Malita

2e40900

2017-06-28 14:46:54 -0400

[diff] [blame]

2589

}

2590

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2591

STAGE(save_xy, SkRasterPipeline_SamplerCtx* c) {

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2592

// Whether bilinear or bicubic, all sample points are at the same fractional offset (fx,fy).

2593

// They're either the 4 corners of a logical 1x1 pixel or the 16 corners of a 3x3 grid

2594

// surrounding (x,y) at (0.5,0.5) off-center.

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

2595

F fx = fract(r + 0.5f),

2596

fy = fract(g + 0.5f);

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2597

2598

// Samplers will need to load x and fx, or y and fy.

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2599

sk_unaligned_store(c->x, r);

2600

sk_unaligned_store(c->y, g);

2601

sk_unaligned_store(c->fx, fx);

2602

sk_unaligned_store(c->fy, fy);

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2603

}

2604

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2605

STAGE(accumulate, const SkRasterPipeline_SamplerCtx* c) {

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2606

// Bilinear and bicubic filters are both separable, so we produce independent contributions

2607

// from x and y, multiplying them together here to get each pixel's total scale factor.

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2608

auto scale = sk_unaligned_load<F>(c->scalex)

2609

* sk_unaligned_load<F>(c->scaley);

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2610

dr = mad(scale, r, dr);

2611

dg = mad(scale, g, dg);

2612

db = mad(scale, b, db);

2613

da = mad(scale, a, da);

2614

}

2615

2616

// In bilinear interpolation, the 4 pixels at +/- 0.5 offsets from the sample pixel center

2617

// are combined in direct proportion to their area overlapping that logical query pixel.

2618

// At positive offsets, the x-axis contribution to that rectangle is fx, or (1-fx) at negative x.

2619

// The y-axis is symmetric.

2620

2621

template <int kScale>

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2622

SI void bilinear_x(SkRasterPipeline_SamplerCtx* ctx, F* x) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2623

*x = sk_unaligned_load<F>(ctx->x) + (kScale * 0.5f);

2624

F fx = sk_unaligned_load<F>(ctx->fx);

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2625

2626

F scalex;

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

2627

if (kScale == -1) { scalex = 1.0f - fx; }

2628

if (kScale == +1) { scalex = fx; }

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2629

sk_unaligned_store(ctx->scalex, scalex);

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2630

}

2631

template <int kScale>

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2632

SI void bilinear_y(SkRasterPipeline_SamplerCtx* ctx, F* y) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2633

*y = sk_unaligned_load<F>(ctx->y) + (kScale * 0.5f);

2634

F fy = sk_unaligned_load<F>(ctx->fy);

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2635

2636

F scaley;

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

2637

if (kScale == -1) { scaley = 1.0f - fy; }

2638

if (kScale == +1) { scaley = fy; }

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2639

sk_unaligned_store(ctx->scaley, scaley);

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2640

}

2641

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2642

STAGE(bilinear_nx, SkRasterPipeline_SamplerCtx* ctx) { bilinear_x<-1>(ctx, &r); }

2643

STAGE(bilinear_px, SkRasterPipeline_SamplerCtx* ctx) { bilinear_x<+1>(ctx, &r); }

2644

STAGE(bilinear_ny, SkRasterPipeline_SamplerCtx* ctx) { bilinear_y<-1>(ctx, &g); }

2645

STAGE(bilinear_py, SkRasterPipeline_SamplerCtx* ctx) { bilinear_y<+1>(ctx, &g); }

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2646

2647

2648

// In bicubic interpolation, the 16 pixels and +/- 0.5 and +/- 1.5 offsets from the sample

2649

// pixel center are combined with a non-uniform cubic filter, with higher values near the center.

2650

//

2651

// We break this function into two parts, one for near 0.5 offsets and one for far 1.5 offsets.

2652

// See GrCubicEffect for details of this particular filter.

2653

2654

SI F bicubic_near(F t) {

2655

// 1/18 + 9/18t + 27/18t^2 - 21/18t^3 == t ( t ( -21/18t + 27/18) + 9/18) + 1/18

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

2656

return mad(t, mad(t, mad((-21/18.0f), t, (27/18.0f)), (9/18.0f)), (1/18.0f));

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2657

}

2658

SI F bicubic_far(F t) {

2659

// 0/18 + 0/18*t - 6/18t^2 + 7/18t^3 == t^2 (7/18t - 6/18)

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

2660

return (t*t)*mad((7/18.0f), t, (-6/18.0f));

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2661

}

2662

2663

template <int kScale>

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2664

SI void bicubic_x(SkRasterPipeline_SamplerCtx* ctx, F* x) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2665

*x = sk_unaligned_load<F>(ctx->x) + (kScale * 0.5f);

2666

F fx = sk_unaligned_load<F>(ctx->fx);

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2667

2668

F scalex;

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

2669

if (kScale == -3) { scalex = bicubic_far (1.0f - fx); }

2670

if (kScale == -1) { scalex = bicubic_near(1.0f - fx); }

2671

if (kScale == +1) { scalex = bicubic_near( fx); }

2672

if (kScale == +3) { scalex = bicubic_far ( fx); }

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2673

sk_unaligned_store(ctx->scalex, scalex);

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2674

}

2675

template <int kScale>

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2676

SI void bicubic_y(SkRasterPipeline_SamplerCtx* ctx, F* y) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2677

*y = sk_unaligned_load<F>(ctx->y) + (kScale * 0.5f);

2678

F fy = sk_unaligned_load<F>(ctx->fy);

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2679

2680

F scaley;

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

2681

if (kScale == -3) { scaley = bicubic_far (1.0f - fy); }

2682

if (kScale == -1) { scaley = bicubic_near(1.0f - fy); }

2683

if (kScale == +1) { scaley = bicubic_near( fy); }

2684

if (kScale == +3) { scaley = bicubic_far ( fy); }

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2685

sk_unaligned_store(ctx->scaley, scaley);

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2686

}

2687

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2688

STAGE(bicubic_n3x, SkRasterPipeline_SamplerCtx* ctx) { bicubic_x<-3>(ctx, &r); }

2689

STAGE(bicubic_n1x, SkRasterPipeline_SamplerCtx* ctx) { bicubic_x<-1>(ctx, &r); }

2690

STAGE(bicubic_p1x, SkRasterPipeline_SamplerCtx* ctx) { bicubic_x<+1>(ctx, &r); }

2691

STAGE(bicubic_p3x, SkRasterPipeline_SamplerCtx* ctx) { bicubic_x<+3>(ctx, &r); }

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2692

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2693

STAGE(bicubic_n3y, SkRasterPipeline_SamplerCtx* ctx) { bicubic_y<-3>(ctx, &g); }

2694

STAGE(bicubic_n1y, SkRasterPipeline_SamplerCtx* ctx) { bicubic_y<-1>(ctx, &g); }

2695

STAGE(bicubic_p1y, SkRasterPipeline_SamplerCtx* ctx) { bicubic_y<+1>(ctx, &g); }

2696

STAGE(bicubic_p3y, SkRasterPipeline_SamplerCtx* ctx) { bicubic_y<+3>(ctx, &g); }

Mike Klein

7fee90c

2017-04-07 16:55:09 -0400

[diff] [blame]

2697

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2698

STAGE(callback, SkRasterPipeline_CallbackCtx* c) {

Mike Klein

c17dc24

2017-04-20 16:21:57 -0400

[diff] [blame]

2699

store4(c->rgba,0, r,g,b,a);

Mike Klein

2017-09-27 11:04:34 -0400

[diff] [blame]

2700

c->fn(c, tail ? tail : N);

Mike Klein

c17dc24

2017-04-20 16:21:57 -0400

[diff] [blame]

2701

load4(c->read_from,0, &r,&g,&b,&a);

Mike Klein

7fee90c

2017-04-07 16:55:09 -0400

[diff] [blame]

2702

}

Mike Klein

c2f876b

2017-08-09 18:23:25 -0400

[diff] [blame]

2703

Mike Reed

019458d

2019-07-17 12:23:24 -0400

[diff] [blame]

2704

// shader: void main(float x, float y, inout half4 color)

2705

// colorfilter: void main(inout half4 color)

Brian Osman

2019-06-19 11:40:33 -0400

[diff] [blame]

2706

STAGE(interpreter, SkRasterPipeline_InterpreterCtx* c) {

Brian Osman

4b202a3

2019-06-21 09:50:29 -0400

[diff] [blame]

2707

// If N is less than the interpreter's VecWidth, then we are doing more work than necessary in

2708

// the interpreter. This is a known issue, and will be addressed at some point.

Mike Reed

8c31f2b

2019-07-16 16:50:14 -0400

[diff] [blame]

2709

float xx[N], yy[N],

2710

rr[N], gg[N], bb[N], aa[N];

Brian Osman

2019-06-19 11:40:33 -0400

[diff] [blame]

2711

Mike Reed

019458d

2019-07-17 12:23:24 -0400

[diff] [blame]

2712

float* args[] = { xx, yy, rr, gg, bb, aa };

2713

float** in_args = args;

2714

int in_count = 6;

Mike Reed

2019-06-20 12:40:30 -0400

[diff] [blame]

2715

Mike Reed

8c31f2b

2019-07-16 16:50:14 -0400

[diff] [blame]

2716

if (c->shaderConvention) {

2717

// our caller must have called seed_shader to set these

2718

sk_unaligned_store(xx, r);

2719

sk_unaligned_store(yy, g);

2720

sk_unaligned_store(rr, F(c->paintColor.fR));

2721

sk_unaligned_store(gg, F(c->paintColor.fG));

2722

sk_unaligned_store(bb, F(c->paintColor.fB));

2723

sk_unaligned_store(aa, F(c->paintColor.fA));

Mike Reed

2019-06-20 12:40:30 -0400

[diff] [blame]

2724

} else {

Mike Reed

019458d

2019-07-17 12:23:24 -0400

[diff] [blame]

2725

in_args += 2; // skip x,y

2726

in_count = 4;

Mike Reed

8c31f2b

2019-07-16 16:50:14 -0400

[diff] [blame]

2727

sk_unaligned_store(rr, r);

2728

sk_unaligned_store(gg, g);

Mike Reed

2019-06-20 12:40:30 -0400

[diff] [blame]

2729

sk_unaligned_store(bb, b);

2730

sk_unaligned_store(aa, a);

Mike Reed

2019-06-20 12:40:30 -0400

[diff] [blame]

2731

}

2732

Brian Osman

b23d66e

2019-09-27 10:25:57 -0400

[diff] [blame]

2733

SkAssertResult(c->byteCode->runStriped(c->fn, tail ? tail : N, in_args, in_count,

2734

nullptr, 0, (const float*)c->inputs, c->ninputs));

Brian Osman

2019-06-19 11:40:33 -0400

[diff] [blame]

2735

2736

r = sk_unaligned_load<F>(rr);

2737

g = sk_unaligned_load<F>(gg);

2738

b = sk_unaligned_load<F>(bb);

2739

a = sk_unaligned_load<F>(aa);

2740

}

2741

Mike Klein

3cbcb73

2017-10-25 12:38:25 -0400

[diff] [blame]

2742

STAGE(gauss_a_to_rgba, Ctx::None) {

2743

// x = 1 - x;

2744

// exp(-x * x * 4) - 0.018f;

2745

// ... now approximate with quartic

2746

//

2747

const float c4 = -2.26661229133605957031f;

2748

const float c3 = 2.89795351028442382812f;

2749

const float c2 = 0.21345567703247070312f;

2750

const float c1 = 0.15489584207534790039f;

2751

const float c0 = 0.00030726194381713867f;

2752

a = mad(a, mad(a, mad(a, mad(a, c4, c3), c2), c1), c0);

r = a;

g = a;

b = a;

}

Mike Klein

1fa9c43

2017-12-11 09:59:47 -0500

[diff] [blame]

2757

Mike Klein

2019-08-13 12:22:17 -0400

[diff] [blame]

2758

SI F tile(F v, SkTileMode mode, float limit, float invLimit) {

2759

// The ix_and_ptr() calls in sample() will clamp tile()'s output, so no need to clamp here.

2760

switch (mode) {

2761

case SkTileMode::kDecal: // TODO, for now fallthrough to clamp

2762

case SkTileMode::kClamp: return v;

2763

case SkTileMode::kRepeat: return v - floor_(v*invLimit)*limit;

2764

case SkTileMode::kMirror:

2765

return abs_( (v-limit) - (limit+limit)*floor_((v-limit)*(invLimit*0.5f)) - limit );

}

SkUNREACHABLE;

}

SI void sample(const SkRasterPipeline_SamplerCtx2* ctx, F x, F y,

2771

F* r, F* g, F* b, F* a) {

2772

x = tile(x, ctx->tileX, ctx->width , ctx->invWidth );

2773

y = tile(y, ctx->tileY, ctx->height, ctx->invHeight);

2774

2775

switch (ctx->ct) {

2776

default: *r = *g = *b = *a = 0; // TODO

2777

break;

2778

2779

case kRGBA_8888_SkColorType:

2780

case kBGRA_8888_SkColorType: {

2781

const uint32_t* ptr;

2782

U32 ix = ix_and_ptr(&ptr, ctx, x,y);

2783

from_8888(gather(ptr, ix), r,g,b,a);

2784

if (ctx->ct == kBGRA_8888_SkColorType) {

std::swap(*r,*b);

}

} break;

}

}

template <int D>

SI void sampler(const SkRasterPipeline_SamplerCtx2* ctx,

2793

F cx, F cy, const F (&wx)[D], const F (&wy)[D],

2794

F* r, F* g, F* b, F* a) {

2795

2796

float start = -0.5f*(D-1);

2797

2798

*r = *g = *b = *a = 0;

2799

F y = cy + start;

2800

for (int j = 0; j < D; j++, y += 1.0f) {

2801

F x = cx + start;

2802

for (int i = 0; i < D; i++, x += 1.0f) {

2803

F R,G,B,A;

2804

sample(ctx, x,y, &R,&G,&B,&A);

F w = wx[i] * wy[j];

*r = mad(w,R,*r);

*g = mad(w,G,*g);

*b = mad(w,B,*b);

*a = mad(w,A,*a);

}

}

}

STAGE(bilinear, const SkRasterPipeline_SamplerCtx2* ctx) {

2816

F x = r, fx = fract(x + 0.5f),

2817

y = g, fy = fract(y + 0.5f);

2818

const F wx[] = {1.0f - fx, fx};

2819

const F wy[] = {1.0f - fy, fy};

2820

2821

sampler(ctx, x,y, wx,wy, &r,&g,&b,&a);

2822

}

2823

STAGE(bicubic, SkRasterPipeline_SamplerCtx2* ctx) {

2824

F x = r, fx = fract(x + 0.5f),

2825

y = g, fy = fract(y + 0.5f);

2826

const F wx[] = { bicubic_far(1-fx), bicubic_near(1-fx), bicubic_near(fx), bicubic_far(fx) };

2827

const F wy[] = { bicubic_far(1-fy), bicubic_near(1-fy), bicubic_near(fy), bicubic_far(fy) };

2828

2829

sampler(ctx, x,y, wx,wy, &r,&g,&b,&a);

2830

}

2831

Mike Klein

2019-10-17 20:13:14 +0000

[diff] [blame]

2832

// A specialized fused image shader for clamp-x, clamp-y, non-sRGB sampling.

Mike Klein

dfa1de9

2019-10-17 12:34:22 -0500

[diff] [blame]

2833

STAGE(bilerp_clamp_8888, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

2019-10-17 20:13:14 +0000

[diff] [blame]

2834

// (cx,cy) are the center of our sample.

2835

F cx = r,

2836

cy = g;

Mike Klein

dfa1de9

2019-10-17 12:34:22 -0500

[diff] [blame]

2837

Mike Klein

2019-10-17 20:13:14 +0000

[diff] [blame]

2838

// All sample points are at the same fractional offset (fx,fy).

2839

// They're the 4 corners of a logical 1x1 pixel surrounding (x,y) at (0.5,0.5) offsets.

2840

F fx = fract(cx + 0.5f),

2841

fy = fract(cy + 0.5f);

2842

2843

// We'll accumulate the color of all four samples into {r,g,b,a} directly.

2844

r = g = b = a = 0;

2845

2846

for (float dy = -0.5f; dy <= +0.5f; dy += 1.0f)

2847

for (float dx = -0.5f; dx <= +0.5f; dx += 1.0f) {

2848

// (x,y) are the coordinates of this sample point.

F x = cx + dx,

y = cy + dy;

// ix_and_ptr() will clamp to the image's bounds for us.

2853

const uint32_t* ptr;

2854

U32 ix = ix_and_ptr(&ptr, ctx, x,y);

2855

2856

F sr,sg,sb,sa;

2857

from_8888(gather(ptr, ix), &sr,&sg,&sb,&sa);

2858

2859

// In bilinear interpolation, the 4 pixels at +/- 0.5 offsets from the sample pixel center

2860

// are combined in direct proportion to their area overlapping that logical query pixel.

2861

// At positive offsets, the x-axis contribution to that rectangle is fx,

2862

// or (1-fx) at negative x. Same deal for y.

2863

F sx = (dx > 0) ? fx : 1.0f - fx,

2864

sy = (dy > 0) ? fy : 1.0f - fy,

area = sx * sy;

r += sr * area;

g += sg * area;

b += sb * area;

a += sa * area;

}

Mike Klein

dfa1de9

2019-10-17 12:34:22 -0500

[diff] [blame]

2872

}

Mike Reed

78eedba

2019-07-31 16:39:15 -0400

[diff] [blame]

2873

Mike Klein

2019-10-17 20:13:14 +0000

[diff] [blame]

2874

// A specialized fused image shader for clamp-x, clamp-y, non-sRGB sampling.

2875

STAGE(bicubic_clamp_8888, const SkRasterPipeline_GatherCtx* ctx) {

2876

// (cx,cy) are the center of our sample.

F cx = r,

cy = g;

// All sample points are at the same fractional offset (fx,fy).

2881

// They're the 4 corners of a logical 1x1 pixel surrounding (x,y) at (0.5,0.5) offsets.

2882

F fx = fract(cx + 0.5f),

2883

fy = fract(cy + 0.5f);

2884

2885

// We'll accumulate the color of all four samples into {r,g,b,a} directly.

2886

r = g = b = a = 0;

2887

2888

const F scaley[4] = {

2889

bicubic_far (1.0f - fy), bicubic_near(1.0f - fy),

2890

bicubic_near( fy), bicubic_far ( fy),

2891

};

2892

const F scalex[4] = {

2893

bicubic_far (1.0f - fx), bicubic_near(1.0f - fx),

2894

bicubic_near( fx), bicubic_far ( fx),

2895

};

2896

2897

F sample_y = cy - 1.5f;

2898

for (int yy = 0; yy <= 3; ++yy) {

2899

F sample_x = cx - 1.5f;

2900

for (int xx = 0; xx <= 3; ++xx) {

2901

F scale = scalex[xx] * scaley[yy];

2902

2903

// ix_and_ptr() will clamp to the image's bounds for us.

2904

const uint32_t* ptr;

2905

U32 ix = ix_and_ptr(&ptr, ctx, sample_x, sample_y);

2906

2907

F sr,sg,sb,sa;

2908

from_8888(gather(ptr, ix), &sr,&sg,&sb,&sa);

2909

2910

r = mad(scale, sr, r);

2911

g = mad(scale, sg, g);

2912

b = mad(scale, sb, b);

2913

a = mad(scale, sa, a);

sample_x += 1;

}

sample_y += 1;

}

Mike Reed

78eedba

2019-07-31 16:39:15 -0400

[diff] [blame]

2919

}

2920

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2921

// ~~~~~~ GrSwizzle stage ~~~~~~ //

2922

2923

STAGE(swizzle, void* ctx) {

2924

auto ir = r, ig = g, ib = b, ia = a;

2925

F* o[] = {&r, &g, &b, &a};

2926

char swiz[4];

2927

memcpy(swiz, &ctx, sizeof(swiz));

2928

2929

for (int i = 0; i < 4; ++i) {

2930

switch (swiz[i]) {

2931

case 'r': *o[i] = ir; break;

2932

case 'g': *o[i] = ig; break;

2933

case 'b': *o[i] = ib; break;

2934

case 'a': *o[i] = ia; break;

Brian Salomon

f30b1c1

2019-06-20 12:25:02 -0400

[diff] [blame]

2935

case '0': *o[i] = F(0); break;

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2936

case '1': *o[i] = F(1); break;

default: break;

}

}

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

2942

namespace lowp {

Mike Klein

419709d

2018-10-11 22:05:14 -0400

[diff] [blame]

2943

#if defined(JUMPER_IS_SCALAR) || defined(SK_DISABLE_LOWP_RASTER_PIPELINE)

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

2944

// If we're not compiled by Clang, or otherwise switched into scalar mode (old Clang, manually),

2945

// we don't generate lowp stages. All these nullptrs will tell SkJumper.cpp to always use the

2946

// highp float pipeline.

2947

#define M(st) static void (*st)(void) = nullptr;

2948

SK_RASTER_PIPELINE_STAGES(M)

2949

#undef M

2950

static void (*just_return)(void) = nullptr;

2951

2952

static void start_pipeline(size_t,size_t,size_t,size_t, void**) {}

2953

2954

#else // We are compiling vector code with Clang... let's make some lowp stages!

2955

Mike Klein

2018-08-31 10:19:21 -0400

[diff] [blame]

2956

#if defined(JUMPER_IS_HSW) || defined(JUMPER_IS_AVX512)

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

2957

using U8 = uint8_t __attribute__((ext_vector_type(16)));

2958

using U16 = uint16_t __attribute__((ext_vector_type(16)));

2959

using I16 = int16_t __attribute__((ext_vector_type(16)));

2960

using I32 = int32_t __attribute__((ext_vector_type(16)));

2961

using U32 = uint32_t __attribute__((ext_vector_type(16)));

2962

using F = float __attribute__((ext_vector_type(16)));

2963

#else

2964

using U8 = uint8_t __attribute__((ext_vector_type(8)));

2965

using U16 = uint16_t __attribute__((ext_vector_type(8)));

2966

using I16 = int16_t __attribute__((ext_vector_type(8)));

2967

using I32 = int32_t __attribute__((ext_vector_type(8)));

2968

using U32 = uint32_t __attribute__((ext_vector_type(8)));

2969

using F = float __attribute__((ext_vector_type(8)));

2970

#endif

2971

2972

static const size_t N = sizeof(U16) / sizeof(uint16_t);

2973

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

2974

// Once again, some platforms benefit from a restricted Stage calling convention,

2975

// but others can pass tons and tons of registers and we're happy to exploit that.

2976

// It's exactly the same decision and implementation strategy as the F stages above.

2977

#if JUMPER_NARROW_STAGES

struct Params {

size_t dx, dy, tail;

U16 dr,dg,db,da;

};

using Stage = void(ABI*)(Params*, void** program, U16 r, U16 g, U16 b, U16 a);

2983

#else

2984

// We pass program as the second argument so that load_and_inc() will find it in %rsi on x86-64.

2985

using Stage = void (ABI*)(size_t tail, void** program, size_t dx, size_t dy,

2986

U16 r, U16 g, U16 b, U16 a,

2987

U16 dr, U16 dg, U16 db, U16 da);

2988

#endif

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

2989

2990

static void start_pipeline(const size_t x0, const size_t y0,

2991

const size_t xlimit, const size_t ylimit, void** program) {

2992

auto start = (Stage)load_and_inc(program);

2993

for (size_t dy = y0; dy < ylimit; dy++) {

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

2994

#if JUMPER_NARROW_STAGES

2995

Params params = { x0,dy,0, 0,0,0,0 };

2996

for (; params.dx + N <= xlimit; params.dx += N) {

2997

start(&params,program, 0,0,0,0);

2998

}

2999

if (size_t tail = xlimit - params.dx) {

3000

params.tail = tail;

3001

start(&params,program, 0,0,0,0);

3002

}

3003

#else

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3004

size_t dx = x0;

3005

for (; dx + N <= xlimit; dx += N) {

3006

start( 0,program,dx,dy, 0,0,0,0, 0,0,0,0);

3007

}

3008

if (size_t tail = xlimit - dx) {

3009

start(tail,program,dx,dy, 0,0,0,0, 0,0,0,0);

3010

}

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3011

#endif

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

}

}

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3015

#if JUMPER_NARROW_STAGES

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

3016

static void ABI just_return(Params*, void**, U16,U16,U16,U16) {}

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3017

#else

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

3018

static void ABI just_return(size_t,void**,size_t,size_t, U16,U16,U16,U16, U16,U16,U16,U16) {}

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3019

#endif

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3020

3021

// All stages use the same function call ABI to chain into each other, but there are three types:

3022

// GG: geometry in, geometry out -- think, a matrix

3023

// GP: geometry in, pixels out. -- think, a memory gather

3024

// PP: pixels in, pixels out. -- think, a blend mode

3025

//

3026

// (Some stages ignore their inputs or produce no logical output. That's perfectly fine.)

3027

//

3028

// These three STAGE_ macros let you define each type of stage,

3029

// and will have (x,y) geometry and/or (r,g,b,a, dr,dg,db,da) pixel arguments as appropriate.

3030

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3031

#if JUMPER_NARROW_STAGES

Mike Klein

8354c52

2018-12-19 10:45:14 -0500

[diff] [blame]

3032

#define STAGE_GG(name, ...) \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

3033

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, F& x, F& y); \

Mike Klein

8354c52

2018-12-19 10:45:14 -0500

[diff] [blame]

3034

static void ABI name(Params* params, void** program, U16 r, U16 g, U16 b, U16 a) { \

3035

auto x = join<F>(r,g), \

3036

y = join<F>(b,a); \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

3037

name##_k(Ctx{program}, params->dx,params->dy,params->tail, x,y); \

Mike Klein

8354c52

2018-12-19 10:45:14 -0500

[diff] [blame]

3038

split(x, &r,&g); \

3039

split(y, &b,&a); \

3040

auto next = (Stage)load_and_inc(program); \

3041

next(params,program, r,g,b,a); \

3042

} \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

3043

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, F& x, F& y)

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3044

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3045

#define STAGE_GP(name, ...) \

3046

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, F x, F y, \

3047

U16& r, U16& g, U16& b, U16& a, \

3048

U16& dr, U16& dg, U16& db, U16& da); \

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

3049

static void ABI name(Params* params, void** program, U16 r, U16 g, U16 b, U16 a) { \

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3050

auto x = join<F>(r,g), \

3051

y = join<F>(b,a); \

3052

name##_k(Ctx{program}, params->dx,params->dy,params->tail, x,y, r,g,b,a, \

3053

params->dr,params->dg,params->db,params->da); \

3054

auto next = (Stage)load_and_inc(program); \

3055

next(params,program, r,g,b,a); \

3056

} \

3057

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, F x, F y, \

3058

U16& r, U16& g, U16& b, U16& a, \

3059

U16& dr, U16& dg, U16& db, U16& da)

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3060

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3061

#define STAGE_PP(name, ...) \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

3062

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, \

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3063

U16& r, U16& g, U16& b, U16& a, \

3064

U16& dr, U16& dg, U16& db, U16& da); \

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

3065

static void ABI name(Params* params, void** program, U16 r, U16 g, U16 b, U16 a) { \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

3066

name##_k(Ctx{program}, params->dx,params->dy,params->tail, r,g,b,a, \

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3067

params->dr,params->dg,params->db,params->da); \

3068

auto next = (Stage)load_and_inc(program); \

3069

next(params,program, r,g,b,a); \

3070

} \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

3071

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, \

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3072

U16& r, U16& g, U16& b, U16& a, \

3073

U16& dr, U16& dg, U16& db, U16& da)

3074

#else

3075

#define STAGE_GG(name, ...) \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

3076

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, F& x, F& y); \

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

3077

static void ABI name(size_t tail, void** program, size_t dx, size_t dy, \

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3078

U16 r, U16 g, U16 b, U16 a, \

3079

U16 dr, U16 dg, U16 db, U16 da) { \

3080

auto x = join<F>(r,g), \

3081

y = join<F>(b,a); \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

3082

name##_k(Ctx{program}, dx,dy,tail, x,y); \

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3083

split(x, &r,&g); \

3084

split(y, &b,&a); \

3085

auto next = (Stage)load_and_inc(program); \

3086

next(tail,program,dx,dy, r,g,b,a, dr,dg,db,da); \

3087

} \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

3088

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, F& x, F& y)

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3089

3090

#define STAGE_GP(name, ...) \

3091

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, F x, F y, \

3092

U16& r, U16& g, U16& b, U16& a, \

3093

U16& dr, U16& dg, U16& db, U16& da); \

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

3094

static void ABI name(size_t tail, void** program, size_t dx, size_t dy, \

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3095

U16 r, U16 g, U16 b, U16 a, \

3096

U16 dr, U16 dg, U16 db, U16 da) { \

3097

auto x = join<F>(r,g), \

3098

y = join<F>(b,a); \

3099

name##_k(Ctx{program}, dx,dy,tail, x,y, r,g,b,a, dr,dg,db,da); \

3100

auto next = (Stage)load_and_inc(program); \

3101

next(tail,program,dx,dy, r,g,b,a, dr,dg,db,da); \

3102

} \

3103

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, F x, F y, \

3104

U16& r, U16& g, U16& b, U16& a, \

3105

U16& dr, U16& dg, U16& db, U16& da)

3106

3107

#define STAGE_PP(name, ...) \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

3108

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, \

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3109

U16& r, U16& g, U16& b, U16& a, \

3110

U16& dr, U16& dg, U16& db, U16& da); \

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

3111

static void ABI name(size_t tail, void** program, size_t dx, size_t dy, \

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3112

U16 r, U16 g, U16 b, U16 a, \

3113

U16 dr, U16 dg, U16 db, U16 da) { \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

3114

name##_k(Ctx{program}, dx,dy,tail, r,g,b,a, dr,dg,db,da); \

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3115

auto next = (Stage)load_and_inc(program); \

3116

next(tail,program,dx,dy, r,g,b,a, dr,dg,db,da); \

3117

} \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

3118

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, \

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3119

U16& r, U16& g, U16& b, U16& a, \

3120

U16& dr, U16& dg, U16& db, U16& da)

3121

#endif

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3122

3123

// ~~~~~~ Commonly used helper functions ~~~~~~ //

3124

3125

SI U16 div255(U16 v) {

3126

#if 0

3127

return (v+127)/255; // The ideal rounding divide by 255.

Mike Klein

2018-07-25 09:19:23 -0400

[diff] [blame]

3128

#elif 1 && defined(JUMPER_IS_NEON)

Mike Klein

d8853ec

2018-03-10 11:34:53 -0500

[diff] [blame]

3129

// With NEON we can compute (v+127)/255 as (v + ((v+128)>>8) + 128)>>8

3130

// just as fast as we can do the approximation below, so might as well be correct!

3131

// First we compute v + ((v+128)>>8), then one more round of (...+128)>>8 to finish up.

3132

return vrshrq_n_u16(vrsraq_n_u16(v, v, 8), 8);

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3133

#else

3134

return (v+255)/256; // A good approximation of (v+127)/255.

#endif

}

SI U16 inv(U16 v) { return 255-v; }

3139

3140

SI U16 if_then_else(I16 c, U16 t, U16 e) { return (t & c) | (e & ~c); }

3141

SI U32 if_then_else(I32 c, U32 t, U32 e) { return (t & c) | (e & ~c); }

3142

3143

SI U16 max(U16 x, U16 y) { return if_then_else(x < y, y, x); }

3144

SI U16 min(U16 x, U16 y) { return if_then_else(x < y, x, y); }

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3145

3146

SI U16 from_float(float f) { return f * 255.0f + 0.5f; }

3147

3148

SI U16 lerp(U16 from, U16 to, U16 t) { return div255( from*inv(t) + to*t ); }

3149

3150

template <typename D, typename S>

3151

SI D cast(S src) {

3152

return __builtin_convertvector(src, D);

3153

}

3154

3155

template <typename D, typename S>

3156

SI void split(S v, D* lo, D* hi) {

3157

static_assert(2*sizeof(D) == sizeof(S), "");

3158

memcpy(lo, (const char*)&v + 0*sizeof(D), sizeof(D));

3159

memcpy(hi, (const char*)&v + 1*sizeof(D), sizeof(D));

3160

}

3161

template <typename D, typename S>

3162

SI D join(S lo, S hi) {

3163

static_assert(sizeof(D) == 2*sizeof(S), "");

3164

D v;

3165

memcpy((char*)&v + 0*sizeof(S), &lo, sizeof(S));

3166

memcpy((char*)&v + 1*sizeof(S), &hi, sizeof(S));

3167

return v;

3168

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3169

3170

SI F if_then_else(I32 c, F t, F e) {

3171

return bit_cast<F>( (bit_cast<I32>(t) & c) | (bit_cast<I32>(e) & ~c) );

3172

}

3173

SI F max(F x, F y) { return if_then_else(x < y, y, x); }

3174

SI F min(F x, F y) { return if_then_else(x < y, x, y); }

3175

3176

SI F mad(F f, F m, F a) { return f*m+a; }

3177

SI U32 trunc_(F x) { return (U32)cast<I32>(x); }

3178

3179

SI F rcp(F x) {

Mike Klein

2018-08-31 10:19:21 -0400

[diff] [blame]

3180

#if defined(JUMPER_IS_HSW) || defined(JUMPER_IS_AVX512)

Mike Klein

2018-05-31 10:49:51 -0400

[diff] [blame]

3181

__m256 lo,hi;

3182

split(x, &lo,&hi);

3183

return join<F>(_mm256_rcp_ps(lo), _mm256_rcp_ps(hi));

Mike Klein

2018-08-31 10:19:21 -0400

[diff] [blame]

3184

#elif defined(JUMPER_IS_SSE2) || defined(JUMPER_IS_SSE41) || defined(JUMPER_IS_AVX)

Mike Klein

2018-05-31 10:49:51 -0400

[diff] [blame]

3185

__m128 lo,hi;

3186

split(x, &lo,&hi);

3187

return join<F>(_mm_rcp_ps(lo), _mm_rcp_ps(hi));

Mike Klein

2018-07-25 09:19:23 -0400

[diff] [blame]

3188

#elif defined(JUMPER_IS_NEON)

Mike Klein

2018-05-31 10:49:51 -0400

[diff] [blame]

3189

auto rcp = [](float32x4_t v) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3190

auto est = vrecpeq_f32(v);

3191

return vrecpsq_f32(v,est)*est;

Mike Klein

2018-05-31 10:49:51 -0400

[diff] [blame]

};

float32x4_t lo,hi;

split(x, &lo,&hi);

return join<F>(rcp(lo), rcp(hi));

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

#else

return 1.0f / x;

#endif

}

SI F sqrt_(F x) {

Mike Klein

2018-08-31 10:19:21 -0400

[diff] [blame]

3201

#if defined(JUMPER_IS_HSW) || defined(JUMPER_IS_AVX512)

Mike Klein

2018-05-31 10:49:51 -0400

[diff] [blame]

3202

__m256 lo,hi;

3203

split(x, &lo,&hi);

3204

return join<F>(_mm256_sqrt_ps(lo), _mm256_sqrt_ps(hi));

Mike Klein

2018-08-31 10:19:21 -0400

[diff] [blame]

3205

#elif defined(JUMPER_IS_SSE2) || defined(JUMPER_IS_SSE41) || defined(JUMPER_IS_AVX)

Mike Klein

2018-05-31 10:49:51 -0400

[diff] [blame]

3206

__m128 lo,hi;

3207

split(x, &lo,&hi);

3208

return join<F>(_mm_sqrt_ps(lo), _mm_sqrt_ps(hi));

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

3209

#elif defined(SK_CPU_ARM64)

Mike Klein

2018-05-31 10:49:51 -0400

[diff] [blame]

3210

float32x4_t lo,hi;

3211

split(x, &lo,&hi);

3212

return join<F>(vsqrtq_f32(lo), vsqrtq_f32(hi));

Mike Klein

2018-07-25 09:19:23 -0400

[diff] [blame]

3213

#elif defined(JUMPER_IS_NEON)

Mike Klein

2018-05-31 10:49:51 -0400

[diff] [blame]

3214

auto sqrt = [](float32x4_t v) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3215

auto est = vrsqrteq_f32(v); // Estimate and two refinement steps for est = rsqrt(v).

3216

est *= vrsqrtsq_f32(v,est*est);

3217

est *= vrsqrtsq_f32(v,est*est);

3218

return v*est; // sqrt(v) == v*rsqrt(v).

Mike Klein

2018-05-31 10:49:51 -0400

[diff] [blame]

};

float32x4_t lo,hi;

split(x, &lo,&hi);

return join<F>(sqrt(lo), sqrt(hi));

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3223

#else

3224

return F{

3225

sqrtf(x[0]), sqrtf(x[1]), sqrtf(x[2]), sqrtf(x[3]),

3226

sqrtf(x[4]), sqrtf(x[5]), sqrtf(x[6]), sqrtf(x[7]),

};

#endif

}

SI F floor_(F x) {

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

3232

#if defined(SK_CPU_ARM64)

Mike Klein

2018-05-31 10:49:51 -0400

[diff] [blame]

3233

float32x4_t lo,hi;

3234

split(x, &lo,&hi);

3235

return join<F>(vrndmq_f32(lo), vrndmq_f32(hi));

Mike Klein

2018-08-31 10:19:21 -0400

[diff] [blame]

3236

#elif defined(JUMPER_IS_HSW) || defined(JUMPER_IS_AVX512)

Mike Klein

2018-05-31 10:49:51 -0400

[diff] [blame]

3237

__m256 lo,hi;

3238

split(x, &lo,&hi);

3239

return join<F>(_mm256_floor_ps(lo), _mm256_floor_ps(hi));

Mike Klein

2018-08-31 10:19:21 -0400

[diff] [blame]

3240

#elif defined(JUMPER_IS_SSE41) || defined(JUMPER_IS_AVX)

Mike Klein

2018-05-31 10:49:51 -0400

[diff] [blame]

3241

__m128 lo,hi;

3242

split(x, &lo,&hi);

3243

return join<F>(_mm_floor_ps(lo), _mm_floor_ps(hi));

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3244

#else

3245

F roundtrip = cast<F>(cast<I32>(x));

3246

return roundtrip - if_then_else(roundtrip > x, F(1), F(0));

3247

#endif

3248

}

Mike Klein

8e3426f

2018-04-16 12:56:24 -0400

[diff] [blame]

3249

SI F fract(F x) { return x - floor_(x); }

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3250

SI F abs_(F x) { return bit_cast<F>( bit_cast<I32>(x) & 0x7fffffff ); }

3251

3252

// ~~~~~~ Basic / misc. stages ~~~~~~ //

3253

Mike Klein

e8de024

2018-03-10 12:37:11 -0500

[diff] [blame]

3254

STAGE_GG(seed_shader, Ctx::None) {

3255

static const float iota[] = {

3256

0.5f, 1.5f, 2.5f, 3.5f, 4.5f, 5.5f, 6.5f, 7.5f,

3257

8.5f, 9.5f,10.5f,11.5f,12.5f,13.5f,14.5f,15.5f,

3258

};

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

3259

x = cast<F>(I32(dx)) + sk_unaligned_load<F>(iota);

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3260

y = cast<F>(I32(dy)) + 0.5f;

3261

}

3262

3263

STAGE_GG(matrix_translate, const float* m) {

x += m[0];

y += m[1];

}

STAGE_GG(matrix_scale_translate, const float* m) {

3268

x = mad(x,m[0], m[2]);

3269

y = mad(y,m[1], m[3]);

3270

}

3271

STAGE_GG(matrix_2x3, const float* m) {

3272

auto X = mad(x,m[0], mad(y,m[2], m[4])),

3273

Y = mad(x,m[1], mad(y,m[3], m[5]));

x = X;

y = Y;

}

STAGE_GG(matrix_perspective, const float* m) {

3278

// N.B. Unlike the other matrix_ stages, this matrix is row-major.

3279

auto X = mad(x,m[0], mad(y,m[1], m[2])),

3280

Y = mad(x,m[3], mad(y,m[4], m[5])),

3281

Z = mad(x,m[6], mad(y,m[7], m[8]));

x = X * rcp(Z);

y = Y * rcp(Z);

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3286

STAGE_PP(uniform_color, const SkRasterPipeline_UniformColorCtx* c) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

r = c->rgba[0];

g = c->rgba[1];

b = c->rgba[2];

a = c->rgba[3];

}

Mike Reed

9318a6c

2019-08-16 16:16:25 -0400

[diff] [blame]

3292

STAGE_PP(uniform_color_dst, const SkRasterPipeline_UniformColorCtx* c) {

dr = c->rgba[0];

dg = c->rgba[1];

db = c->rgba[2];

da = c->rgba[3];

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3298

STAGE_PP(black_color, Ctx::None) { r = g = b = 0; a = 255; }

3299

STAGE_PP(white_color, Ctx::None) { r = g = b = 255; a = 255; }

3300

3301

STAGE_PP(set_rgb, const float rgb[3]) {

3302

r = from_float(rgb[0]);

3303

g = from_float(rgb[1]);

3304

b = from_float(rgb[2]);

3305

}

3306

Mike Klein

ea045b5

2018-08-23 12:13:58 -0400

[diff] [blame]

3307

STAGE_PP(clamp_0, Ctx::None) { /*definitely a noop*/ }

3308

STAGE_PP(clamp_1, Ctx::None) { /*_should_ be a noop*/ }

3309

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3310

STAGE_PP(clamp_a, Ctx::None) {

r = min(r, a);

g = min(g, a);

b = min(b, a);

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3315

Mike Klein

eb50f43

2018-09-07 11:08:53 -0400

[diff] [blame]

3316

STAGE_PP(clamp_gamut, Ctx::None) {

3317

// It shouldn't be possible to get out-of-gamut

3318

// colors when working in lowp.

3319

}

3320

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3321

STAGE_PP(premul, Ctx::None) {

r = div255(r * a);

g = div255(g * a);

b = div255(b * a);

}

STAGE_PP(premul_dst, Ctx::None) {

3327

dr = div255(dr * da);

3328

dg = div255(dg * da);

3329

db = div255(db * da);

3330

}

3331

3332

STAGE_PP(force_opaque , Ctx::None) { a = 255; }

3333

STAGE_PP(force_opaque_dst, Ctx::None) { da = 255; }

3334

3335

STAGE_PP(swap_rb, Ctx::None) {

auto tmp = r;

r = b;

b = tmp;

}

Mike Klein

1a3eb52

2018-10-18 10:11:00 -0400

[diff] [blame]

3340

STAGE_PP(swap_rb_dst, Ctx::None) {

auto tmp = dr;

dr = db;

db = tmp;

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3345

3346

STAGE_PP(move_src_dst, Ctx::None) {

dr = r;

dg = g;

db = b;

da = a;

}

STAGE_PP(move_dst_src, Ctx::None) {

r = dr;

g = dg;

b = db;

a = da;

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3360

// ~~~~~~ Blend modes ~~~~~~ //

3361

3362

// The same logic applied to all 4 channels.

3363

#define BLEND_MODE(name) \

3364

SI U16 name##_channel(U16 s, U16 d, U16 sa, U16 da); \

3365

STAGE_PP(name, Ctx::None) { \

3366

r = name##_channel(r,dr,a,da); \

3367

g = name##_channel(g,dg,a,da); \

3368

b = name##_channel(b,db,a,da); \

3369

a = name##_channel(a,da,a,da); \

3370

} \

3371

SI U16 name##_channel(U16 s, U16 d, U16 sa, U16 da)

3372

3373

BLEND_MODE(clear) { return 0; }

3374

BLEND_MODE(srcatop) { return div255( s*da + d*inv(sa) ); }

3375

BLEND_MODE(dstatop) { return div255( d*sa + s*inv(da) ); }

3376

BLEND_MODE(srcin) { return div255( s*da ); }

3377

BLEND_MODE(dstin) { return div255( d*sa ); }

3378

BLEND_MODE(srcout) { return div255( s*inv(da) ); }

3379

BLEND_MODE(dstout) { return div255( d*inv(sa) ); }

3380

BLEND_MODE(srcover) { return s + div255( d*inv(sa) ); }

3381

BLEND_MODE(dstover) { return d + div255( s*inv(da) ); }

3382

BLEND_MODE(modulate) { return div255( s*d ); }

3383

BLEND_MODE(multiply) { return div255( s*inv(da) + d*inv(sa) + s*d ); }

Mike Klein

b90c080

2019-03-15 14:03:41 +0000

[diff] [blame]

3384

BLEND_MODE(plus_) { return min(s+d, 255); }

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3385

BLEND_MODE(screen) { return s + d - div255( s*d ); }

3386

BLEND_MODE(xor_) { return div255( s*inv(da) + d*inv(sa) ); }

3387

#undef BLEND_MODE

3388

3389

// The same logic applied to color, and srcover for alpha.

3390

#define BLEND_MODE(name) \

3391

SI U16 name##_channel(U16 s, U16 d, U16 sa, U16 da); \

3392

STAGE_PP(name, Ctx::None) { \

3393

r = name##_channel(r,dr,a,da); \

3394

g = name##_channel(g,dg,a,da); \

3395

b = name##_channel(b,db,a,da); \

3396

a = a + div255( da*inv(a) ); \

3397

} \

3398

SI U16 name##_channel(U16 s, U16 d, U16 sa, U16 da)

3399

3400

BLEND_MODE(darken) { return s + d - div255( max(s*da, d*sa) ); }

3401

BLEND_MODE(lighten) { return s + d - div255( min(s*da, d*sa) ); }

3402

BLEND_MODE(difference) { return s + d - 2*div255( min(s*da, d*sa) ); }

3403

BLEND_MODE(exclusion) { return s + d - 2*div255( s*d ); }

3404

3405

BLEND_MODE(hardlight) {

3406

return div255( s*inv(da) + d*inv(sa) +

3407

if_then_else(2*s <= sa, 2*s*d, sa*da - 2*(sa-s)*(da-d)) );

3408

}

3409

BLEND_MODE(overlay) {

3410

return div255( s*inv(da) + d*inv(sa) +

3411

if_then_else(2*d <= da, 2*s*d, sa*da - 2*(sa-s)*(da-d)) );

}

#undef BLEND_MODE

// ~~~~~~ Helpers for interacting with memory ~~~~~~ //

3416

3417

template <typename T>

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3418

SI T* ptr_at_xy(const SkRasterPipeline_MemoryCtx* ctx, size_t dx, size_t dy) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3419

return (T*)ctx->pixels + dy*ctx->stride + dx;

3420

}

3421

3422

template <typename T>

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3423

SI U32 ix_and_ptr(T** ptr, const SkRasterPipeline_GatherCtx* ctx, F x, F y) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3424

auto clamp = [](F v, F limit) {

3425

limit = bit_cast<F>( bit_cast<U32>(limit) - 1 ); // Exclusive -> inclusive.

3426

return min(max(0, v), limit);

3427

};

3428

x = clamp(x, ctx->width);

3429

y = clamp(y, ctx->height);

3430

3431

*ptr = (const T*)ctx->pixels;

3432

return trunc_(y)*ctx->stride + trunc_(x);

3433

}

3434

3435

template <typename V, typename T>

3436

SI V load(const T* ptr, size_t tail) {

3437

V v = 0;

3438

switch (tail & (N-1)) {

3439

case 0: memcpy(&v, ptr, sizeof(v)); break;

Mike Klein

2018-08-31 10:19:21 -0400

[diff] [blame]

3440

#if defined(JUMPER_IS_HSW) || defined(JUMPER_IS_AVX512)

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3441

case 15: v[14] = ptr[14];

3442

case 14: v[13] = ptr[13];

3443

case 13: v[12] = ptr[12];

3444

case 12: memcpy(&v, ptr, 12*sizeof(T)); break;

3445

case 11: v[10] = ptr[10];

3446

case 10: v[ 9] = ptr[ 9];

3447

case 9: v[ 8] = ptr[ 8];

3448

case 8: memcpy(&v, ptr, 8*sizeof(T)); break;

3449

#endif

3450

case 7: v[ 6] = ptr[ 6];

3451

case 6: v[ 5] = ptr[ 5];

3452

case 5: v[ 4] = ptr[ 4];

3453

case 4: memcpy(&v, ptr, 4*sizeof(T)); break;

3454

case 3: v[ 2] = ptr[ 2];

3455

case 2: memcpy(&v, ptr, 2*sizeof(T)); break;

3456

case 1: v[ 0] = ptr[ 0];

}

return v;

}

template <typename V, typename T>

3461

SI void store(T* ptr, size_t tail, V v) {

3462

switch (tail & (N-1)) {

3463

case 0: memcpy(ptr, &v, sizeof(v)); break;

Mike Klein

2018-08-31 10:19:21 -0400

[diff] [blame]

3464

#if defined(JUMPER_IS_HSW) || defined(JUMPER_IS_AVX512)

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3465

case 15: ptr[14] = v[14];

3466

case 14: ptr[13] = v[13];

3467

case 13: ptr[12] = v[12];

3468

case 12: memcpy(ptr, &v, 12*sizeof(T)); break;

3469

case 11: ptr[10] = v[10];

3470

case 10: ptr[ 9] = v[ 9];

3471

case 9: ptr[ 8] = v[ 8];

3472

case 8: memcpy(ptr, &v, 8*sizeof(T)); break;

3473

#endif

3474

case 7: ptr[ 6] = v[ 6];

3475

case 6: ptr[ 5] = v[ 5];

3476

case 5: ptr[ 4] = v[ 4];

3477

case 4: memcpy(ptr, &v, 4*sizeof(T)); break;

3478

case 3: ptr[ 2] = v[ 2];

3479

case 2: memcpy(ptr, &v, 2*sizeof(T)); break;

3480

case 1: ptr[ 0] = v[ 0];

}

}

Mike Klein

2018-08-31 10:19:21 -0400

[diff] [blame]

3484

#if defined(JUMPER_IS_HSW) || defined(JUMPER_IS_AVX512)

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3485

template <typename V, typename T>

3486

SI V gather(const T* ptr, U32 ix) {

3487

return V{ ptr[ix[ 0]], ptr[ix[ 1]], ptr[ix[ 2]], ptr[ix[ 3]],

3488

ptr[ix[ 4]], ptr[ix[ 5]], ptr[ix[ 6]], ptr[ix[ 7]],

3489

ptr[ix[ 8]], ptr[ix[ 9]], ptr[ix[10]], ptr[ix[11]],

3490

ptr[ix[12]], ptr[ix[13]], ptr[ix[14]], ptr[ix[15]], };

3491

}

3492

3493

template<>

Kevin Lubick

b5502b2

2018-03-12 10:17:06 -0400

[diff] [blame]

3494

F gather(const float* ptr, U32 ix) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

__m256i lo, hi;

split(ix, &lo, &hi);

Kevin Lubick

2018-03-12 10:17:06 -0400

[diff] [blame]

3498

return join<F>(_mm256_i32gather_ps(ptr, lo, 4),

3499

_mm256_i32gather_ps(ptr, hi, 4));

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3500

}

3501

3502

template<>

Kevin Lubick

b5502b2

2018-03-12 10:17:06 -0400

[diff] [blame]

3503

U32 gather(const uint32_t* ptr, U32 ix) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

__m256i lo, hi;

split(ix, &lo, &hi);

Kevin Lubick

2018-03-12 10:17:06 -0400

[diff] [blame]

3507

return join<U32>(_mm256_i32gather_epi32(ptr, lo, 4),

3508

_mm256_i32gather_epi32(ptr, hi, 4));

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3509

}

3510

#else

3511

template <typename V, typename T>

3512

SI V gather(const T* ptr, U32 ix) {

3513

return V{ ptr[ix[ 0]], ptr[ix[ 1]], ptr[ix[ 2]], ptr[ix[ 3]],

3514

ptr[ix[ 4]], ptr[ix[ 5]], ptr[ix[ 6]], ptr[ix[ 7]], };

}

#endif

// ~~~~~~ 32-bit memory loads and stores ~~~~~~ //

3520

3521

SI void from_8888(U32 rgba, U16* r, U16* g, U16* b, U16* a) {

Mike Klein

2018-08-31 10:19:21 -0400

[diff] [blame]

3522

#if 1 && defined(JUMPER_IS_HSW) || defined(JUMPER_IS_AVX512)

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3523

// Swap the middle 128-bit lanes to make _mm256_packus_epi32() in cast_U16() work out nicely.

3524

__m256i _01,_23;

3525

split(rgba, &_01, &_23);

3526

__m256i _02 = _mm256_permute2x128_si256(_01,_23, 0x20),

3527

_13 = _mm256_permute2x128_si256(_01,_23, 0x31);

3528

rgba = join<U32>(_02, _13);

3529

3530

auto cast_U16 = [](U32 v) -> U16 {

3531

__m256i _02,_13;

3532

split(v, &_02,&_13);

3533

return _mm256_packus_epi32(_02,_13);

3534

};

3535

#else

3536

auto cast_U16 = [](U32 v) -> U16 {

return cast<U16>(v);

};

#endif

*r = cast_U16(rgba & 65535) & 255;

3541

*g = cast_U16(rgba & 65535) >> 8;

3542

*b = cast_U16(rgba >> 16) & 255;

3543

*a = cast_U16(rgba >> 16) >> 8;

3544

}

3545

3546

SI void load_8888_(const uint32_t* ptr, size_t tail, U16* r, U16* g, U16* b, U16* a) {

Mike Klein

2018-07-25 09:19:23 -0400

[diff] [blame]

3547

#if 1 && defined(JUMPER_IS_NEON)

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3548

uint8x8x4_t rgba;

3549

switch (tail & (N-1)) {

3550

case 0: rgba = vld4_u8 ((const uint8_t*)(ptr+0) ); break;

3551

case 7: rgba = vld4_lane_u8((const uint8_t*)(ptr+6), rgba, 6);

3552

case 6: rgba = vld4_lane_u8((const uint8_t*)(ptr+5), rgba, 5);

3553

case 5: rgba = vld4_lane_u8((const uint8_t*)(ptr+4), rgba, 4);

3554

case 4: rgba = vld4_lane_u8((const uint8_t*)(ptr+3), rgba, 3);

3555

case 3: rgba = vld4_lane_u8((const uint8_t*)(ptr+2), rgba, 2);

3556

case 2: rgba = vld4_lane_u8((const uint8_t*)(ptr+1), rgba, 1);

3557

case 1: rgba = vld4_lane_u8((const uint8_t*)(ptr+0), rgba, 0);

3558

}

3559

*r = cast<U16>(rgba.val[0]);

3560

*g = cast<U16>(rgba.val[1]);

3561

*b = cast<U16>(rgba.val[2]);

3562

*a = cast<U16>(rgba.val[3]);

3563

#else

3564

from_8888(load<U32>(ptr, tail), r,g,b,a);

3565

#endif

3566

}

3567

SI void store_8888_(uint32_t* ptr, size_t tail, U16 r, U16 g, U16 b, U16 a) {

Mike Klein

2018-07-25 09:19:23 -0400

[diff] [blame]

3568

#if 1 && defined(JUMPER_IS_NEON)

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3569

uint8x8x4_t rgba = {{

cast<U8>(r),

cast<U8>(g),

cast<U8>(b),

cast<U8>(a),

}};

switch (tail & (N-1)) {

3576

case 0: vst4_u8 ((uint8_t*)(ptr+0), rgba ); break;

3577

case 7: vst4_lane_u8((uint8_t*)(ptr+6), rgba, 6);

3578

case 6: vst4_lane_u8((uint8_t*)(ptr+5), rgba, 5);

3579

case 5: vst4_lane_u8((uint8_t*)(ptr+4), rgba, 4);

3580

case 4: vst4_lane_u8((uint8_t*)(ptr+3), rgba, 3);

3581

case 3: vst4_lane_u8((uint8_t*)(ptr+2), rgba, 2);

3582

case 2: vst4_lane_u8((uint8_t*)(ptr+1), rgba, 1);

3583

case 1: vst4_lane_u8((uint8_t*)(ptr+0), rgba, 0);

3584

}

3585

#else

3586

store(ptr, tail, cast<U32>(r | (g<<8)) << 0

3587

| cast<U32>(b | (a<<8)) << 16);

#endif

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3591

STAGE_PP(load_8888, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3592

load_8888_(ptr_at_xy<const uint32_t>(ctx, dx,dy), tail, &r,&g,&b,&a);

3593

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3594

STAGE_PP(load_8888_dst, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3595

load_8888_(ptr_at_xy<const uint32_t>(ctx, dx,dy), tail, &dr,&dg,&db,&da);

3596

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3597

STAGE_PP(store_8888, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3598

store_8888_(ptr_at_xy<uint32_t>(ctx, dx,dy), tail, r,g,b,a);

3599

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3600

STAGE_GP(gather_8888, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3601

const uint32_t* ptr;

3602

U32 ix = ix_and_ptr(&ptr, ctx, x,y);

3603

from_8888(gather<U32>(ptr, ix), &r, &g, &b, &a);

3604

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3605

3606

// ~~~~~~ 16-bit memory loads and stores ~~~~~~ //

3607

3608

SI void from_565(U16 rgb, U16* r, U16* g, U16* b) {

3609

// Format for 565 buffers: 15|rrrrr gggggg bbbbb|0

3610

U16 R = (rgb >> 11) & 31,

G = (rgb >> 5) & 63,

B = (rgb >> 0) & 31;

// These bit replications are the same as multiplying by 255/31 or 255/63 to scale to 8-bit.

3615

*r = (R << 3) | (R >> 2);

3616

*g = (G << 2) | (G >> 4);

3617

*b = (B << 3) | (B >> 2);

3618

}

3619

SI void load_565_(const uint16_t* ptr, size_t tail, U16* r, U16* g, U16* b) {

3620

from_565(load<U16>(ptr, tail), r,g,b);

3621

}

3622

SI void store_565_(uint16_t* ptr, size_t tail, U16 r, U16 g, U16 b) {

Mike Klein

1c94143

2019-02-27 14:22:55 -0600

[diff] [blame]

3623

// Round from [0,255] to [0,31] or [0,63], as if x * (31/255.0f) + 0.5f.

3624

// (Don't feel like you need to find some fundamental truth in these...

3625

// they were brute-force searched.)

3626

U16 R = (r * 9 + 36) / 74, // 9/74 ≈ 31/255, plus 36/74, about half.

3627

G = (g * 21 + 42) / 85, // 21/85 = 63/255 exactly.

3628

B = (b * 9 + 36) / 74;

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3629

// Pack them back into 15|rrrrr gggggg bbbbb|0.

3630

store(ptr, tail, R << 11

| G << 5

| B << 0);

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3635

STAGE_PP(load_565, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3636

load_565_(ptr_at_xy<const uint16_t>(ctx, dx,dy), tail, &r,&g,&b);

3637

a = 255;

3638

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3639

STAGE_PP(load_565_dst, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3640

load_565_(ptr_at_xy<const uint16_t>(ctx, dx,dy), tail, &dr,&dg,&db);

3641

da = 255;

3642

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3643

STAGE_PP(store_565, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3644

store_565_(ptr_at_xy<uint16_t>(ctx, dx,dy), tail, r,g,b);

3645

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3646

STAGE_GP(gather_565, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3647

const uint16_t* ptr;

3648

U32 ix = ix_and_ptr(&ptr, ctx, x,y);

3649

from_565(gather<U16>(ptr, ix), &r, &g, &b);

a = 255;

}

SI void from_4444(U16 rgba, U16* r, U16* g, U16* b, U16* a) {

3654

// Format for 4444 buffers: 15|rrrr gggg bbbb aaaa|0.

3655

U16 R = (rgba >> 12) & 15,

3656

G = (rgba >> 8) & 15,

3657

B = (rgba >> 4) & 15,

3658

A = (rgba >> 0) & 15;

3659

3660

// Scale [0,15] to [0,255].

*r = (R << 4) | R;

*g = (G << 4) | G;

*b = (B << 4) | B;

*a = (A << 4) | A;

}

SI void load_4444_(const uint16_t* ptr, size_t tail, U16* r, U16* g, U16* b, U16* a) {

3667

from_4444(load<U16>(ptr, tail), r,g,b,a);

3668

}

3669

SI void store_4444_(uint16_t* ptr, size_t tail, U16 r, U16 g, U16 b, U16 a) {

Mike Klein

1c94143

2019-02-27 14:22:55 -0600

[diff] [blame]

3670

// Round from [0,255] to [0,15], producing the same value as (x*(15/255.0f) + 0.5f).

3671

U16 R = (r + 8) / 17,

3672

G = (g + 8) / 17,

3673

B = (b + 8) / 17,

3674

A = (a + 8) / 17;

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3675

// Pack them back into 15|rrrr gggg bbbb aaaa|0.

3676

store(ptr, tail, R << 12

| G << 8

| B << 4

| A << 0);

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3682

STAGE_PP(load_4444, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3683

load_4444_(ptr_at_xy<const uint16_t>(ctx, dx,dy), tail, &r,&g,&b,&a);

3684

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3685

STAGE_PP(load_4444_dst, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3686

load_4444_(ptr_at_xy<const uint16_t>(ctx, dx,dy), tail, &dr,&dg,&db,&da);

3687

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3688

STAGE_PP(store_4444, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3689

store_4444_(ptr_at_xy<uint16_t>(ctx, dx,dy), tail, r,g,b,a);

3690

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3691

STAGE_GP(gather_4444, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3692

const uint16_t* ptr;

3693

U32 ix = ix_and_ptr(&ptr, ctx, x,y);

3694

from_4444(gather<U16>(ptr, ix), &r,&g,&b,&a);

3695

}

3696

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

3697

SI void from_88(U16 rg, U16* r, U16* g) {

*r = (rg & 0xFF);

*g = (rg >> 8);

}

SI void load_88_(const uint16_t* ptr, size_t tail, U16* r, U16* g) {

3703

#if 1 && defined(JUMPER_IS_NEON)

3704

uint8x8x2_t rg;

3705

switch (tail & (N-1)) {

3706

case 0: rg = vld2_u8 ((const uint8_t*)(ptr+0) ); break;

3707

case 7: rg = vld2_lane_u8((const uint8_t*)(ptr+6), rg, 6);

3708

case 6: rg = vld2_lane_u8((const uint8_t*)(ptr+5), rg, 5);

3709

case 5: rg = vld2_lane_u8((const uint8_t*)(ptr+4), rg, 4);

3710

case 4: rg = vld2_lane_u8((const uint8_t*)(ptr+3), rg, 3);

3711

case 3: rg = vld2_lane_u8((const uint8_t*)(ptr+2), rg, 2);

3712

case 2: rg = vld2_lane_u8((const uint8_t*)(ptr+1), rg, 1);

3713

case 1: rg = vld2_lane_u8((const uint8_t*)(ptr+0), rg, 0);

3714

}

3715

*r = cast<U16>(rg.val[0]);

3716

*g = cast<U16>(rg.val[1]);

3717

#else

3718

from_88(load<U16>(ptr, tail), r,g);

#endif

}

SI void store_88_(uint16_t* ptr, size_t tail, U16 r, U16 g) {

3723

#if 1 && defined(JUMPER_IS_NEON)

uint8x8x2_t rg = {{

cast<U8>(r),

cast<U8>(g),

}};

switch (tail & (N-1)) {

3729

case 0: vst2_u8 ((uint8_t*)(ptr+0), rg ); break;

3730

case 7: vst2_lane_u8((uint8_t*)(ptr+6), rg, 6);

3731

case 6: vst2_lane_u8((uint8_t*)(ptr+5), rg, 5);

3732

case 5: vst2_lane_u8((uint8_t*)(ptr+4), rg, 4);

3733

case 4: vst2_lane_u8((uint8_t*)(ptr+3), rg, 3);

3734

case 3: vst2_lane_u8((uint8_t*)(ptr+2), rg, 2);

3735

case 2: vst2_lane_u8((uint8_t*)(ptr+1), rg, 1);

3736

case 1: vst2_lane_u8((uint8_t*)(ptr+0), rg, 0);

3737

}

3738

#else

3739

store(ptr, tail, cast<U16>(r | (g<<8)) << 0);

#endif

}

STAGE_PP(load_rg88, const SkRasterPipeline_MemoryCtx* ctx) {

Robert Phillips

2019-09-04 15:05:35 -0400

[diff] [blame]

3744

load_88_(ptr_at_xy<const uint16_t>(ctx, dx, dy), tail, &r, &g);

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

3745

b = 0;

Brian Salomon

f30b1c1

2019-06-20 12:25:02 -0400

[diff] [blame]

3746

a = 255;

Robert Phillips

2019-09-04 15:05:35 -0400

[diff] [blame]

3747

}

3748

STAGE_PP(load_rg88_dst, const SkRasterPipeline_MemoryCtx* ctx) {

3749

load_88_(ptr_at_xy<const uint16_t>(ctx, dx, dy), tail, &dr, &dg);

3750

db = 0;

3751

da = 255;

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

3752

}

3753

STAGE_PP(store_rg88, const SkRasterPipeline_MemoryCtx* ctx) {

3754

store_88_(ptr_at_xy<uint16_t>(ctx, dx, dy), tail, r, g);

3755

}

Robert Phillips

2019-09-04 15:05:35 -0400

[diff] [blame]

3756

STAGE_GP(gather_rg88, const SkRasterPipeline_GatherCtx* ctx) {

3757

const uint16_t* ptr;

3758

U32 ix = ix_and_ptr(&ptr, ctx, x, y);

3759

from_88(gather<U16>(ptr, ix), &r, &g);

3760

b = 0;

3761

a = 255;

3762

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

3763

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3764

// ~~~~~~ 8-bit memory loads and stores ~~~~~~ //

3765

3766

SI U16 load_8(const uint8_t* ptr, size_t tail) {

3767

return cast<U16>(load<U8>(ptr, tail));

3768

}

3769

SI void store_8(uint8_t* ptr, size_t tail, U16 v) {

3770

store(ptr, tail, cast<U8>(v));

3771

}

3772

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3773

STAGE_PP(load_a8, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3774

r = g = b = 0;

3775

a = load_8(ptr_at_xy<const uint8_t>(ctx, dx,dy), tail);

3776

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3777

STAGE_PP(load_a8_dst, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3778

dr = dg = db = 0;

3779

da = load_8(ptr_at_xy<const uint8_t>(ctx, dx,dy), tail);

3780

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3781

STAGE_PP(store_a8, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3782

store_8(ptr_at_xy<uint8_t>(ctx, dx,dy), tail, a);

3783

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3784

STAGE_GP(gather_a8, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3785

const uint8_t* ptr;

3786

U32 ix = ix_and_ptr(&ptr, ctx, x,y);

3787

r = g = b = 0;

3788

a = cast<U16>(gather<U8>(ptr, ix));

3789

}

3790

Mike Klein

b1df5e5

2018-10-17 17:06:03 -0400

[diff] [blame]

3791

STAGE_PP(alpha_to_gray, Ctx::None) {

3792

r = g = b = a;

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3793

a = 255;

3794

}

Mike Klein

b1df5e5

2018-10-17 17:06:03 -0400

[diff] [blame]

3795

STAGE_PP(alpha_to_gray_dst, Ctx::None) {

3796

dr = dg = db = da;

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3797

da = 255;

3798

}

Mike Klein

da69d59

2019-07-11 07:38:31 -0500

[diff] [blame]

3799

STAGE_PP(bt709_luminance_or_luma_to_alpha, Ctx::None) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3800

a = (r*54 + g*183 + b*19)/256; // 0.2126, 0.7152, 0.0722 with 256 denominator.

3801

r = g = b = 0;

3802

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3803

3804

// ~~~~~~ Coverage scales / lerps ~~~~~~ //

3805

Mike Reed

2019-03-16 13:16:54 -0400

[diff] [blame]

3806

STAGE_PP(load_src, const uint16_t* ptr) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

3807

r = sk_unaligned_load<U16>(ptr + 0*N);

3808

g = sk_unaligned_load<U16>(ptr + 1*N);

3809

b = sk_unaligned_load<U16>(ptr + 2*N);

3810

a = sk_unaligned_load<U16>(ptr + 3*N);

Mike Reed

2019-03-16 13:16:54 -0400

[diff] [blame]

3811

}

3812

STAGE_PP(store_src, uint16_t* ptr) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

3813

sk_unaligned_store(ptr + 0*N, r);

3814

sk_unaligned_store(ptr + 1*N, g);

3815

sk_unaligned_store(ptr + 2*N, b);

3816

sk_unaligned_store(ptr + 3*N, a);

Mike Reed

2019-03-16 13:16:54 -0400

[diff] [blame]

3817

}

3818

STAGE_PP(load_dst, const uint16_t* ptr) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

3819

dr = sk_unaligned_load<U16>(ptr + 0*N);

3820

dg = sk_unaligned_load<U16>(ptr + 1*N);

3821

db = sk_unaligned_load<U16>(ptr + 2*N);

3822

da = sk_unaligned_load<U16>(ptr + 3*N);

Mike Reed

2019-03-16 13:16:54 -0400

[diff] [blame]

3823

}

3824

STAGE_PP(store_dst, uint16_t* ptr) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

3825

sk_unaligned_store(ptr + 0*N, dr);

3826

sk_unaligned_store(ptr + 1*N, dg);

3827

sk_unaligned_store(ptr + 2*N, db);

3828

sk_unaligned_store(ptr + 3*N, da);

Mike Reed

2019-03-16 13:16:54 -0400

[diff] [blame]

3829

}

3830

3831

// ~~~~~~ Coverage scales / lerps ~~~~~~ //

3832

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3833

STAGE_PP(scale_1_float, const float* f) {

3834

U16 c = from_float(*f);

r = div255( r * c );

g = div255( g * c );

b = div255( b * c );

a = div255( a * c );

}

STAGE_PP(lerp_1_float, const float* f) {

3841

U16 c = from_float(*f);

r = lerp(dr, r, c);

g = lerp(dg, g, c);

b = lerp(db, b, c);

a = lerp(da, a, c);

}

Mike Reed

2019-03-16 13:16:54 -0400

[diff] [blame]

3847

STAGE_PP(lerp_native, const uint16_t scales[]) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

3848

auto c = sk_unaligned_load<U16>(scales);

Mike Reed

2019-03-16 13:16:54 -0400

[diff] [blame]

r = lerp(dr, r, c);

g = lerp(dg, g, c);

b = lerp(db, b, c);

a = lerp(da, a, c);

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3854

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3855

STAGE_PP(scale_u8, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3856

U16 c = load_8(ptr_at_xy<const uint8_t>(ctx, dx,dy), tail);

r = div255( r * c );

g = div255( g * c );

b = div255( b * c );

a = div255( a * c );

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3862

STAGE_PP(lerp_u8, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3863

U16 c = load_8(ptr_at_xy<const uint8_t>(ctx, dx,dy), tail);

r = lerp(dr, r, c);

g = lerp(dg, g, c);

b = lerp(db, b, c);

a = lerp(da, a, c);

}

// Derive alpha's coverage from rgb coverage and the values of src and dst alpha.

3871

SI U16 alpha_coverage_from_rgb_coverage(U16 a, U16 da, U16 cr, U16 cg, U16 cb) {

Mike Klein

2019-10-16 13:28:55 -0500

[diff] [blame]

3872

return if_then_else(a < da, min(cr, min(cg,cb))

3873

, max(cr, max(cg,cb)));

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3874

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3875

STAGE_PP(scale_565, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3876

U16 cr,cg,cb;

3877

load_565_(ptr_at_xy<const uint16_t>(ctx, dx,dy), tail, &cr,&cg,&cb);

3878

U16 ca = alpha_coverage_from_rgb_coverage(a,da, cr,cg,cb);

3879

3880

r = div255( r * cr );

3881

g = div255( g * cg );

3882

b = div255( b * cb );

3883

a = div255( a * ca );

3884

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3885

STAGE_PP(lerp_565, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3886

U16 cr,cg,cb;

3887

load_565_(ptr_at_xy<const uint16_t>(ctx, dx,dy), tail, &cr,&cg,&cb);

3888

U16 ca = alpha_coverage_from_rgb_coverage(a,da, cr,cg,cb);

r = lerp(dr, r, cr);

g = lerp(dg, g, cg);

b = lerp(db, b, cb);

a = lerp(da, a, ca);

}

Mike Klein

2018-11-06 11:53:59 -0500

[diff] [blame]

3896

STAGE_PP(emboss, const SkRasterPipeline_EmbossCtx* ctx) {

3897

U16 mul = load_8(ptr_at_xy<const uint8_t>(&ctx->mul, dx,dy), tail),

3898

add = load_8(ptr_at_xy<const uint8_t>(&ctx->add, dx,dy), tail);

3899

3900

r = min(div255(r*mul) + add, a);

3901

g = min(div255(g*mul) + add, a);

3902

b = min(div255(b*mul) + add, a);

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3906

// ~~~~~~ Gradient stages ~~~~~~ //

3907

3908

// Clamp x to [0,1], both sides inclusive (think, gradients).

3909

// Even repeat and mirror funnel through a clamp to handle bad inputs like +Inf, NaN.

3910

SI F clamp_01(F v) { return min(max(0, v), 1); }

3911

3912

STAGE_GG(clamp_x_1 , Ctx::None) { x = clamp_01(x); }

3913

STAGE_GG(repeat_x_1, Ctx::None) { x = clamp_01(x - floor_(x)); }

3914

STAGE_GG(mirror_x_1, Ctx::None) {

3915

auto two = [](F x){ return x+x; };

3916

x = clamp_01(abs_( (x-1.0f) - two(floor_((x-1.0f)*0.5f)) - 1.0f ));

3917

}

3918

3919

SI I16 cond_to_mask_16(I32 cond) { return cast<I16>(cond); }

3920

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3921

STAGE_GG(decal_x, SkRasterPipeline_DecalTileCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3922

auto w = ctx->limit_x;

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

3923

sk_unaligned_store(ctx->mask, cond_to_mask_16((0 <= x) & (x < w)));

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3924

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3925

STAGE_GG(decal_y, SkRasterPipeline_DecalTileCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3926

auto h = ctx->limit_y;

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

3927

sk_unaligned_store(ctx->mask, cond_to_mask_16((0 <= y) & (y < h)));

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3928

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3929

STAGE_GG(decal_x_and_y, SkRasterPipeline_DecalTileCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3930

auto w = ctx->limit_x;

3931

auto h = ctx->limit_y;

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

3932

sk_unaligned_store(ctx->mask, cond_to_mask_16((0 <= x) & (x < w) & (0 <= y) & (y < h)));

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3933

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3934

STAGE_PP(check_decal_mask, SkRasterPipeline_DecalTileCtx* ctx) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

3935

auto mask = sk_unaligned_load<U16>(ctx->mask);

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

r = r & mask;

g = g & mask;

b = b & mask;

a = a & mask;

}

Mike Klein

2018-09-07 12:05:29 -0400

[diff] [blame]

3942

SI void round_F_to_U16(F R, F G, F B, F A, bool interpolatedInPremul,

3943

U16* r, U16* g, U16* b, U16* a) {

3944

auto round = [](F x) { return cast<U16>(x * 255.0f + 0.5f); };

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3945

Mike Klein

24de648

2018-09-07 12:05:29 -0400

[diff] [blame]

3946

F limit = interpolatedInPremul ? A

3947

: 1;

3948

*r = round(min(max(0,R), limit));

3949

*g = round(min(max(0,G), limit));

3950

*b = round(min(max(0,B), limit));

3951

*a = round(A); // we assume alpha is already in [0,1].

3952

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3953

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3954

SI void gradient_lookup(const SkRasterPipeline_GradientCtx* c, U32 idx, F t,

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3955

U16* r, U16* g, U16* b, U16* a) {

3956

3957

F fr, fg, fb, fa, br, bg, bb, ba;

Mike Klein

2018-08-31 10:19:21 -0400

[diff] [blame]

3958

#if defined(JUMPER_IS_HSW) || defined(JUMPER_IS_AVX512)

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3959

if (c->stopCount <=8) {

3960

__m256i lo, hi;

3961

split(idx, &lo, &hi);

3962

3963

fr = join<F>(_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[0]), lo),

3964

_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[0]), hi));

3965

br = join<F>(_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[0]), lo),

3966

_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[0]), hi));

3967

fg = join<F>(_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[1]), lo),

3968

_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[1]), hi));

3969

bg = join<F>(_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[1]), lo),

3970

_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[1]), hi));

3971

fb = join<F>(_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[2]), lo),

3972

_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[2]), hi));

3973

bb = join<F>(_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[2]), lo),

3974

_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[2]), hi));

3975

fa = join<F>(_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[3]), lo),

3976

_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[3]), hi));

3977

ba = join<F>(_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[3]), lo),

3978

_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[3]), hi));

} else

#endif

{

fr = gather<F>(c->fs[0], idx);

3983

fg = gather<F>(c->fs[1], idx);

3984

fb = gather<F>(c->fs[2], idx);

3985

fa = gather<F>(c->fs[3], idx);

3986

br = gather<F>(c->bs[0], idx);

3987

bg = gather<F>(c->bs[1], idx);

3988

bb = gather<F>(c->bs[2], idx);

3989

ba = gather<F>(c->bs[3], idx);

3990

}

Mike Klein

24de648

2018-09-07 12:05:29 -0400

[diff] [blame]

3991

round_F_to_U16(mad(t, fr, br),

mad(t, fg, bg),

mad(t, fb, bb),

mad(t, fa, ba),

c->interpolatedInPremul,

3996

r,g,b,a);

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3997

}

3998

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3999

STAGE_GP(gradient, const SkRasterPipeline_GradientCtx* c) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

auto t = x;

U32 idx = 0;

// N.B. The loop starts at 1 because idx 0 is the color to use before the first stop.

4004

for (size_t i = 1; i < c->stopCount; i++) {

4005

idx += if_then_else(t >= c->ts[i], U32(1), U32(0));

4006

}

4007

4008

gradient_lookup(c, idx, t, &r, &g, &b, &a);

4009

}

4010

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

4011

STAGE_GP(evenly_spaced_gradient, const SkRasterPipeline_GradientCtx* c) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

4012

auto t = x;

4013

auto idx = trunc_(t * (c->stopCount-1));

4014

gradient_lookup(c, idx, t, &r, &g, &b, &a);

4015

}

4016

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

4017

STAGE_GP(evenly_spaced_2_stop_gradient, const SkRasterPipeline_EvenlySpaced2StopGradientCtx* c) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

4018

auto t = x;

Mike Klein

24de648

2018-09-07 12:05:29 -0400

[diff] [blame]

4019

round_F_to_U16(mad(t, c->f[0], c->b[0]),

4020

mad(t, c->f[1], c->b[1]),

4021

mad(t, c->f[2], c->b[2]),

4022

mad(t, c->f[3], c->b[3]),

4023

c->interpolatedInPremul,

4024

&r,&g,&b,&a);

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

4025

}

4026

4027

STAGE_GG(xy_to_unit_angle, Ctx::None) {

F xabs = abs_(x),

yabs = abs_(y);

F slope = min(xabs, yabs)/max(xabs, yabs);

4032

F s = slope * slope;

4033

4034

// Use a 7th degree polynomial to approximate atan.

4035

// This was generated using sollya.gforge.inria.fr.

4036

// A float optimized polynomial was generated using the following command.

4037

// P1 = fpminimax((1/(2*Pi))*atan(x),[|1,3,5,7|],[|24...|],[2^(-40),1],relative);

4038

F phi = slope

4039

* (0.15912117063999176025390625f + s

4040

* (-5.185396969318389892578125e-2f + s

4041

* (2.476101927459239959716796875e-2f + s

4042

* (-7.0547382347285747528076171875e-3f))));

4043

4044

phi = if_then_else(xabs < yabs, 1.0f/4.0f - phi, phi);

4045

phi = if_then_else(x < 0.0f , 1.0f/2.0f - phi, phi);

4046

phi = if_then_else(y < 0.0f , 1.0f - phi , phi);

4047

phi = if_then_else(phi != phi , 0 , phi); // Check for NaN.

4048

x = phi;

4049

}

4050

STAGE_GG(xy_to_radius, Ctx::None) {

4051

x = sqrt_(x*x + y*y);

4052

}

4053

4054

// ~~~~~~ Compound stages ~~~~~~ //

4055

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

4056

STAGE_PP(srcover_rgba_8888, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

4057

auto ptr = ptr_at_xy<uint32_t>(ctx, dx,dy);

4058

4059

load_8888_(ptr, tail, &dr,&dg,&db,&da);

4060

r = r + div255( dr*inv(a) );

4061

g = g + div255( dg*inv(a) );

4062

b = b + div255( db*inv(a) );

4063

a = a + div255( da*inv(a) );

4064

store_8888_(ptr, tail, r,g,b,a);

4065

}

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4066

Mike Reed

cf27e74

2019-03-03 22:12:16 +0000

[diff] [blame]

4067

#if defined(SK_DISABLE_LOWP_BILERP_CLAMP_CLAMP_STAGE)

4068

static void(*bilerp_clamp_8888)(void) = nullptr;

Mike Klein

2019-08-13 12:22:17 -0400

[diff] [blame]

4069

static void(*bilinear)(void) = nullptr;

Mike Reed

cf27e74

2019-03-03 22:12:16 +0000

[diff] [blame]

4070

#else

Mike Klein

2019-10-17 20:13:14 +0000

[diff] [blame]

4071

STAGE_GP(bilerp_clamp_8888, const SkRasterPipeline_GatherCtx* ctx) {

4072

// (cx,cy) are the center of our sample.

F cx = x,

cy = y;

// All sample points are at the same fractional offset (fx,fy).

4077

// They're the 4 corners of a logical 1x1 pixel surrounding (x,y) at (0.5,0.5) offsets.

4078

F fx = fract(cx + 0.5f),

4079

fy = fract(cy + 0.5f);

4080

4081

// We'll accumulate the color of all four samples into {r,g,b,a} directly.

4082

r = g = b = a = 0;

4083

4084

// The first three sample points will calculate their area using math

4085

// just like in the float code above, but the fourth will take up all the rest.

4086

//

4087

// Logically this is the same as doing the math for the fourth pixel too,

4088

// but rounding error makes this a better strategy, keeping opaque opaque, etc.

4089

//

4090

// We can keep up to 8 bits of fractional precision without overflowing 16-bit,

4091

// so our "1.0" area is 256.

4092

const uint16_t bias = 256;

4093

U16 remaining = bias;

4094

4095

for (float dy = -0.5f; dy <= +0.5f; dy += 1.0f)

4096

for (float dx = -0.5f; dx <= +0.5f; dx += 1.0f) {

4097

// (x,y) are the coordinates of this sample point.

F x = cx + dx,

y = cy + dy;

// ix_and_ptr() will clamp to the image's bounds for us.

4102

const uint32_t* ptr;

4103

U32 ix = ix_and_ptr(&ptr, ctx, x,y);

4104

4105

U16 sr,sg,sb,sa;

4106

from_8888(gather<U32>(ptr, ix), &sr,&sg,&sb,&sa);

4107

4108

// In bilinear interpolation, the 4 pixels at +/- 0.5 offsets from the sample pixel center

4109

// are combined in direct proportion to their area overlapping that logical query pixel.

4110

// At positive offsets, the x-axis contribution to that rectangle is fx,

4111

// or (1-fx) at negative x. Same deal for y.

4112

F sx = (dx > 0) ? fx : 1.0f - fx,

4113

sy = (dy > 0) ? fy : 1.0f - fy;

4114

4115

U16 area = (dy == 0.5f && dx == 0.5f) ? remaining

4116

: cast<U16>(sx * sy * bias);

4117

for (size_t i = 0; i < N; i++) {

4118

SkASSERT(remaining[i] >= area[i]);

}

remaining -= area;

r += sr * area;

g += sg * area;

b += sb * area;

a += sa * area;

}

r = (r + bias/2) / bias;

4129

g = (g + bias/2) / bias;

4130

b = (b + bias/2) / bias;

4131

a = (a + bias/2) / bias;

4132

}

4133

Mike Klein

2019-08-13 12:22:17 -0400

[diff] [blame]

4134

// TODO: lowp::tile() is identical to the highp tile()... share?

4135

SI F tile(F v, SkTileMode mode, float limit, float invLimit) {

4136

// After ix_and_ptr() will clamp the output of tile(), so we need not clamp here.

4137

switch (mode) {

4138

case SkTileMode::kDecal: // TODO, for now fallthrough to clamp

4139

case SkTileMode::kClamp: return v;

4140

case SkTileMode::kRepeat: return v - floor_(v*invLimit)*limit;

4141

case SkTileMode::kMirror:

4142

return abs_( (v-limit) - (limit+limit)*floor_((v-limit)*(invLimit*0.5f)) - limit );

}

SkUNREACHABLE;

}

SI void sample(const SkRasterPipeline_SamplerCtx2* ctx, F x, F y,

4148

U16* r, U16* g, U16* b, U16* a) {

4149

x = tile(x, ctx->tileX, ctx->width , ctx->invWidth );

4150

y = tile(y, ctx->tileY, ctx->height, ctx->invHeight);

4151

4152

switch (ctx->ct) {

4153

default: *r = *g = *b = *a = 0; // TODO

4154

break;

4155

4156

case kRGBA_8888_SkColorType:

4157

case kBGRA_8888_SkColorType: {

4158

const uint32_t* ptr;

4159

U32 ix = ix_and_ptr(&ptr, ctx, x,y);

4160

from_8888(gather<U32>(ptr, ix), r,g,b,a);

4161

if (ctx->ct == kBGRA_8888_SkColorType) {

std::swap(*r,*b);

}

} break;

}

}

template <int D>

SI void sampler(const SkRasterPipeline_SamplerCtx2* ctx,

4170

F cx, F cy, const F (&wx)[D], const F (&wy)[D],

4171

U16* r, U16* g, U16* b, U16* a) {

4172

4173

float start = -0.5f*(D-1);

4174

4175

const uint16_t bias = 256;

4176

U16 remaining = bias;

4177

4178

*r = *g = *b = *a = 0;

4179

F y = cy + start;

4180

for (int j = 0; j < D; j++, y += 1.0f) {

4181

F x = cx + start;

4182

for (int i = 0; i < D; i++, x += 1.0f) {

4183

U16 R,G,B,A;

4184

sample(ctx, x,y, &R,&G,&B,&A);

4185

4186

U16 w = (i == D-1 && j == D-1) ? remaining

4187

: cast<U16>(wx[i]*wy[j]*bias);

remaining -= w;

*r += w*R;

*g += w*G;

*b += w*B;

*a += w*A;

}

}

*r = (*r + bias/2) / bias;

4196

*g = (*g + bias/2) / bias;

4197

*b = (*b + bias/2) / bias;

4198

*a = (*a + bias/2) / bias;

4199

}

4200

4201

STAGE_GP(bilinear, const SkRasterPipeline_SamplerCtx2* ctx) {

4202

F fx = fract(x + 0.5f),

4203

fy = fract(y + 0.5f);

4204

const F wx[] = {1.0f - fx, fx};

4205

const F wy[] = {1.0f - fy, fy};

4206

4207

sampler(ctx, x,y, wx,wy, &r,&g,&b,&a);

4208

}

Mike Reed

cf27e74

2019-03-03 22:12:16 +0000

[diff] [blame]

4209

#endif

4210

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

4211

// ~~~~~~ GrSwizzle stage ~~~~~~ //

4212

4213

STAGE_PP(swizzle, void* ctx) {

4214

auto ir = r, ig = g, ib = b, ia = a;

4215

U16* o[] = {&r, &g, &b, &a};

4216

char swiz[4];

4217

memcpy(swiz, &ctx, sizeof(swiz));

4218

4219

for (int i = 0; i < 4; ++i) {

4220

switch (swiz[i]) {

4221

case 'r': *o[i] = ir; break;

4222

case 'g': *o[i] = ig; break;

4223

case 'b': *o[i] = ib; break;

4224

case 'a': *o[i] = ia; break;

Brian Salomon

f30b1c1

2019-06-20 12:25:02 -0400

[diff] [blame]

4225

case '0': *o[i] = U16(0); break;

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

4226

case '1': *o[i] = U16(255); break;

default: break;

}

}

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

4232

// Now we'll add null stand-ins for stages we haven't implemented in lowp.

4233

// If a pipeline uses these stages, it'll boot it out of lowp into highp.

Mike Klein

8b0f9d1

2019-01-03 11:26:57 -0500

[diff] [blame]

4234

#define NOT_IMPLEMENTED(st) static void (*st)(void) = nullptr;

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4235

NOT_IMPLEMENTED(callback)

Brian Osman

2019-06-19 11:40:33 -0400

[diff] [blame]

4236

NOT_IMPLEMENTED(interpreter)

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4237

NOT_IMPLEMENTED(unbounded_set_rgb)

4238

NOT_IMPLEMENTED(unbounded_uniform_color)

4239

NOT_IMPLEMENTED(unpremul)

Mike Klein

2019-03-01 11:31:28 -0600

[diff] [blame]

4240

NOT_IMPLEMENTED(dither) // TODO

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4241

NOT_IMPLEMENTED(from_srgb)

4242

NOT_IMPLEMENTED(to_srgb)

Brian Salomon

2019-06-12 17:42:58 -0400

[diff] [blame]

4243

NOT_IMPLEMENTED(load_16161616)

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

4244

NOT_IMPLEMENTED(load_16161616_dst)

Brian Salomon

2019-06-12 17:42:58 -0400

[diff] [blame]

4245

NOT_IMPLEMENTED(store_16161616)

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

4246

NOT_IMPLEMENTED(gather_16161616)

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

4247

NOT_IMPLEMENTED(load_a16)

Robert Phillips

2019-09-11 17:03:28 -0400

[diff] [blame]

4248

NOT_IMPLEMENTED(load_a16_dst)

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

4249

NOT_IMPLEMENTED(store_a16)

Robert Phillips

2019-09-11 17:03:28 -0400

[diff] [blame]

4250

NOT_IMPLEMENTED(gather_a16)

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

4251

NOT_IMPLEMENTED(load_rg1616)

Robert Phillips

2019-09-11 17:03:28 -0400

[diff] [blame]

4252

NOT_IMPLEMENTED(load_rg1616_dst)

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

4253

NOT_IMPLEMENTED(store_rg1616)

Robert Phillips

2019-09-11 17:03:28 -0400

[diff] [blame]

4254

NOT_IMPLEMENTED(gather_rg1616)

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4255

NOT_IMPLEMENTED(load_f16)

4256

NOT_IMPLEMENTED(load_f16_dst)

4257

NOT_IMPLEMENTED(store_f16)

4258

NOT_IMPLEMENTED(gather_f16)

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

4259

NOT_IMPLEMENTED(load_af16)

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

4260

NOT_IMPLEMENTED(load_af16_dst)

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

4261

NOT_IMPLEMENTED(store_af16)

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

4262

NOT_IMPLEMENTED(gather_af16)

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

4263

NOT_IMPLEMENTED(load_rgf16)

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

4264

NOT_IMPLEMENTED(load_rgf16_dst)

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

4265

NOT_IMPLEMENTED(store_rgf16)

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

4266

NOT_IMPLEMENTED(gather_rgf16)

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4267

NOT_IMPLEMENTED(load_f32)

4268

NOT_IMPLEMENTED(load_f32_dst)

4269

NOT_IMPLEMENTED(store_f32)

4270

NOT_IMPLEMENTED(gather_f32)

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

4271

NOT_IMPLEMENTED(load_rgf32)

4272

NOT_IMPLEMENTED(store_rgf32)

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4273

NOT_IMPLEMENTED(load_1010102)

4274

NOT_IMPLEMENTED(load_1010102_dst)

4275

NOT_IMPLEMENTED(store_1010102)

4276

NOT_IMPLEMENTED(gather_1010102)

4277

NOT_IMPLEMENTED(store_u16_be)

Mike Klein

2019-03-01 11:31:28 -0600

[diff] [blame]

4278

NOT_IMPLEMENTED(byte_tables) // TODO

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4279

NOT_IMPLEMENTED(colorburn)

4280

NOT_IMPLEMENTED(colordodge)

4281

NOT_IMPLEMENTED(softlight)

4282

NOT_IMPLEMENTED(hue)

4283

NOT_IMPLEMENTED(saturation)

4284

NOT_IMPLEMENTED(color)

4285

NOT_IMPLEMENTED(luminosity)

4286

NOT_IMPLEMENTED(matrix_3x3)

4287

NOT_IMPLEMENTED(matrix_3x4)

Mike Klein

2019-03-01 11:31:28 -0600

[diff] [blame]

4288

NOT_IMPLEMENTED(matrix_4x5) // TODO

4289

NOT_IMPLEMENTED(matrix_4x3) // TODO

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4290

NOT_IMPLEMENTED(parametric)

Mike Klein

1ce03a6

2019-04-23 08:00:35 -0500

[diff] [blame]

4291

NOT_IMPLEMENTED(gamma_)

Brian Osman

11e6aa8

2019-10-16 13:58:42 -0400

[diff] [blame]

4292

NOT_IMPLEMENTED(PQish)

4293

NOT_IMPLEMENTED(HLGish)

4294

NOT_IMPLEMENTED(HLGinvish)

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4295

NOT_IMPLEMENTED(rgb_to_hsl)

4296

NOT_IMPLEMENTED(hsl_to_rgb)

Mike Klein

2019-03-01 11:31:28 -0600

[diff] [blame]

4297

NOT_IMPLEMENTED(gauss_a_to_rgba) // TODO

4298

NOT_IMPLEMENTED(mirror_x) // TODO

4299

NOT_IMPLEMENTED(repeat_x) // TODO

4300

NOT_IMPLEMENTED(mirror_y) // TODO

4301

NOT_IMPLEMENTED(repeat_y) // TODO

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4302

NOT_IMPLEMENTED(negate_x)

Mike Klein

2019-08-13 12:22:17 -0400

[diff] [blame]

4303

NOT_IMPLEMENTED(bicubic) // TODO if I can figure out negative weights

Mike Reed

78eedba

2019-07-31 16:39:15 -0400

[diff] [blame]

4304

NOT_IMPLEMENTED(bicubic_clamp_8888)

Mike Klein

2019-03-01 11:31:28 -0600

[diff] [blame]

4305

NOT_IMPLEMENTED(bilinear_nx) // TODO

4306

NOT_IMPLEMENTED(bilinear_ny) // TODO

4307

NOT_IMPLEMENTED(bilinear_px) // TODO

4308

NOT_IMPLEMENTED(bilinear_py) // TODO

4309

NOT_IMPLEMENTED(bicubic_n3x) // TODO

4310

NOT_IMPLEMENTED(bicubic_n1x) // TODO

4311

NOT_IMPLEMENTED(bicubic_p1x) // TODO

4312

NOT_IMPLEMENTED(bicubic_p3x) // TODO

4313

NOT_IMPLEMENTED(bicubic_n3y) // TODO

4314

NOT_IMPLEMENTED(bicubic_n1y) // TODO

4315

NOT_IMPLEMENTED(bicubic_p1y) // TODO

4316

NOT_IMPLEMENTED(bicubic_p3y) // TODO

4317

NOT_IMPLEMENTED(save_xy) // TODO

4318

NOT_IMPLEMENTED(accumulate) // TODO

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4319

NOT_IMPLEMENTED(xy_to_2pt_conical_well_behaved)

4320

NOT_IMPLEMENTED(xy_to_2pt_conical_strip)

4321

NOT_IMPLEMENTED(xy_to_2pt_conical_focal_on_circle)

4322

NOT_IMPLEMENTED(xy_to_2pt_conical_smaller)

4323

NOT_IMPLEMENTED(xy_to_2pt_conical_greater)

4324

NOT_IMPLEMENTED(alter_2pt_conical_compensate_focal)

4325

NOT_IMPLEMENTED(alter_2pt_conical_unswap)

4326

NOT_IMPLEMENTED(mask_2pt_conical_nan)

4327

NOT_IMPLEMENTED(mask_2pt_conical_degenerates)

4328

NOT_IMPLEMENTED(apply_vector_mask)

4329

#undef NOT_IMPLEMENTED

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

4330

Mike Klein