Blame - src/opts/SkRasterPipeline_opts.h - platform/external/skia

2017-02-15 13:31:12 -0500

[diff] [blame]

1

/*

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

2

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

3

*

4

* Use of this source code is governed by a BSD-style license that can be

5

* found in the LICENSE file.

6

*/

7

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

8

#ifndef SkRasterPipeline_opts_DEFINED

9

#define SkRasterPipeline_opts_DEFINED

Mike Klein

2017-04-03 13:54:55 -0400

[diff] [blame]

10

Brian Osman

7190399

2020-05-12 13:40:01 -0400

[diff] [blame]

11

#include "include/core/SkData.h"

Mike Klein

c0bd9f9

2019-04-23 12:05:21 -0500

[diff] [blame]

12

#include "include/core/SkTypes.h"

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

13

#include "src/core/SkUtils.h" // unaligned_{load,store}

Herb Derby

2021-09-28 17:37:00 -0400

[diff] [blame]

14

#include <cstdint>

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

15

16

// Every function in this file should be marked static and inline using SI.

17

#if defined(__clang__)

18

#define SI __attribute__((always_inline)) static inline

19

#else

20

#define SI static inline

21

#endif

22

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

23

template <typename Dst, typename Src>

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

24

SI Dst widen_cast(const Src& src) {

John Stiles

7109434

2020-07-24 10:05:43 -0400

[diff] [blame]

25

static_assert(sizeof(Dst) > sizeof(Src));

26

static_assert(std::is_trivially_copyable<Dst>::value);

27

static_assert(std::is_trivially_copyable<Src>::value);

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

28

Dst dst;

29

memcpy(&dst, &src, sizeof(Src));

return dst;

}

// Our program is an array of void*, either

34

// - 1 void* per stage with no context pointer, the next stage;

35

// - 2 void* per stage with a context pointer, first the context pointer, then the next stage.

36

37

// load_and_inc() steps the program forward by 1 void*, returning that pointer.

38

SI void* load_and_inc(void**& program) {

39

#if defined(__GNUC__) && defined(__x86_64__)

40

// If program is in %rsi (we try to make this likely) then this is a single instruction.

41

void* rax;

42

asm("lodsq" : "=a"(rax), "+S"(program)); // Write-only %rax, read-write %rsi.

43

return rax;

44

#else

45

// On ARM *program++ compiles into pretty ideal code without any handholding.

return *program++;

#endif

}

// Lazily resolved on first cast. Does nothing if cast to Ctx::None.

struct Ctx {

struct None {};

void* ptr;

void**& program;

explicit Ctx(void**& p) : ptr(nullptr), program(p) {}

58

59

template <typename T>

60

operator T*() {

61

if (!ptr) { ptr = load_and_inc(program); }

62

return (T*)ptr;

63

}

64

operator None() { return None{}; }

65

};

66

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

67

68

#if !defined(__clang__)

69

#define JUMPER_IS_SCALAR

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

70

#elif defined(SK_ARM_HAS_NEON)

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

71

#define JUMPER_IS_NEON

Mike Klein

2020-04-24 08:16:22 -0500

[diff] [blame]

72

#elif SK_CPU_SSE_LEVEL >= SK_CPU_SSE_LEVEL_SKX

73

#define JUMPER_IS_SKX

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

74

#elif SK_CPU_SSE_LEVEL >= SK_CPU_SSE_LEVEL_AVX2

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

75

#define JUMPER_IS_HSW

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

76

#elif SK_CPU_SSE_LEVEL >= SK_CPU_SSE_LEVEL_AVX

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

77

#define JUMPER_IS_AVX

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

78

#elif SK_CPU_SSE_LEVEL >= SK_CPU_SSE_LEVEL_SSE41

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

79

#define JUMPER_IS_SSE41

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

80

#elif SK_CPU_SSE_LEVEL >= SK_CPU_SSE_LEVEL_SSE2

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

81

#define JUMPER_IS_SSE2

82

#else

83

#define JUMPER_IS_SCALAR

84

#endif

85

86

// Older Clangs seem to crash when generating non-optimized NEON code for ARMv7.

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

87

#if defined(__clang__) && !defined(__OPTIMIZE__) && defined(SK_CPU_ARM32)

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

88

// Apple Clang 9 and vanilla Clang 5 are fine, and may even be conservative.

89

#if defined(__apple_build_version__) && __clang_major__ < 9

90

#define JUMPER_IS_SCALAR

91

#elif __clang_major__ < 5

92

#define JUMPER_IS_SCALAR

93

#endif

Mike Klein

b54d223

2018-06-01 15:53:21 -0400

[diff] [blame]

94

95

#if defined(JUMPER_IS_NEON) && defined(JUMPER_IS_SCALAR)

96

#undef JUMPER_IS_NEON

97

#endif

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

98

#endif

99

100

#if defined(JUMPER_IS_SCALAR)

Mike Klein

5cc94cc

2018-03-07 17:04:18 +0000

[diff] [blame]

101

#include <math.h>

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

102

#elif defined(JUMPER_IS_NEON)

103

#include <arm_neon.h>

104

#else

105

#include <immintrin.h>

106

#endif

Mike Klein

5cc94cc

2018-03-07 17:04:18 +0000

[diff] [blame]

107

Herb Derby

2021-09-15 17:25:01 -0400

[diff] [blame]

108

// Notes:

109

// * rcp_fast and rcp_precise both produce a reciprocal, but rcp_fast is an estimate with at least

110

// 12 bits of precision while rcp_precise should be accurate for float size. For ARM rcp_precise

111

// requires 2 Newton-Raphson refinement steps because its estimate has 8 bit precision, and for

112

// Intel this requires one additional step because its estimate has 12 bit precision.

John Stiles

bb30fc1

2021-09-21 22:39:27 +0000

[diff] [blame]

113

Herb Derby

2021-09-15 17:25:01 -0400

[diff] [blame]

114

namespace SK_OPTS_NS {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

115

#if defined(JUMPER_IS_SCALAR)

116

// This path should lead to portable scalar code.

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

117

using F = float ;

118

using I32 = int32_t;

119

using U64 = uint64_t;

120

using U32 = uint32_t;

121

using U16 = uint16_t;

122

using U8 = uint8_t ;

123

124

SI F mad(F f, F m, F a) { return f*m+a; }

125

SI F min(F a, F b) { return fminf(a,b); }

126

SI F max(F a, F b) { return fmaxf(a,b); }

127

SI F abs_ (F v) { return fabsf(v); }

128

SI F floor_(F v) { return floorf(v); }

Herb Derby

2021-09-15 17:25:01 -0400

[diff] [blame]

129

SI F rcp_fast(F v) { return 1.0f / v; }

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

130

SI F rsqrt (F v) { return 1.0f / sqrtf(v); }

Herb Derby

2021-09-15 17:25:01 -0400

[diff] [blame]

131

SI F sqrt_ (F v) { return sqrtf(v); }

132

SI F rcp_precise (F v) { return 1.0f / v; }

133

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

134

SI U32 round (F v, F scale) { return (uint32_t)(v*scale + 0.5f); }

135

SI U16 pack(U32 v) { return (U16)v; }

136

SI U8 pack(U16 v) { return (U8)v; }

137

138

SI F if_then_else(I32 c, F t, F e) { return c ? t : e; }

139

140

template <typename T>

141

SI T gather(const T* p, U32 ix) { return p[ix]; }

142

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

143

SI void load2(const uint16_t* ptr, size_t tail, U16* r, U16* g) {

*r = ptr[0];

*g = ptr[1];

}

SI void store2(uint16_t* ptr, size_t tail, U16 r, U16 g) {

148

ptr[0] = r;

149

ptr[1] = g;

150

}

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

151

SI void load3(const uint16_t* ptr, size_t tail, U16* r, U16* g, U16* b) {

*r = ptr[0];

*g = ptr[1];

*b = ptr[2];

}

SI void load4(const uint16_t* ptr, size_t tail, U16* r, U16* g, U16* b, U16* a) {

*r = ptr[0];

*g = ptr[1];

*b = ptr[2];

*a = ptr[3];

}

SI void store4(uint16_t* ptr, size_t tail, U16 r, U16 g, U16 b, U16 a) {

ptr[0] = r;

ptr[1] = g;

ptr[2] = b;

ptr[3] = a;

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

169

SI void load2(const float* ptr, size_t tail, F* r, F* g) {

*r = ptr[0];

*g = ptr[1];

}

SI void store2(float* ptr, size_t tail, F r, F g) {

174

ptr[0] = r;

175

ptr[1] = g;

176

}

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

177

SI void load4(const float* ptr, size_t tail, F* r, F* g, F* b, F* a) {

*r = ptr[0];

*g = ptr[1];

*b = ptr[2];

*a = ptr[3];

}

SI void store4(float* ptr, size_t tail, F r, F g, F b, F a) {

ptr[0] = r;

ptr[1] = g;

ptr[2] = b;

ptr[3] = a;

}

#elif defined(JUMPER_IS_NEON)

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

191

// Since we know we're using Clang, we can use its vector extensions.

192

template <typename T> using V = T __attribute__((ext_vector_type(4)));

193

using F = V<float >;

194

using I32 = V< int32_t>;

195

using U64 = V<uint64_t>;

196

using U32 = V<uint32_t>;

197

using U16 = V<uint16_t>;

198

using U8 = V<uint8_t >;

199

200

// We polyfill a few routines that Clang doesn't build into ext_vector_types.

201

SI F min(F a, F b) { return vminq_f32(a,b); }

202

SI F max(F a, F b) { return vmaxq_f32(a,b); }

203

SI F abs_ (F v) { return vabsq_f32(v); }

Herb Derby

2021-09-15 17:25:01 -0400

[diff] [blame]

204

SI F rcp_fast(F v) { auto e = vrecpeq_f32 (v); return vrecpsq_f32 (v,e ) * e; }

205

SI F rcp_precise (F v) { auto e = rcp_fast(v); return vrecpsq_f32 (v,e ) * e; }

206

SI F rsqrt (F v) { auto e = vrsqrteq_f32(v); return vrsqrtsq_f32(v,e*e) * e; }

207

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

208

SI U16 pack(U32 v) { return __builtin_convertvector(v, U16); }

209

SI U8 pack(U16 v) { return __builtin_convertvector(v, U8); }

210

211

SI F if_then_else(I32 c, F t, F e) { return vbslq_f32((U32)c,t,e); }

212

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

213

#if defined(SK_CPU_ARM64)

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

214

SI F mad(F f, F m, F a) { return vfmaq_f32(a,f,m); }

215

SI F floor_(F v) { return vrndmq_f32(v); }

216

SI F sqrt_(F v) { return vsqrtq_f32(v); }

217

SI U32 round(F v, F scale) { return vcvtnq_u32_f32(v*scale); }

218

#else

219

SI F mad(F f, F m, F a) { return vmlaq_f32(a,f,m); }

220

SI F floor_(F v) {

221

F roundtrip = vcvtq_f32_s32(vcvtq_s32_f32(v));

222

return roundtrip - if_then_else(roundtrip > v, 1, 0);

}

SI F sqrt_(F v) {

auto e = vrsqrteq_f32(v); // Estimate and two refinement steps for e = rsqrt(v).

227

e *= vrsqrtsq_f32(v,e*e);

228

e *= vrsqrtsq_f32(v,e*e);

229

return v*e; // sqrt(v) == v*rsqrt(v).

230

}

231

232

SI U32 round(F v, F scale) {

233

return vcvtq_u32_f32(mad(v,scale,0.5f));

}

#endif

template <typename T>

239

SI V<T> gather(const T* p, U32 ix) {

240

return {p[ix[0]], p[ix[1]], p[ix[2]], p[ix[3]]};

241

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

242

SI void load2(const uint16_t* ptr, size_t tail, U16* r, U16* g) {

243

uint16x4x2_t rg;

244

if (__builtin_expect(tail,0)) {

245

if ( true ) { rg = vld2_lane_u16(ptr + 0, rg, 0); }

246

if (tail > 1) { rg = vld2_lane_u16(ptr + 2, rg, 1); }

247

if (tail > 2) { rg = vld2_lane_u16(ptr + 4, rg, 2); }

} else {

rg = vld2_u16(ptr);

}

*r = rg.val[0];

*g = rg.val[1];

}

SI void store2(uint16_t* ptr, size_t tail, U16 r, U16 g) {

255

if (__builtin_expect(tail,0)) {

256

if ( true ) { vst2_lane_u16(ptr + 0, (uint16x4x2_t{{r,g}}), 0); }

257

if (tail > 1) { vst2_lane_u16(ptr + 2, (uint16x4x2_t{{r,g}}), 1); }

258

if (tail > 2) { vst2_lane_u16(ptr + 4, (uint16x4x2_t{{r,g}}), 2); }

259

} else {

260

vst2_u16(ptr, (uint16x4x2_t{{r,g}}));

261

}

262

}

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

263

SI void load3(const uint16_t* ptr, size_t tail, U16* r, U16* g, U16* b) {

264

uint16x4x3_t rgb;

265

if (__builtin_expect(tail,0)) {

266

if ( true ) { rgb = vld3_lane_u16(ptr + 0, rgb, 0); }

267

if (tail > 1) { rgb = vld3_lane_u16(ptr + 3, rgb, 1); }

268

if (tail > 2) { rgb = vld3_lane_u16(ptr + 6, rgb, 2); }

} else {

rgb = vld3_u16(ptr);

}

*r = rgb.val[0];

*g = rgb.val[1];

*b = rgb.val[2];

}

SI void load4(const uint16_t* ptr, size_t tail, U16* r, U16* g, U16* b, U16* a) {

277

uint16x4x4_t rgba;

278

if (__builtin_expect(tail,0)) {

279

if ( true ) { rgba = vld4_lane_u16(ptr + 0, rgba, 0); }

280

if (tail > 1) { rgba = vld4_lane_u16(ptr + 4, rgba, 1); }

281

if (tail > 2) { rgba = vld4_lane_u16(ptr + 8, rgba, 2); }

282

} else {

283

rgba = vld4_u16(ptr);

}

*r = rgba.val[0];

*g = rgba.val[1];

*b = rgba.val[2];

*a = rgba.val[3];

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

290

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

291

SI void store4(uint16_t* ptr, size_t tail, U16 r, U16 g, U16 b, U16 a) {

292

if (__builtin_expect(tail,0)) {

293

if ( true ) { vst4_lane_u16(ptr + 0, (uint16x4x4_t{{r,g,b,a}}), 0); }

294

if (tail > 1) { vst4_lane_u16(ptr + 4, (uint16x4x4_t{{r,g,b,a}}), 1); }

295

if (tail > 2) { vst4_lane_u16(ptr + 8, (uint16x4x4_t{{r,g,b,a}}), 2); }

296

} else {

297

vst4_u16(ptr, (uint16x4x4_t{{r,g,b,a}}));

298

}

299

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

300

SI void load2(const float* ptr, size_t tail, F* r, F* g) {

301

float32x4x2_t rg;

302

if (__builtin_expect(tail,0)) {

303

if ( true ) { rg = vld2q_lane_f32(ptr + 0, rg, 0); }

304

if (tail > 1) { rg = vld2q_lane_f32(ptr + 2, rg, 1); }

305

if (tail > 2) { rg = vld2q_lane_f32(ptr + 4, rg, 2); }

} else {

rg = vld2q_f32(ptr);

}

*r = rg.val[0];

*g = rg.val[1];

}

SI void store2(float* ptr, size_t tail, F r, F g) {

313

if (__builtin_expect(tail,0)) {

314

if ( true ) { vst2q_lane_f32(ptr + 0, (float32x4x2_t{{r,g}}), 0); }

315

if (tail > 1) { vst2q_lane_f32(ptr + 2, (float32x4x2_t{{r,g}}), 1); }

316

if (tail > 2) { vst2q_lane_f32(ptr + 4, (float32x4x2_t{{r,g}}), 2); }

317

} else {

318

vst2q_f32(ptr, (float32x4x2_t{{r,g}}));

319

}

320

}

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

321

SI void load4(const float* ptr, size_t tail, F* r, F* g, F* b, F* a) {

322

float32x4x4_t rgba;

323

if (__builtin_expect(tail,0)) {

324

if ( true ) { rgba = vld4q_lane_f32(ptr + 0, rgba, 0); }

325

if (tail > 1) { rgba = vld4q_lane_f32(ptr + 4, rgba, 1); }

326

if (tail > 2) { rgba = vld4q_lane_f32(ptr + 8, rgba, 2); }

327

} else {

328

rgba = vld4q_f32(ptr);

}

*r = rgba.val[0];

*g = rgba.val[1];

*b = rgba.val[2];

*a = rgba.val[3];

}

SI void store4(float* ptr, size_t tail, F r, F g, F b, F a) {

336

if (__builtin_expect(tail,0)) {

337

if ( true ) { vst4q_lane_f32(ptr + 0, (float32x4x4_t{{r,g,b,a}}), 0); }

338

if (tail > 1) { vst4q_lane_f32(ptr + 4, (float32x4x4_t{{r,g,b,a}}), 1); }

339

if (tail > 2) { vst4q_lane_f32(ptr + 8, (float32x4x4_t{{r,g,b,a}}), 2); }

340

} else {

341

vst4q_f32(ptr, (float32x4x4_t{{r,g,b,a}}));

}

}

Herb Derby

2021-09-28 14:51:04 -0400

[diff] [blame]

345

#elif defined(JUMPER_IS_HSW) || defined(JUMPER_IS_SKX)

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

346

// These are __m256 and __m256i, but friendlier and strongly-typed.

347

template <typename T> using V = T __attribute__((ext_vector_type(8)));

348

using F = V<float >;

349

using I32 = V< int32_t>;

350

using U64 = V<uint64_t>;

351

using U32 = V<uint32_t>;

352

using U16 = V<uint16_t>;

353

using U8 = V<uint8_t >;

354

355

SI F mad(F f, F m, F a) {

Mike Klein

2020-04-24 08:16:22 -0500

[diff] [blame]

356

#if defined(JUMPER_IS_HSW) || defined(JUMPER_IS_SKX)

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

357

return _mm256_fmadd_ps(f,m,a);

#else

return f*m+a;

#endif

}

Herb Derby

2021-09-15 17:25:01 -0400

[diff] [blame]

363

SI F min(F a, F b) { return _mm256_min_ps(a,b); }

364

SI F max(F a, F b) { return _mm256_max_ps(a,b); }

365

SI F abs_ (F v) { return _mm256_and_ps(v, 0-v); }

366

SI F floor_(F v) { return _mm256_floor_ps(v); }

367

SI F rcp_fast(F v) { return _mm256_rcp_ps (v); }

368

SI F rsqrt (F v) { return _mm256_rsqrt_ps(v); }

369

SI F sqrt_ (F v) { return _mm256_sqrt_ps (v); }

370

SI F rcp_precise (F v) {

371

F e = rcp_fast(v);

372

#if defined(JUMPER_IS_HSW) || defined(JUMPER_IS_SKX)

373

return _mm256_fnmadd_ps(v, e, _mm256_set1_ps(2.0f)) * e;

374

#else

375

return e * (2.0f - v * e);

376

#endif

377

}

John Stiles

bb30fc1

2021-09-21 22:39:27 +0000

[diff] [blame]

378

Herb Derby

2021-09-15 17:25:01 -0400

[diff] [blame]

379

380

SI U32 round (F v, F scale) { return _mm256_cvtps_epi32(v*scale); }

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

381

SI U16 pack(U32 v) {

382

return _mm_packus_epi32(_mm256_extractf128_si256(v, 0),

383

_mm256_extractf128_si256(v, 1));

384

}

385

SI U8 pack(U16 v) {

386

auto r = _mm_packus_epi16(v,v);

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

387

return sk_unaligned_load<U8>(&r);

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

388

}

389

390

SI F if_then_else(I32 c, F t, F e) { return _mm256_blendv_ps(e,t,c); }

391

392

template <typename T>

393

SI V<T> gather(const T* p, U32 ix) {

394

return { p[ix[0]], p[ix[1]], p[ix[2]], p[ix[3]],

395

p[ix[4]], p[ix[5]], p[ix[6]], p[ix[7]], };

396

}

Mike Klein

2020-04-24 08:16:22 -0500

[diff] [blame]

397

#if defined(JUMPER_IS_HSW) || defined(JUMPER_IS_SKX)

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

398

SI F gather(const float* p, U32 ix) { return _mm256_i32gather_ps (p, ix, 4); }

399

SI U32 gather(const uint32_t* p, U32 ix) { return _mm256_i32gather_epi32(p, ix, 4); }

400

SI U64 gather(const uint64_t* p, U32 ix) {

401

__m256i parts[] = {

402

_mm256_i32gather_epi64(p, _mm256_extracti128_si256(ix,0), 8),

403

_mm256_i32gather_epi64(p, _mm256_extracti128_si256(ix,1), 8),

404

};

John Stiles

2020-07-24 09:56:05 -0400

[diff] [blame]

405

return sk_bit_cast<U64>(parts);

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

}

#endif

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

409

SI void load2(const uint16_t* ptr, size_t tail, U16* r, U16* g) {

410

U16 _0123, _4567;

411

if (__builtin_expect(tail,0)) {

412

_0123 = _4567 = _mm_setzero_si128();

413

auto* d = &_0123;

414

if (tail > 3) {

415

*d = _mm_loadu_si128(((__m128i*)ptr) + 0);

tail -= 4;

ptr += 8;

d = &_4567;

}

bool high = false;

if (tail > 1) {

*d = _mm_loadu_si64(ptr);

tail -= 2;

ptr += 4;

high = true;

}

if (tail > 0) {

(*d)[high ? 4 : 0] = *(ptr + 0);

429

(*d)[high ? 5 : 1] = *(ptr + 1);

430

}

431

} else {

432

_0123 = _mm_loadu_si128(((__m128i*)ptr) + 0);

433

_4567 = _mm_loadu_si128(((__m128i*)ptr) + 1);

434

}

435

*r = _mm_packs_epi32(_mm_srai_epi32(_mm_slli_epi32(_0123, 16), 16),

436

_mm_srai_epi32(_mm_slli_epi32(_4567, 16), 16));

437

*g = _mm_packs_epi32(_mm_srai_epi32(_0123, 16),

438

_mm_srai_epi32(_4567, 16));

439

}

440

SI void store2(uint16_t* ptr, size_t tail, U16 r, U16 g) {

441

auto _0123 = _mm_unpacklo_epi16(r, g),

442

_4567 = _mm_unpackhi_epi16(r, g);

443

if (__builtin_expect(tail,0)) {

444

const auto* s = &_0123;

445

if (tail > 3) {

446

_mm_storeu_si128((__m128i*)ptr, *s);

s = &_4567;

tail -= 4;

ptr += 8;

}

bool high = false;

if (tail > 1) {

_mm_storel_epi64((__m128i*)ptr, *s);

ptr += 4;

tail -= 2;

high = true;

}

if (tail > 0) {

if (high) {

*(int32_t*)ptr = _mm_extract_epi32(*s, 2);

461

} else {

462

*(int32_t*)ptr = _mm_cvtsi128_si32(*s);

}

}

} else {

_mm_storeu_si128((__m128i*)ptr + 0, _0123);

467

_mm_storeu_si128((__m128i*)ptr + 1, _4567);

}

}

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

471

SI void load3(const uint16_t* ptr, size_t tail, U16* r, U16* g, U16* b) {

472

__m128i _0,_1,_2,_3,_4,_5,_6,_7;

473

if (__builtin_expect(tail,0)) {

474

auto load_rgb = [](const uint16_t* src) {

475

auto v = _mm_cvtsi32_si128(*(const uint32_t*)src);

476

return _mm_insert_epi16(v, src[2], 2);

477

};

478

_1 = _2 = _3 = _4 = _5 = _6 = _7 = _mm_setzero_si128();

479

if ( true ) { _0 = load_rgb(ptr + 0); }

480

if (tail > 1) { _1 = load_rgb(ptr + 3); }

481

if (tail > 2) { _2 = load_rgb(ptr + 6); }

482

if (tail > 3) { _3 = load_rgb(ptr + 9); }

483

if (tail > 4) { _4 = load_rgb(ptr + 12); }

484

if (tail > 5) { _5 = load_rgb(ptr + 15); }

485

if (tail > 6) { _6 = load_rgb(ptr + 18); }

486

} else {

487

// Load 0+1, 2+3, 4+5 normally, and 6+7 backed up 4 bytes so we don't run over.

488

auto _01 = _mm_loadu_si128((const __m128i*)(ptr + 0)) ;

489

auto _23 = _mm_loadu_si128((const __m128i*)(ptr + 6)) ;

490

auto _45 = _mm_loadu_si128((const __m128i*)(ptr + 12)) ;

491

auto _67 = _mm_srli_si128(_mm_loadu_si128((const __m128i*)(ptr + 16)), 4);

492

_0 = _01; _1 = _mm_srli_si128(_01, 6);

493

_2 = _23; _3 = _mm_srli_si128(_23, 6);

494

_4 = _45; _5 = _mm_srli_si128(_45, 6);

495

_6 = _67; _7 = _mm_srli_si128(_67, 6);

496

}

497

498

auto _02 = _mm_unpacklo_epi16(_0, _2), // r0 r2 g0 g2 b0 b2 xx xx

499

_13 = _mm_unpacklo_epi16(_1, _3),

500

_46 = _mm_unpacklo_epi16(_4, _6),

501

_57 = _mm_unpacklo_epi16(_5, _7);

502

503

auto rg0123 = _mm_unpacklo_epi16(_02, _13), // r0 r1 r2 r3 g0 g1 g2 g3

504

bx0123 = _mm_unpackhi_epi16(_02, _13), // b0 b1 b2 b3 xx xx xx xx

505

rg4567 = _mm_unpacklo_epi16(_46, _57),

506

bx4567 = _mm_unpackhi_epi16(_46, _57);

507

508

*r = _mm_unpacklo_epi64(rg0123, rg4567);

509

*g = _mm_unpackhi_epi64(rg0123, rg4567);

510

*b = _mm_unpacklo_epi64(bx0123, bx4567);

511

}

512

SI void load4(const uint16_t* ptr, size_t tail, U16* r, U16* g, U16* b, U16* a) {

513

__m128i _01, _23, _45, _67;

514

if (__builtin_expect(tail,0)) {

515

auto src = (const double*)ptr;

516

_01 = _23 = _45 = _67 = _mm_setzero_si128();

517

if (tail > 0) { _01 = _mm_loadl_pd(_01, src+0); }

518

if (tail > 1) { _01 = _mm_loadh_pd(_01, src+1); }

519

if (tail > 2) { _23 = _mm_loadl_pd(_23, src+2); }

520

if (tail > 3) { _23 = _mm_loadh_pd(_23, src+3); }

521

if (tail > 4) { _45 = _mm_loadl_pd(_45, src+4); }

522

if (tail > 5) { _45 = _mm_loadh_pd(_45, src+5); }

523

if (tail > 6) { _67 = _mm_loadl_pd(_67, src+6); }

524

} else {

525

_01 = _mm_loadu_si128(((__m128i*)ptr) + 0);

526

_23 = _mm_loadu_si128(((__m128i*)ptr) + 1);

527

_45 = _mm_loadu_si128(((__m128i*)ptr) + 2);

528

_67 = _mm_loadu_si128(((__m128i*)ptr) + 3);

529

}

530

531

auto _02 = _mm_unpacklo_epi16(_01, _23), // r0 r2 g0 g2 b0 b2 a0 a2

532

_13 = _mm_unpackhi_epi16(_01, _23), // r1 r3 g1 g3 b1 b3 a1 a3

533

_46 = _mm_unpacklo_epi16(_45, _67),

534

_57 = _mm_unpackhi_epi16(_45, _67);

535

536

auto rg0123 = _mm_unpacklo_epi16(_02, _13), // r0 r1 r2 r3 g0 g1 g2 g3

537

ba0123 = _mm_unpackhi_epi16(_02, _13), // b0 b1 b2 b3 a0 a1 a2 a3

538

rg4567 = _mm_unpacklo_epi16(_46, _57),

539

ba4567 = _mm_unpackhi_epi16(_46, _57);

540

541

*r = _mm_unpacklo_epi64(rg0123, rg4567);

542

*g = _mm_unpackhi_epi64(rg0123, rg4567);

543

*b = _mm_unpacklo_epi64(ba0123, ba4567);

544

*a = _mm_unpackhi_epi64(ba0123, ba4567);

545

}

546

SI void store4(uint16_t* ptr, size_t tail, U16 r, U16 g, U16 b, U16 a) {

547

auto rg0123 = _mm_unpacklo_epi16(r, g), // r0 g0 r1 g1 r2 g2 r3 g3

548

rg4567 = _mm_unpackhi_epi16(r, g), // r4 g4 r5 g5 r6 g6 r7 g7

549

ba0123 = _mm_unpacklo_epi16(b, a),

550

ba4567 = _mm_unpackhi_epi16(b, a);

551

552

auto _01 = _mm_unpacklo_epi32(rg0123, ba0123),

553

_23 = _mm_unpackhi_epi32(rg0123, ba0123),

554

_45 = _mm_unpacklo_epi32(rg4567, ba4567),

555

_67 = _mm_unpackhi_epi32(rg4567, ba4567);

556

557

if (__builtin_expect(tail,0)) {

558

auto dst = (double*)ptr;

559

if (tail > 0) { _mm_storel_pd(dst+0, _01); }

560

if (tail > 1) { _mm_storeh_pd(dst+1, _01); }

561

if (tail > 2) { _mm_storel_pd(dst+2, _23); }

562

if (tail > 3) { _mm_storeh_pd(dst+3, _23); }

563

if (tail > 4) { _mm_storel_pd(dst+4, _45); }

564

if (tail > 5) { _mm_storeh_pd(dst+5, _45); }

565

if (tail > 6) { _mm_storel_pd(dst+6, _67); }

566

} else {

567

_mm_storeu_si128((__m128i*)ptr + 0, _01);

568

_mm_storeu_si128((__m128i*)ptr + 1, _23);

569

_mm_storeu_si128((__m128i*)ptr + 2, _45);

570

_mm_storeu_si128((__m128i*)ptr + 3, _67);

}

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

574

SI void load2(const float* ptr, size_t tail, F* r, F* g) {

575

F _0123, _4567;

576

if (__builtin_expect(tail, 0)) {

577

_0123 = _4567 = _mm256_setzero_ps();

578

F* d = &_0123;

579

if (tail > 3) {

580

*d = _mm256_loadu_ps(ptr);

ptr += 8;

tail -= 4;

d = &_4567;

}

bool high = false;

if (tail > 1) {

*d = _mm256_castps128_ps256(_mm_loadu_ps(ptr));

ptr += 4;

tail -= 2;

high = true;

}

if (tail > 0) {

*d = high ? _mm256_insertf128_ps(*d, _mm_loadu_si64(ptr), 1)

594

: _mm256_insertf128_ps(*d, _mm_loadu_si64(ptr), 0);

595

}

596

} else {

597

_0123 = _mm256_loadu_ps(ptr + 0);

598

_4567 = _mm256_loadu_ps(ptr + 8);

599

}

600

601

F _0145 = _mm256_permute2f128_pd(_0123, _4567, 0x20),

602

_2367 = _mm256_permute2f128_pd(_0123, _4567, 0x31);

603

604

*r = _mm256_shuffle_ps(_0145, _2367, 0x88);

605

*g = _mm256_shuffle_ps(_0145, _2367, 0xDD);

606

}

607

SI void store2(float* ptr, size_t tail, F r, F g) {

608

F _0145 = _mm256_unpacklo_ps(r, g),

609

_2367 = _mm256_unpackhi_ps(r, g);

610

F _0123 = _mm256_permute2f128_pd(_0145, _2367, 0x20),

611

_4567 = _mm256_permute2f128_pd(_0145, _2367, 0x31);

612

613

if (__builtin_expect(tail, 0)) {

614

const __m256* s = &_0123;

615

if (tail > 3) {

616

_mm256_storeu_ps(ptr, *s);

s = &_4567;

tail -= 4;

ptr += 8;

}

bool high = false;

if (tail > 1) {

_mm_storeu_ps(ptr, _mm256_extractf128_ps(*s, 0));

ptr += 4;

tail -= 2;

high = true;

}

if (tail > 0) {

*(ptr + 0) = (*s)[ high ? 4 : 0];

630

*(ptr + 1) = (*s)[ high ? 5 : 1];

631

}

632

} else {

633

_mm256_storeu_ps(ptr + 0, _0123);

634

_mm256_storeu_ps(ptr + 8, _4567);

}

}

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

638

SI void load4(const float* ptr, size_t tail, F* r, F* g, F* b, F* a) {

639

F _04, _15, _26, _37;

640

_04 = _15 = _26 = _37 = 0;

641

switch (tail) {

John Stiles

2020-06-11 17:55:07 -0400

[diff] [blame]

642

case 0: _37 = _mm256_insertf128_ps(_37, _mm_loadu_ps(ptr+28), 1); [[fallthrough]];

643

case 7: _26 = _mm256_insertf128_ps(_26, _mm_loadu_ps(ptr+24), 1); [[fallthrough]];

644

case 6: _15 = _mm256_insertf128_ps(_15, _mm_loadu_ps(ptr+20), 1); [[fallthrough]];

645

case 5: _04 = _mm256_insertf128_ps(_04, _mm_loadu_ps(ptr+16), 1); [[fallthrough]];

646

case 4: _37 = _mm256_insertf128_ps(_37, _mm_loadu_ps(ptr+12), 0); [[fallthrough]];

647

case 3: _26 = _mm256_insertf128_ps(_26, _mm_loadu_ps(ptr+ 8), 0); [[fallthrough]];

648

case 2: _15 = _mm256_insertf128_ps(_15, _mm_loadu_ps(ptr+ 4), 0); [[fallthrough]];

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

649

case 1: _04 = _mm256_insertf128_ps(_04, _mm_loadu_ps(ptr+ 0), 0);

650

}

651

652

F rg0145 = _mm256_unpacklo_ps(_04,_15), // r0 r1 g0 g1 | r4 r5 g4 g5

653

ba0145 = _mm256_unpackhi_ps(_04,_15),

654

rg2367 = _mm256_unpacklo_ps(_26,_37),

655

ba2367 = _mm256_unpackhi_ps(_26,_37);

656

657

*r = _mm256_unpacklo_pd(rg0145, rg2367);

658

*g = _mm256_unpackhi_pd(rg0145, rg2367);

659

*b = _mm256_unpacklo_pd(ba0145, ba2367);

660

*a = _mm256_unpackhi_pd(ba0145, ba2367);

661

}

662

SI void store4(float* ptr, size_t tail, F r, F g, F b, F a) {

663

F rg0145 = _mm256_unpacklo_ps(r, g), // r0 g0 r1 g1 | r4 g4 r5 g5

664

rg2367 = _mm256_unpackhi_ps(r, g), // r2 ... | r6 ...

665

ba0145 = _mm256_unpacklo_ps(b, a), // b0 a0 b1 a1 | b4 a4 b5 a5

666

ba2367 = _mm256_unpackhi_ps(b, a); // b2 ... | b6 ...

667

668

F _04 = _mm256_unpacklo_pd(rg0145, ba0145), // r0 g0 b0 a0 | r4 g4 b4 a4

669

_15 = _mm256_unpackhi_pd(rg0145, ba0145), // r1 ... | r5 ...

670

_26 = _mm256_unpacklo_pd(rg2367, ba2367), // r2 ... | r6 ...

671

_37 = _mm256_unpackhi_pd(rg2367, ba2367); // r3 ... | r7 ...

672

673

if (__builtin_expect(tail, 0)) {

674

if (tail > 0) { _mm_storeu_ps(ptr+ 0, _mm256_extractf128_ps(_04, 0)); }

675

if (tail > 1) { _mm_storeu_ps(ptr+ 4, _mm256_extractf128_ps(_15, 0)); }

676

if (tail > 2) { _mm_storeu_ps(ptr+ 8, _mm256_extractf128_ps(_26, 0)); }

677

if (tail > 3) { _mm_storeu_ps(ptr+12, _mm256_extractf128_ps(_37, 0)); }

678

if (tail > 4) { _mm_storeu_ps(ptr+16, _mm256_extractf128_ps(_04, 1)); }

679

if (tail > 5) { _mm_storeu_ps(ptr+20, _mm256_extractf128_ps(_15, 1)); }

680

if (tail > 6) { _mm_storeu_ps(ptr+24, _mm256_extractf128_ps(_26, 1)); }

681

} else {

682

F _01 = _mm256_permute2f128_ps(_04, _15, 32), // 32 == 0010 0000 == lo, lo

683

_23 = _mm256_permute2f128_ps(_26, _37, 32),

684

_45 = _mm256_permute2f128_ps(_04, _15, 49), // 49 == 0011 0001 == hi, hi

685

_67 = _mm256_permute2f128_ps(_26, _37, 49);

686

_mm256_storeu_ps(ptr+ 0, _01);

687

_mm256_storeu_ps(ptr+ 8, _23);

688

_mm256_storeu_ps(ptr+16, _45);

689

_mm256_storeu_ps(ptr+24, _67);

}

}

Herb Derby

2021-09-28 14:51:04 -0400

[diff] [blame]

693

#elif defined(JUMPER_IS_SSE2) || defined(JUMPER_IS_SSE41) || defined(JUMPER_IS_AVX)

694

template <typename T> using V = T __attribute__((ext_vector_type(4)));

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

695

using F = V<float >;

696

using I32 = V< int32_t>;

697

using U64 = V<uint64_t>;

698

using U32 = V<uint32_t>;

699

using U16 = V<uint16_t>;

700

using U8 = V<uint8_t >;

701

702

SI F mad(F f, F m, F a) { return f*m+a; }

703

SI F min(F a, F b) { return _mm_min_ps(a,b); }

704

SI F max(F a, F b) { return _mm_max_ps(a,b); }

705

SI F abs_(F v) { return _mm_and_ps(v, 0-v); }

Herb Derby

2021-09-15 17:25:01 -0400

[diff] [blame]

706

SI F rcp_fast(F v) { return _mm_rcp_ps (v); }

707

SI F rcp_precise (F v) { F e = rcp_fast(v); return e * (2.0f - v * e); }

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

708

SI F rsqrt (F v) { return _mm_rsqrt_ps(v); }

709

SI F sqrt_(F v) { return _mm_sqrt_ps (v); }

Herb Derby

2021-09-15 17:25:01 -0400

[diff] [blame]

710

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

711

SI U32 round(F v, F scale) { return _mm_cvtps_epi32(v*scale); }

712

713

SI U16 pack(U32 v) {

714

#if defined(JUMPER_IS_SSE41)

715

auto p = _mm_packus_epi32(v,v);

716

#else

717

// Sign extend so that _mm_packs_epi32() does the pack we want.

718

auto p = _mm_srai_epi32(_mm_slli_epi32(v, 16), 16);

719

p = _mm_packs_epi32(p,p);

720

#endif

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

721

return sk_unaligned_load<U16>(&p); // We have two copies. Return (the lower) one.

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

722

}

723

SI U8 pack(U16 v) {

724

auto r = widen_cast<__m128i>(v);

725

r = _mm_packus_epi16(r,r);

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

726

return sk_unaligned_load<U8>(&r);

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

727

}

728

729

SI F if_then_else(I32 c, F t, F e) {

730

return _mm_or_ps(_mm_and_ps(c, t), _mm_andnot_ps(c, e));

}

SI F floor_(F v) {

#if defined(JUMPER_IS_SSE41)

735

return _mm_floor_ps(v);

736

#else

737

F roundtrip = _mm_cvtepi32_ps(_mm_cvttps_epi32(v));

738

return roundtrip - if_then_else(roundtrip > v, 1, 0);

#endif

}

template <typename T>

743

SI V<T> gather(const T* p, U32 ix) {

744

return {p[ix[0]], p[ix[1]], p[ix[2]], p[ix[3]]};

745

}

746

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

747

SI void load2(const uint16_t* ptr, size_t tail, U16* r, U16* g) {

748

__m128i _01;

749

if (__builtin_expect(tail,0)) {

750

_01 = _mm_setzero_si128();

751

if (tail > 1) {

752

_01 = _mm_loadl_pd(_01, (const double*)ptr); // r0 g0 r1 g1 00 00 00 00

753

if (tail > 2) {

Robert Phillips

f73ef0b

2019-09-24 13:00:42 -0400

[diff] [blame]

754

_01 = _mm_insert_epi16(_01, *(ptr+4), 4); // r0 g0 r1 g1 r2 00 00 00

755

_01 = _mm_insert_epi16(_01, *(ptr+5), 5); // r0 g0 r1 g1 r2 g2 00 00

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

756

}

757

} else {

Mike Klein

0f55db5

2019-09-30 10:01:08 -0500

[diff] [blame]

758

_01 = _mm_cvtsi32_si128(*(const uint32_t*)ptr); // r0 g0 00 00 00 00 00 00

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

759

}

760

} else {

761

_01 = _mm_loadu_si128(((__m128i*)ptr) + 0); // r0 g0 r1 g1 r2 g2 r3 g3

762

}

763

auto rg01_23 = _mm_shufflelo_epi16(_01, 0xD8); // r0 r1 g0 g1 r2 g2 r3 g3

764

auto rg = _mm_shufflehi_epi16(rg01_23, 0xD8); // r0 r1 g0 g1 r2 r3 g2 g3

765

766

auto R = _mm_shuffle_epi32(rg, 0x88); // r0 r1 r2 r3 r0 r1 r2 r3

767

auto G = _mm_shuffle_epi32(rg, 0xDD); // g0 g1 g2 g3 g0 g1 g2 g3

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

768

*r = sk_unaligned_load<U16>(&R);

769

*g = sk_unaligned_load<U16>(&G);

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

770

}

771

SI void store2(uint16_t* ptr, size_t tail, U16 r, U16 g) {

772

U32 rg = _mm_unpacklo_epi16(widen_cast<__m128i>(r), widen_cast<__m128i>(g));

773

if (__builtin_expect(tail, 0)) {

774

if (tail > 1) {

775

_mm_storel_epi64((__m128i*)ptr, rg);

776

if (tail > 2) {

777

int32_t rgpair = rg[2];

778

memcpy(ptr + 4, &rgpair, sizeof(rgpair));

779

}

780

} else {

781

int32_t rgpair = rg[0];

782

memcpy(ptr, &rgpair, sizeof(rgpair));

783

}

784

} else {

785

_mm_storeu_si128((__m128i*)ptr + 0, rg);

}

}

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

789

SI void load3(const uint16_t* ptr, size_t tail, U16* r, U16* g, U16* b) {

790

__m128i _0, _1, _2, _3;

791

if (__builtin_expect(tail,0)) {

792

_1 = _2 = _3 = _mm_setzero_si128();

793

auto load_rgb = [](const uint16_t* src) {

794

auto v = _mm_cvtsi32_si128(*(const uint32_t*)src);

795

return _mm_insert_epi16(v, src[2], 2);

796

};

797

if ( true ) { _0 = load_rgb(ptr + 0); }

798

if (tail > 1) { _1 = load_rgb(ptr + 3); }

799

if (tail > 2) { _2 = load_rgb(ptr + 6); }

800

} else {

801

// Load slightly weirdly to make sure we don't load past the end of 4x48 bits.

802

auto _01 = _mm_loadu_si128((const __m128i*)(ptr + 0)) ,

803

_23 = _mm_srli_si128(_mm_loadu_si128((const __m128i*)(ptr + 4)), 4);

804

805

// Each _N holds R,G,B for pixel N in its lower 3 lanes (upper 5 are ignored).

806

_0 = _01;

807

_1 = _mm_srli_si128(_01, 6);

808

_2 = _23;

809

_3 = _mm_srli_si128(_23, 6);

810

}

811

812

// De-interlace to R,G,B.

813

auto _02 = _mm_unpacklo_epi16(_0, _2), // r0 r2 g0 g2 b0 b2 xx xx

814

_13 = _mm_unpacklo_epi16(_1, _3); // r1 r3 g1 g3 b1 b3 xx xx

815

816

auto R = _mm_unpacklo_epi16(_02, _13), // r0 r1 r2 r3 g0 g1 g2 g3

817

G = _mm_srli_si128(R, 8),

818

B = _mm_unpackhi_epi16(_02, _13); // b0 b1 b2 b3 xx xx xx xx

819

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

820

*r = sk_unaligned_load<U16>(&R);

821

*g = sk_unaligned_load<U16>(&G);

822

*b = sk_unaligned_load<U16>(&B);

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

823

}

824

825

SI void load4(const uint16_t* ptr, size_t tail, U16* r, U16* g, U16* b, U16* a) {

826

__m128i _01, _23;

827

if (__builtin_expect(tail,0)) {

828

_01 = _23 = _mm_setzero_si128();

829

auto src = (const double*)ptr;

830

if ( true ) { _01 = _mm_loadl_pd(_01, src + 0); } // r0 g0 b0 a0 00 00 00 00

831

if (tail > 1) { _01 = _mm_loadh_pd(_01, src + 1); } // r0 g0 b0 a0 r1 g1 b1 a1

832

if (tail > 2) { _23 = _mm_loadl_pd(_23, src + 2); } // r2 g2 b2 a2 00 00 00 00

833

} else {

834

_01 = _mm_loadu_si128(((__m128i*)ptr) + 0); // r0 g0 b0 a0 r1 g1 b1 a1

835

_23 = _mm_loadu_si128(((__m128i*)ptr) + 1); // r2 g2 b2 a2 r3 g3 b3 a3

836

}

837

838

auto _02 = _mm_unpacklo_epi16(_01, _23), // r0 r2 g0 g2 b0 b2 a0 a2

839

_13 = _mm_unpackhi_epi16(_01, _23); // r1 r3 g1 g3 b1 b3 a1 a3

840

841

auto rg = _mm_unpacklo_epi16(_02, _13), // r0 r1 r2 r3 g0 g1 g2 g3

842

ba = _mm_unpackhi_epi16(_02, _13); // b0 b1 b2 b3 a0 a1 a2 a3

843

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

844

*r = sk_unaligned_load<U16>((uint16_t*)&rg + 0);

845

*g = sk_unaligned_load<U16>((uint16_t*)&rg + 4);

846

*b = sk_unaligned_load<U16>((uint16_t*)&ba + 0);

847

*a = sk_unaligned_load<U16>((uint16_t*)&ba + 4);

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

848

}

849

850

SI void store4(uint16_t* ptr, size_t tail, U16 r, U16 g, U16 b, U16 a) {

851

auto rg = _mm_unpacklo_epi16(widen_cast<__m128i>(r), widen_cast<__m128i>(g)),

852

ba = _mm_unpacklo_epi16(widen_cast<__m128i>(b), widen_cast<__m128i>(a));

853

854

if (__builtin_expect(tail, 0)) {

855

auto dst = (double*)ptr;

856

if ( true ) { _mm_storel_pd(dst + 0, _mm_unpacklo_epi32(rg, ba)); }

857

if (tail > 1) { _mm_storeh_pd(dst + 1, _mm_unpacklo_epi32(rg, ba)); }

858

if (tail > 2) { _mm_storel_pd(dst + 2, _mm_unpackhi_epi32(rg, ba)); }

859

} else {

860

_mm_storeu_si128((__m128i*)ptr + 0, _mm_unpacklo_epi32(rg, ba));

861

_mm_storeu_si128((__m128i*)ptr + 1, _mm_unpackhi_epi32(rg, ba));

}

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

865

SI void load2(const float* ptr, size_t tail, F* r, F* g) {

866

F _01, _23;

867

if (__builtin_expect(tail, 0)) {

868

_01 = _23 = _mm_setzero_si128();

869

if ( true ) { _01 = _mm_loadl_pi(_01, (__m64 const*)(ptr + 0)); }

870

if (tail > 1) { _01 = _mm_loadh_pi(_01, (__m64 const*)(ptr + 2)); }

871

if (tail > 2) { _23 = _mm_loadl_pi(_23, (__m64 const*)(ptr + 4)); }

872

} else {

873

_01 = _mm_loadu_ps(ptr + 0);

874

_23 = _mm_loadu_ps(ptr + 4);

875

}

876

*r = _mm_shuffle_ps(_01, _23, 0x88);

877

*g = _mm_shuffle_ps(_01, _23, 0xDD);

878

}

879

SI void store2(float* ptr, size_t tail, F r, F g) {

880

F _01 = _mm_unpacklo_ps(r, g),

881

_23 = _mm_unpackhi_ps(r, g);

882

if (__builtin_expect(tail, 0)) {

883

if ( true ) { _mm_storel_pi((__m64*)(ptr + 0), _01); }

884

if (tail > 1) { _mm_storeh_pi((__m64*)(ptr + 2), _01); }

885

if (tail > 2) { _mm_storel_pi((__m64*)(ptr + 4), _23); }

886

} else {

887

_mm_storeu_ps(ptr + 0, _01);

888

_mm_storeu_ps(ptr + 4, _23);

}

}

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

892

SI void load4(const float* ptr, size_t tail, F* r, F* g, F* b, F* a) {

893

F _0, _1, _2, _3;

894

if (__builtin_expect(tail, 0)) {

895

_1 = _2 = _3 = _mm_setzero_si128();

896

if ( true ) { _0 = _mm_loadu_ps(ptr + 0); }

897

if (tail > 1) { _1 = _mm_loadu_ps(ptr + 4); }

898

if (tail > 2) { _2 = _mm_loadu_ps(ptr + 8); }

899

} else {

900

_0 = _mm_loadu_ps(ptr + 0);

901

_1 = _mm_loadu_ps(ptr + 4);

902

_2 = _mm_loadu_ps(ptr + 8);

903

_3 = _mm_loadu_ps(ptr +12);

904

}

905

_MM_TRANSPOSE4_PS(_0,_1,_2,_3);

*r = _0;

*g = _1;

*b = _2;

*a = _3;

}

SI void store4(float* ptr, size_t tail, F r, F g, F b, F a) {

913

_MM_TRANSPOSE4_PS(r,g,b,a);

914

if (__builtin_expect(tail, 0)) {

915

if ( true ) { _mm_storeu_ps(ptr + 0, r); }

916

if (tail > 1) { _mm_storeu_ps(ptr + 4, g); }

917

if (tail > 2) { _mm_storeu_ps(ptr + 8, b); }

918

} else {

919

_mm_storeu_ps(ptr + 0, r);

920

_mm_storeu_ps(ptr + 4, g);

921

_mm_storeu_ps(ptr + 8, b);

922

_mm_storeu_ps(ptr +12, a);

}

}

#endif

// We need to be a careful with casts.

928

// (F)x means cast x to float in the portable path, but bit_cast x to float in the others.

929

// These named casts and bit_cast() are always what they seem to be.

930

#if defined(JUMPER_IS_SCALAR)

931

SI F cast (U32 v) { return (F)v; }

Brian Salomon

2019-06-12 17:42:58 -0400

[diff] [blame]

932

SI F cast64(U64 v) { return (F)v; }

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

933

SI U32 trunc_(F v) { return (U32)v; }

934

SI U32 expand(U16 v) { return (U32)v; }

935

SI U32 expand(U8 v) { return (U32)v; }

936

#else

937

SI F cast (U32 v) { return __builtin_convertvector((I32)v, F); }

Brian Salomon

2019-06-12 17:42:58 -0400

[diff] [blame]

938

SI F cast64(U64 v) { return __builtin_convertvector( v, F); }

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

939

SI U32 trunc_(F v) { return (U32)__builtin_convertvector( v, I32); }

940

SI U32 expand(U16 v) { return __builtin_convertvector( v, U32); }

941

SI U32 expand(U8 v) { return __builtin_convertvector( v, U32); }

942

#endif

943

944

template <typename V>

945

SI V if_then_else(I32 c, V t, V e) {

John Stiles

2020-07-24 09:56:05 -0400

[diff] [blame]

946

return sk_bit_cast<V>(if_then_else(c, sk_bit_cast<F>(t), sk_bit_cast<F>(e)));

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

947

}

948

949

SI U16 bswap(U16 x) {

950

#if defined(JUMPER_IS_SSE2) || defined(JUMPER_IS_SSE41)

951

// Somewhat inexplicably Clang decides to do (x<<8) | (x>>8) in 32-bit lanes

952

// when generating code for SSE2 and SSE4.1. We'll do it manually...

953

auto v = widen_cast<__m128i>(x);

954

v = _mm_slli_epi16(v,8) | _mm_srli_epi16(v,8);

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

955

return sk_unaligned_load<U16>(&v);

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

956

#else

957

return (x<<8) | (x>>8);

#endif

}

SI F fract(F v) { return v - floor_(v); }

962

963

// See http://www.machinedlearnings.com/2011/06/fast-approximate-logarithm-exponential.html.

964

SI F approx_log2(F x) {

965

// e - 127 is a fair approximation of log2(x) in its own right...

John Stiles

2020-07-24 09:56:05 -0400

[diff] [blame]

966

F e = cast(sk_bit_cast<U32>(x)) * (1.0f / (1<<23));

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

967

968

// ... but using the mantissa to refine its error is _much_ better.

John Stiles

2020-07-24 09:56:05 -0400

[diff] [blame]

969

F m = sk_bit_cast<F>((sk_bit_cast<U32>(x) & 0x007fffff) | 0x3f000000);

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

return e

- 124.225514990f

- 1.498030302f * m

- 1.725879990f / (0.3520887068f + m);

974

}

Brian Osman

2019-10-16 13:58:42 -0400

[diff] [blame]

975

976

SI F approx_log(F x) {

977

const float ln2 = 0.69314718f;

978

return ln2 * approx_log2(x);

979

}

980

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

981

SI F approx_pow2(F x) {

982

F f = fract(x);

John Stiles

2020-07-24 09:56:05 -0400

[diff] [blame]

983

return sk_bit_cast<F>(round(1.0f * (1<<23),

984

x + 121.274057500f

985

- 1.490129070f * f

986

+ 27.728023300f / (4.84252568f - f)));

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

987

}

988

Brian Osman

2019-10-16 13:58:42 -0400

[diff] [blame]

989

SI F approx_exp(F x) {

990

const float log2_e = 1.4426950408889634074f;

991

return approx_pow2(log2_e * x);

992

}

993

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

994

SI F approx_powf(F x, F y) {

Mike Klein

229befe

2018-10-26 12:07:57 -0400

[diff] [blame]

995

return if_then_else((x == 0)|(x == 1), x

Mike Klein

229befe

2018-10-26 12:07:57 -0400

[diff] [blame]

996

, approx_pow2(approx_log2(x) * y));

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

997

}

998

999

SI F from_half(U16 h) {

Mike Klein

7aacb0b

2019-07-02 13:23:06 -0500

[diff] [blame]

1000

#if defined(JUMPER_IS_NEON) && defined(SK_CPU_ARM64) \

1001

&& !defined(SK_BUILD_FOR_GOOGLE3) // Temporary workaround for some Google3 builds.

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

1002

return vcvt_f32_f16(h);

1003

Mike Klein

2020-04-24 08:16:22 -0500

[diff] [blame]

1004

#elif defined(JUMPER_IS_HSW) || defined(JUMPER_IS_SKX)

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

1005

return _mm256_cvtph_ps(h);

1006

1007

#else

1008

// Remember, a half is 1-5-10 (sign-exponent-mantissa) with 15 exponent bias.

U32 sem = expand(h),

s = sem & 0x8000,

em = sem ^ s;

// Convert to 1-8-23 float with 127 bias, flushing denorm halfs (including zero) to zero.

1014

auto denorm = (I32)em < 0x0400; // I32 comparison is often quicker, and always safe here.

1015

return if_then_else(denorm, F(0)

John Stiles

2020-07-24 09:56:05 -0400

[diff] [blame]

1016

, sk_bit_cast<F>( (s<<16) + (em<<13) + ((127-15)<<23) ));

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

#endif

}

SI U16 to_half(F f) {

Mike Klein

7aacb0b

2019-07-02 13:23:06 -0500

[diff] [blame]

1021

#if defined(JUMPER_IS_NEON) && defined(SK_CPU_ARM64) \

1022

&& !defined(SK_BUILD_FOR_GOOGLE3) // Temporary workaround for some Google3 builds.

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

1023

return vcvt_f16_f32(f);

1024

Mike Klein

2020-04-24 08:16:22 -0500

[diff] [blame]

1025

#elif defined(JUMPER_IS_HSW) || defined(JUMPER_IS_SKX)

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

1026

return _mm256_cvtps_ph(f, _MM_FROUND_CUR_DIRECTION);

1027

1028

#else

1029

// Remember, a float is 1-8-23 (sign-exponent-mantissa) with 127 exponent bias.

John Stiles

2020-07-24 09:56:05 -0400

[diff] [blame]

1030

U32 sem = sk_bit_cast<U32>(f),

Mike Klein

2018-01-01 09:06:37 -0500

[diff] [blame]

1031

s = sem & 0x80000000,

1032

em = sem ^ s;

1033

1034

// Convert to 1-5-10 half with 15 bias, flushing denorm halfs (including zero) to zero.

1035

auto denorm = (I32)em < 0x38800000; // I32 comparison is often quicker, and always safe here.

1036

return pack(if_then_else(denorm, U32(0)

1037

, (s>>16) + (em>>13) - ((127-15)<<10)));

#endif

}

// Our fundamental vector depth is our pixel stride.

1042

static const size_t N = sizeof(F) / sizeof(float);

1043

Mike Klein

2017-04-03 13:54:55 -0400

[diff] [blame]

1044

// We're finally going to get to what a Stage function looks like!

Mike Klein

2017-09-27 11:04:34 -0400

[diff] [blame]

1045

// tail == 0 ~~> work on a full N pixels

Mike Klein

b5e4842

2017-05-30 18:09:29 -0400

[diff] [blame]

1046

// tail != 0 ~~> work on only the first tail pixels

Mike Klein

2017-09-27 11:04:34 -0400

[diff] [blame]

1047

// tail is always < N.

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1048

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

1049

// Any custom ABI to use for all (non-externally-facing) stage functions?

1050

// Also decide here whether to use narrow (compromise) or wide (ideal) stages.

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

1051

#if defined(SK_CPU_ARM32) && defined(JUMPER_IS_NEON)

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1052

// This lets us pass vectors more efficiently on 32-bit ARM.

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

1053

// We can still only pass 16 floats, so best as 4x {r,g,b,a}.

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1054

#define ABI __attribute__((pcs("aapcs-vfp")))

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1055

#define JUMPER_NARROW_STAGES 1

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

1056

#elif defined(_MSC_VER)

1057

// Even if not vectorized, this lets us pass {r,g,b,a} as registers,

1058

// instead of {b,a} on the stack. Narrow stages work best for __vectorcall.

1059

#define ABI __vectorcall

1060

#define JUMPER_NARROW_STAGES 1

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

1061

#elif defined(__x86_64__) || defined(SK_CPU_ARM64)

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

1062

// These platforms are ideal for wider stages, and their default ABI is ideal.

1063

#define ABI

1064

#define JUMPER_NARROW_STAGES 0

1065

#else

1066

// 32-bit or unknown... shunt them down the narrow path.

1067

// Odds are these have few registers and are better off there.

1068

#define ABI

1069

#define JUMPER_NARROW_STAGES 1

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1070

#endif

1071

1072

#if JUMPER_NARROW_STAGES

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1073

struct Params {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1074

size_t dx, dy, tail;

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1075

F dr,dg,db,da;

1076

};

Mike Klein

2017-12-11 16:53:26 -0500

[diff] [blame]

1077

using Stage = void(ABI*)(Params*, void** program, F r, F g, F b, F a);

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1078

#else

1079

// We keep program the second argument, so that it's passed in rsi for load_and_inc().

Mike Klein

2017-12-11 16:53:26 -0500

[diff] [blame]

1080

using Stage = void(ABI*)(size_t tail, void** program, size_t dx, size_t dy, F,F,F,F, F,F,F,F);

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1081

#endif

Mike Klein

2017-04-03 13:54:55 -0400

[diff] [blame]

1082

Mike Klein

2017-12-11 16:53:26 -0500

[diff] [blame]

1083

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1084

static void start_pipeline(size_t dx, size_t dy, size_t xlimit, size_t ylimit, void** program) {

Mike Klein

2017-12-11 16:53:26 -0500

[diff] [blame]

1085

auto start = (Stage)load_and_inc(program);

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1086

const size_t x0 = dx;

1087

for (; dy < ylimit; dy++) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1088

#if JUMPER_NARROW_STAGES

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1089

Params params = { x0,dy,0, 0,0,0,0 };

1090

while (params.dx + N <= xlimit) {

Mike Klein

abb8bb3

2017-09-27 11:12:01 -0400

[diff] [blame]

1091

start(&params,program, 0,0,0,0);

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1092

params.dx += N;

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1093

}

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1094

if (size_t tail = xlimit - params.dx) {

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1095

params.tail = tail;

Mike Klein

abb8bb3

2017-09-27 11:12:01 -0400

[diff] [blame]

1096

start(&params,program, 0,0,0,0);

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1097

}

1098

#else

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1099

dx = x0;

1100

while (dx + N <= xlimit) {

1101

start(0,program,dx,dy, 0,0,0,0, 0,0,0,0);

1102

dx += N;

Mike Klein

2017-07-18 18:15:13 -0400

[diff] [blame]

1103

}

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1104

if (size_t tail = xlimit - dx) {

1105

start(tail,program,dx,dy, 0,0,0,0, 0,0,0,0);

Mike Klein

2017-07-18 18:15:13 -0400

[diff] [blame]

1106

}

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1107

#endif

Mike Klein

3b92b69

2017-07-18 11:30:25 -0400

[diff] [blame]

}

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1111

#if JUMPER_NARROW_STAGES

1112

#define STAGE(name, ...) \

1113

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, \

1114

F& r, F& g, F& b, F& a, F& dr, F& dg, F& db, F& da); \

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

1115

static void ABI name(Params* params, void** program, \

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1116

F r, F g, F b, F a) { \

1117

name##_k(Ctx{program},params->dx,params->dy,params->tail, r,g,b,a, \

1118

params->dr, params->dg, params->db, params->da); \

1119

auto next = (Stage)load_and_inc(program); \

1120

next(params,program, r,g,b,a); \

1121

} \

1122

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, \

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1123

F& r, F& g, F& b, F& a, F& dr, F& dg, F& db, F& da)

1124

#else

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1125

#define STAGE(name, ...) \

1126

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, \

1127

F& r, F& g, F& b, F& a, F& dr, F& dg, F& db, F& da); \

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

1128

static void ABI name(size_t tail, void** program, size_t dx, size_t dy, \

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1129

F r, F g, F b, F a, F dr, F dg, F db, F da) { \

1130

name##_k(Ctx{program},dx,dy,tail, r,g,b,a, dr,dg,db,da); \

1131

auto next = (Stage)load_and_inc(program); \

1132

next(tail,program,dx,dy, r,g,b,a, dr,dg,db,da); \

1133

} \

1134

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, \

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1135

F& r, F& g, F& b, F& a, F& dr, F& dg, F& db, F& da)

1136

#endif

Mike Klein

b5e4842

2017-05-30 18:09:29 -0400

[diff] [blame]

1137

Mike Klein

2017-04-03 13:54:55 -0400

[diff] [blame]

1138

1139

// just_return() is a simple no-op stage that only exists to end the chain,

1140

// returning back up to start_pipeline(), and from there to the caller.

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

1141

#if JUMPER_NARROW_STAGES

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

1142

static void ABI just_return(Params*, void**, F,F,F,F) {}

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1143

#else

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

1144

static void ABI just_return(size_t, void**, size_t,size_t, F,F,F,F, F,F,F,F) {}

Mike Klein

2017-07-27 12:31:34 -0400

[diff] [blame]

1145

#endif

Mike Klein

2017-04-03 13:54:55 -0400

[diff] [blame]

1146

1147

Mike Klein

8a823fa

2017-04-05 17:29:26 -0400

[diff] [blame]

1148

// We could start defining normal Stages now. But first, some helper functions.

Mike Klein

2017-04-03 13:54:55 -0400

[diff] [blame]

1149

1150

// These load() and store() methods are tail-aware,

1151

// but focus mainly on keeping the at-stride tail==0 case fast.

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1152

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

1153

template <typename V, typename T>

Mike Klein

64b9748

2017-03-14 17:35:04 -0700

[diff] [blame]

1154

SI V load(const T* src, size_t tail) {

Mike Klein

d6e1286

2017-08-28 12:18:26 -0400

[diff] [blame]

1155

#if !defined(JUMPER_IS_SCALAR)

Mike Klein

2017-09-27 11:04:34 -0400

[diff] [blame]

1156

__builtin_assume(tail < N);

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

1157

if (__builtin_expect(tail, 0)) {

1158

V v{}; // Any inactive lanes are zeroed.

Mike Klein

2017-06-26 16:12:48 -0400

[diff] [blame]

1159

switch (tail) {

John Stiles

2020-06-11 17:55:07 -0400

[diff] [blame]

1160

case 7: v[6] = src[6]; [[fallthrough]];

1161

case 6: v[5] = src[5]; [[fallthrough]];

1162

case 5: v[4] = src[4]; [[fallthrough]];

Mike Klein

2017-06-26 16:12:48 -0400

[diff] [blame]

1163

case 4: memcpy(&v, src, 4*sizeof(T)); break;

John Stiles

2020-06-11 17:55:07 -0400

[diff] [blame]

1164

case 3: v[2] = src[2]; [[fallthrough]];

Mike Klein

2017-06-26 16:12:48 -0400

[diff] [blame]

1165

case 2: memcpy(&v, src, 2*sizeof(T)); break;

1166

case 1: memcpy(&v, src, 1*sizeof(T)); break;

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

}

return v;

}

#endif

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

1171

return sk_unaligned_load<V>(src);

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

1172

}

1173

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

1174

template <typename V, typename T>

Mike Klein

64b9748

2017-03-14 17:35:04 -0700

[diff] [blame]

1175

SI void store(T* dst, V v, size_t tail) {

Mike Klein

d6e1286

2017-08-28 12:18:26 -0400

[diff] [blame]

1176

#if !defined(JUMPER_IS_SCALAR)

Mike Klein

2017-09-27 11:04:34 -0400

[diff] [blame]

1177

__builtin_assume(tail < N);

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

1178

if (__builtin_expect(tail, 0)) {

Mike Klein

2017-06-26 16:12:48 -0400

[diff] [blame]

1179

switch (tail) {

John Stiles

2020-06-11 17:55:07 -0400

[diff] [blame]

1180

case 7: dst[6] = v[6]; [[fallthrough]];

1181

case 6: dst[5] = v[5]; [[fallthrough]];

1182

case 5: dst[4] = v[4]; [[fallthrough]];

Mike Klein

2017-06-26 16:12:48 -0400

[diff] [blame]

1183

case 4: memcpy(dst, &v, 4*sizeof(T)); break;

John Stiles

2020-06-11 17:55:07 -0400

[diff] [blame]

1184

case 3: dst[2] = v[2]; [[fallthrough]];

Mike Klein

2017-06-26 16:12:48 -0400

[diff] [blame]

1185

case 2: memcpy(dst, &v, 2*sizeof(T)); break;

1186

case 1: memcpy(dst, &v, 1*sizeof(T)); break;

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

}

return;

}

#endif

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

1191

sk_unaligned_store(dst, v);

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

1192

}

1193

Mike Klein

2017-04-07 13:09:29 -0400

[diff] [blame]

1194

SI F from_byte(U8 b) {

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1195

return cast(expand(b)) * (1/255.0f);

Mike Klein

2017-04-07 13:09:29 -0400

[diff] [blame]

1196

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

1197

SI F from_short(U16 s) {

1198

return cast(expand(s)) * (1/65535.0f);

1199

}

Mike Klein

64b9748

2017-03-14 17:35:04 -0700

[diff] [blame]

1200

SI void from_565(U16 _565, F* r, F* g, F* b) {

Mike Klein

2017-02-23 13:03:57 -0500

[diff] [blame]

1201

U32 wide = expand(_565);

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1202

*r = cast(wide & (31<<11)) * (1.0f / (31<<11));

1203

*g = cast(wide & (63<< 5)) * (1.0f / (63<< 5));

1204

*b = cast(wide & (31<< 0)) * (1.0f / (31<< 0));

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1205

}

Mike Klein

2017-03-31 13:52:45 -0400

[diff] [blame]

1206

SI void from_4444(U16 _4444, F* r, F* g, F* b, F* a) {

1207

U32 wide = expand(_4444);

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1208

*r = cast(wide & (15<<12)) * (1.0f / (15<<12));

1209

*g = cast(wide & (15<< 8)) * (1.0f / (15<< 8));

1210

*b = cast(wide & (15<< 4)) * (1.0f / (15<< 4));

1211

*a = cast(wide & (15<< 0)) * (1.0f / (15<< 0));

Mike Klein

2017-03-31 13:52:45 -0400

[diff] [blame]

1212

}

Mike Klein

2017-04-06 15:04:05 -0400

[diff] [blame]

1213

SI void from_8888(U32 _8888, F* r, F* g, F* b, F* a) {

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1214

*r = cast((_8888 ) & 0xff) * (1/255.0f);

1215

*g = cast((_8888 >> 8) & 0xff) * (1/255.0f);

1216

*b = cast((_8888 >> 16) & 0xff) * (1/255.0f);

1217

*a = cast((_8888 >> 24) ) * (1/255.0f);

Mike Klein

2017-04-06 15:04:05 -0400

[diff] [blame]

1218

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

1219

SI void from_88(U16 _88, F* r, F* g) {

1220

U32 wide = expand(_88);

1221

*r = cast((wide ) & 0xff) * (1/255.0f);

1222

*g = cast((wide >> 8) & 0xff) * (1/255.0f);

1223

}

Mike Klein

2018-01-25 09:09:32 -0500

[diff] [blame]

1224

SI void from_1010102(U32 rgba, F* r, F* g, F* b, F* a) {

1225

*r = cast((rgba ) & 0x3ff) * (1/1023.0f);

1226

*g = cast((rgba >> 10) & 0x3ff) * (1/1023.0f);

1227

*b = cast((rgba >> 20) & 0x3ff) * (1/1023.0f);

1228

*a = cast((rgba >> 30) ) * (1/ 3.0f);

1229

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

1230

SI void from_1616(U32 _1616, F* r, F* g) {

1231

*r = cast((_1616 ) & 0xffff) * (1/65535.0f);

1232

*g = cast((_1616 >> 16) & 0xffff) * (1/65535.0f);

1233

}

Brian Salomon

2019-06-12 17:42:58 -0400

[diff] [blame]

1234

SI void from_16161616(U64 _16161616, F* r, F* g, F* b, F* a) {

1235

*r = cast64((_16161616 ) & 0xffff) * (1/65535.0f);

1236

*g = cast64((_16161616 >> 16) & 0xffff) * (1/65535.0f);

1237

*b = cast64((_16161616 >> 32) & 0xffff) * (1/65535.0f);

1238

*a = cast64((_16161616 >> 48) & 0xffff) * (1/65535.0f);

1239

}

Mike Klein

2017-04-06 15:04:05 -0400

[diff] [blame]

1240

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1241

// Used by load_ and store_ stages to get to the right (dx,dy) starting point of contiguous memory.

Mike Klein

2017-07-18 18:15:13 -0400

[diff] [blame]

1242

template <typename T>

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1243

SI T* ptr_at_xy(const SkRasterPipeline_MemoryCtx* ctx, size_t dx, size_t dy) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1244

return (T*)ctx->pixels + dy*ctx->stride + dx;

Mike Klein

2017-07-18 18:15:13 -0400

[diff] [blame]

1245

}

1246

Mike Klein

1fa9c43

2017-12-11 09:59:47 -0500

[diff] [blame]

1247

// clamp v to [0,limit).

1248

SI F clamp(F v, F limit) {

John Stiles

2020-07-24 09:56:05 -0400

[diff] [blame]

1249

F inclusive = sk_bit_cast<F>( sk_bit_cast<U32>(limit) - 1 ); // Exclusive -> inclusive.

Mike Klein

1fa9c43

2017-12-11 09:59:47 -0500

[diff] [blame]

1250

return min(max(0, v), inclusive);

1251

}

1252

Mike Klein

2017-07-18 18:15:13 -0400

[diff] [blame]

1253

// Used by gather_ stages to calculate the base pointer and a vector of indices to load.

Mike Klein

2017-04-06 15:04:05 -0400

[diff] [blame]

1254

template <typename T>

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1255

SI U32 ix_and_ptr(T** ptr, const SkRasterPipeline_GatherCtx* ctx, F x, F y) {

Mike Klein

2017-09-22 15:32:59 -0400

[diff] [blame]

1256

x = clamp(x, ctx->width);

1257

y = clamp(y, ctx->height);

1258

Mike Klein

2017-04-06 15:04:05 -0400

[diff] [blame]

1259

*ptr = (const T*)ctx->pixels;

1260

return trunc_(y)*ctx->stride + trunc_(x);

1261

}

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1262

Mike Klein

2017-12-15 09:55:03 -0500

[diff] [blame]

1263

// We often have a nominally [0,1] float value we need to scale and convert to an integer,

1264

// whether for a table lookup or to pack back down into bytes for storage.

1265

//

1266

// In practice, especially when dealing with interesting color spaces, that notionally

1267

// [0,1] float may be out of [0,1] range. Unorms cannot represent that, so we must clamp.

1268

//

1269

// You can adjust the expected input to [0,bias] by tweaking that parameter.

1270

SI U32 to_unorm(F v, F scale, F bias = 1.0f) {

Mike Klein

2017-12-15 09:55:03 -0500

[diff] [blame]

1271

// Any time we use round() we probably want to use to_unorm().

1272

return round(min(max(0, v), bias), scale);

1273

}

1274

Mike Reed

2018-02-16 12:40:18 -0500

[diff] [blame]

1275

SI I32 cond_to_mask(I32 cond) { return if_then_else(cond, I32(~0), I32(0)); }

1276

Mike Klein

2017-04-03 13:54:55 -0400

[diff] [blame]

1277

// Now finally, normal Stages!

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1278

Mike Klein

e8de024

2018-03-10 12:37:11 -0500

[diff] [blame]

1279

STAGE(seed_shader, Ctx::None) {

1280

static const float iota[] = {

1281

0.5f, 1.5f, 2.5f, 3.5f, 4.5f, 5.5f, 6.5f, 7.5f,

1282

8.5f, 9.5f,10.5f,11.5f,12.5f,13.5f,14.5f,15.5f,

1283

};

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1284

// It's important for speed to explicitly cast(dx) and cast(dy),

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1285

// which has the effect of splatting them to vectors before converting to floats.

1286

// On Intel this breaks a data dependency on previous loop iterations' registers.

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

1287

r = cast(dx) + sk_unaligned_load<F>(iota);

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1288

g = cast(dy) + 0.5f;

Mike Klein

2229b57

2017-04-21 10:30:29 -0400

[diff] [blame]

1289

b = 1.0f;

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1290

a = 0;

1291

dr = dg = db = da = 0;

1292

}

1293

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1294

STAGE(dither, const float* rate) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1295

// Get [(dx,dy), (dx+1,dy), (dx+2,dy), ...] loaded up in integer vectors.

Mike Klein

856b3c3

2017-08-29 13:38:09 -0400

[diff] [blame]

1296

uint32_t iota[] = {0,1,2,3,4,5,6,7};

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

1297

U32 X = dx + sk_unaligned_load<U32>(iota),

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1298

Y = dy;

Mike Klein

581e698

2017-05-03 13:05:13 -0400

[diff] [blame]

1299

1300

// We're doing 8x8 ordered dithering, see https://en.wikipedia.org/wiki/Ordered_dithering.

1301

// In this case n=8 and we're using the matrix that looks like 1/64 x [ 0 48 12 60 ... ].

1302

1303

// We only need X and X^Y from here on, so it's easier to just think of that as "Y".

1304

Y ^= X;

1305

1306

// We'll mix the bottom 3 bits of each of X and Y to make 6 bits,

1307

// for 2^6 == 64 == 8x8 matrix values. If X=abc and Y=def, we make fcebda.

1308

U32 M = (Y & 1) << 5 | (X & 1) << 4

1309

| (Y & 2) << 2 | (X & 2) << 1

1310

| (Y & 4) >> 1 | (X & 4) >> 2;

1311

Mike Klein

db711c9

2017-05-03 17:57:48 -0400

[diff] [blame]

1312

// Scale that dither to [0,1), then (-0.5,+0.5), here using 63/128 = 0.4921875 as 0.5-epsilon.

1313

// We want to make sure our dither is less than 0.5 in either direction to keep exact values

1314

// like 0 and 1 unchanged after rounding.

1315

F dither = cast(M) * (2/128.0f) - (63/128.0f);

Mike Klein

581e698

2017-05-03 13:05:13 -0400

[diff] [blame]

1316

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1317

r += *rate*dither;

1318

g += *rate*dither;

1319

b += *rate*dither;

Mike Klein

7e68bc9

2017-05-16 12:03:15 -0400

[diff] [blame]

1320

1321

r = max(0, min(r, a));

1322

g = max(0, min(g, a));

1323

b = max(0, min(b, a));

Mike Klein

581e698

2017-05-03 13:05:13 -0400

[diff] [blame]

1324

}

1325

Mike Reed

2017-05-15 09:34:22 -0400

[diff] [blame]

1326

// load 4 floats from memory, and splat them into r,g,b,a

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1327

STAGE(uniform_color, const SkRasterPipeline_UniformColorCtx* c) {

Mike Klein

1a2e3e1

2017-08-03 11:24:13 -0400

[diff] [blame]

r = c->r;

g = c->g;

b = c->b;

a = c->a;

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1332

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1333

STAGE(unbounded_uniform_color, const SkRasterPipeline_UniformColorCtx* c) {

Mike Klein

cd3e13a

2018-07-10 15:52:06 +0000

[diff] [blame]

r = c->r;

g = c->g;

b = c->b;

a = c->a;

}

Mike Reed

9318a6c

2019-08-16 16:16:25 -0400

[diff] [blame]

1339

// load 4 floats from memory, and splat them into dr,dg,db,da

1340

STAGE(uniform_color_dst, const SkRasterPipeline_UniformColorCtx* c) {

dr = c->r;

dg = c->g;

db = c->b;

da = c->a;

}

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1346

Mike Reed

c91e387

2017-07-05 14:12:37 -0400

[diff] [blame]

1347

// splats opaque-black into r,g,b,a

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1348

STAGE(black_color, Ctx::None) {

Mike Reed

c91e387

2017-07-05 14:12:37 -0400

[diff] [blame]

r = g = b = 0.0f;

a = 1.0f;

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1353

STAGE(white_color, Ctx::None) {

Mike Reed

c91e387

2017-07-05 14:12:37 -0400

[diff] [blame]

1354

r = g = b = a = 1.0f;

1355

}

1356

Mike Reed

2017-05-15 09:34:22 -0400

[diff] [blame]

1357

// load registers r,g,b,a from context (mirrors store_rgba)

Mike Reed

2019-03-08 11:50:35 -0500

[diff] [blame]

1358

STAGE(load_src, const float* ptr) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

1359

r = sk_unaligned_load<F>(ptr + 0*N);

1360

g = sk_unaligned_load<F>(ptr + 1*N);

1361

b = sk_unaligned_load<F>(ptr + 2*N);

1362

a = sk_unaligned_load<F>(ptr + 3*N);

Mike Reed

2017-05-15 09:34:22 -0400

[diff] [blame]

1363

}

1364

1365

// store registers r,g,b,a into context (mirrors load_rgba)

Mike Reed

2019-03-08 11:50:35 -0500

[diff] [blame]

1366

STAGE(store_src, float* ptr) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

1367

sk_unaligned_store(ptr + 0*N, r);

1368

sk_unaligned_store(ptr + 1*N, g);

1369

sk_unaligned_store(ptr + 2*N, b);

1370

sk_unaligned_store(ptr + 3*N, a);

Mike Reed

2017-05-15 09:34:22 -0400

[diff] [blame]

1371

}

Mike Reed

2020-03-10 14:02:56 -0400

[diff] [blame]

1372

STAGE(store_src_a, float* ptr) {

1373

sk_unaligned_store(ptr, a);

1374

}

Mike Reed

2017-05-15 09:34:22 -0400

[diff] [blame]

1375

Mike Reed

2019-03-08 11:50:35 -0500

[diff] [blame]

1376

// load registers dr,dg,db,da from context (mirrors store_dst)

1377

STAGE(load_dst, const float* ptr) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

1378

dr = sk_unaligned_load<F>(ptr + 0*N);

1379

dg = sk_unaligned_load<F>(ptr + 1*N);

1380

db = sk_unaligned_load<F>(ptr + 2*N);

1381

da = sk_unaligned_load<F>(ptr + 3*N);

Mike Reed

2019-03-08 11:50:35 -0500

[diff] [blame]

1382

}

1383

1384

// store registers dr,dg,db,da into context (mirrors load_dst)

1385

STAGE(store_dst, float* ptr) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

1386

sk_unaligned_store(ptr + 0*N, dr);

1387

sk_unaligned_store(ptr + 1*N, dg);

1388

sk_unaligned_store(ptr + 2*N, db);

1389

sk_unaligned_store(ptr + 3*N, da);

Mike Reed

2019-03-08 11:50:35 -0500

[diff] [blame]

1390

}

1391

Mike Klein

2017-04-03 13:54:55 -0400

[diff] [blame]

1392

// Most blend modes apply the same logic to each channel.

Mike Klein

2017-03-31 09:29:01 -0400

[diff] [blame]

1393

#define BLEND_MODE(name) \

1394

SI F name##_channel(F s, F d, F sa, F da); \

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1395

STAGE(name, Ctx::None) { \

Mike Klein

2017-03-31 09:29:01 -0400

[diff] [blame]

1396

r = name##_channel(r,dr,a,da); \

1397

g = name##_channel(g,dg,a,da); \

1398

b = name##_channel(b,db,a,da); \

1399

a = name##_channel(a,da,a,da); \

1400

} \

1401

SI F name##_channel(F s, F d, F sa, F da)

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1402

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1403

SI F inv(F x) { return 1.0f - x; }

Mike Klein

2017-03-31 10:29:40 -0400

[diff] [blame]

1404

SI F two(F x) { return x + x; }

Yuqian Li

7741c75

2017-12-11 14:17:47 -0500

[diff] [blame]

1405

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1406

Mike Klein

2017-03-31 09:29:01 -0400

[diff] [blame]

1407

BLEND_MODE(clear) { return 0; }

1408

BLEND_MODE(srcatop) { return s*da + d*inv(sa); }

1409

BLEND_MODE(dstatop) { return d*sa + s*inv(da); }

1410

BLEND_MODE(srcin) { return s * da; }

1411

BLEND_MODE(dstin) { return d * sa; }

1412

BLEND_MODE(srcout) { return s * inv(da); }

1413

BLEND_MODE(dstout) { return d * inv(sa); }

1414

BLEND_MODE(srcover) { return mad(d, inv(sa), s); }

1415

BLEND_MODE(dstover) { return mad(s, inv(da), d); }

1416

1417

BLEND_MODE(modulate) { return s*d; }

1418

BLEND_MODE(multiply) { return s*inv(da) + d*inv(sa) + s*d; }

Mike Klein

b90c080

2019-03-15 14:03:41 +0000

[diff] [blame]

1419

BLEND_MODE(plus_) { return min(s + d, 1.0f); } // We can clamp to either 1 or sa.

Mike Klein

2017-03-31 09:29:01 -0400

[diff] [blame]

1420

BLEND_MODE(screen) { return s + d - s*d; }

1421

BLEND_MODE(xor_) { return s*inv(da) + d*inv(sa); }

Mike Klein

2017-03-31 10:29:40 -0400

[diff] [blame]

1422

#undef BLEND_MODE

Mike Klein

2017-04-03 13:54:55 -0400

[diff] [blame]

1423

1424

// Most other blend modes apply the same logic to colors, and srcover to alpha.

Mike Klein

2017-03-31 10:29:40 -0400

[diff] [blame]

1425

#define BLEND_MODE(name) \

1426

SI F name##_channel(F s, F d, F sa, F da); \

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1427

STAGE(name, Ctx::None) { \

Mike Klein

2017-03-31 10:29:40 -0400

[diff] [blame]

1428

r = name##_channel(r,dr,a,da); \

1429

g = name##_channel(g,dg,a,da); \

1430

b = name##_channel(b,db,a,da); \

1431

a = mad(da, inv(a), a); \

1432

} \

1433

SI F name##_channel(F s, F d, F sa, F da)

1434

1435

BLEND_MODE(darken) { return s + d - max(s*da, d*sa) ; }

1436

BLEND_MODE(lighten) { return s + d - min(s*da, d*sa) ; }

1437

BLEND_MODE(difference) { return s + d - two(min(s*da, d*sa)); }

1438

BLEND_MODE(exclusion) { return s + d - two(s*d); }

1439

Mike Klein

2017-03-31 11:48:14 -0400

[diff] [blame]

1440

BLEND_MODE(colorburn) {

Florin Malita

59a62ed

2017-08-23 12:08:37 -0400

[diff] [blame]

1441

return if_then_else(d == da, d + s*inv(da),

1442

if_then_else(s == 0, /* s + */ d*inv(sa),

Herb Derby

2021-09-15 17:25:01 -0400

[diff] [blame]

1443

sa*(da - min(da, (da-d)*sa*rcp_fast(s))) + s*inv(da) + d*inv(sa)));

Mike Klein

2017-03-31 11:48:14 -0400

[diff] [blame]

1444

}

1445

BLEND_MODE(colordodge) {

Florin Malita

59a62ed

2017-08-23 12:08:37 -0400

[diff] [blame]

1446

return if_then_else(d == 0, /* d + */ s*inv(da),

1447

if_then_else(s == sa, s + d*inv(sa),

Herb Derby

2021-09-15 17:25:01 -0400

[diff] [blame]

1448

sa*min(da, (d*sa)*rcp_fast(sa - s)) + s*inv(da) + d*inv(sa)));

Mike Klein

2017-03-31 11:48:14 -0400

[diff] [blame]

1449

}

1450

BLEND_MODE(hardlight) {

1451

return s*inv(da) + d*inv(sa)

1452

+ if_then_else(two(s) <= sa, two(s*d), sa*da - two((da-d)*(sa-s)));

1453

}

1454

BLEND_MODE(overlay) {

1455

return s*inv(da) + d*inv(sa)

1456

+ if_then_else(two(d) <= da, two(s*d), sa*da - two((da-d)*(sa-s)));

1457

}

1458

1459

BLEND_MODE(softlight) {

1460

F m = if_then_else(da > 0, d / da, 0),

s2 = two(s),

m4 = two(two(m));

// The logic forks three ways:

1465

// 1. dark src?

1466

// 2. light src, dark dst?

1467

// 3. light src, light dst?

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1468

F darkSrc = d*(sa + (s2 - sa)*(1.0f - m)), // Used in case 1.

1469

darkDst = (m4*m4 + m4)*(m - 1.0f) + 7.0f*m, // Used in case 2.

Mike Klein

395274e

2021-04-22 12:41:56 -0500

[diff] [blame]

1470

#if defined(SK_RASTER_PIPELINE_LEGACY_RCP_RSQRT)

Herb Derby

2021-09-15 17:25:01 -0400

[diff] [blame]

1471

liteDst = rcp_fast(rsqrt(m)) - m, // Used in case 3.

Mike Klein

395274e

2021-04-22 12:41:56 -0500

[diff] [blame]

1472

#else

1473

liteDst = sqrt_(m) - m,

1474

#endif

Mike Klein

2017-03-31 11:48:14 -0400

[diff] [blame]

1475

liteSrc = d*sa + da*(s2 - sa) * if_then_else(two(two(d)) <= da, darkDst, liteDst); // 2 or 3?

1476

return s*inv(da) + d*inv(sa) + if_then_else(s2 <= sa, darkSrc, liteSrc); // 1 or (2 or 3)?

1477

}

Mike Klein

2017-04-03 13:54:55 -0400

[diff] [blame]

1478

#undef BLEND_MODE

Mike Klein

2017-03-31 11:48:14 -0400

[diff] [blame]

1479

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1480

// We're basing our implemenation of non-separable blend modes on

1481

// https://www.w3.org/TR/compositing-1/#blendingnonseparable.

1482

// and

1483

// https://www.khronos.org/registry/OpenGL/specs/es/3.2/es_spec_3.2.pdf

1484

// They're equivalent, but ES' math has been better simplified.

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1485

//

1486

// Anything extra we add beyond that is to make the math work with premul inputs.

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1487

Mike Klein

2019-10-16 13:28:55 -0500

[diff] [blame]

1488

SI F sat(F r, F g, F b) { return max(r, max(g,b)) - min(r, min(g,b)); }

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1489

SI F lum(F r, F g, F b) { return r*0.30f + g*0.59f + b*0.11f; }

1490

1491

SI void set_sat(F* r, F* g, F* b, F s) {

Mike Klein

2019-10-16 13:28:55 -0500

[diff] [blame]

1492

F mn = min(*r, min(*g,*b)),

1493

mx = max(*r, max(*g,*b)),

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1494

sat = mx - mn;

1495

1496

// Map min channel to 0, max channel to s, and scale the middle proportionally.

1497

auto scale = [=](F c) {

1498

return if_then_else(sat == 0, 0, (c - mn) * s / sat);

};

*r = scale(*r);

*g = scale(*g);

*b = scale(*b);

}

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1504

SI void set_lum(F* r, F* g, F* b, F l) {

1505

F diff = l - lum(*r, *g, *b);

*r += diff;

*g += diff;

*b += diff;

}

SI void clip_color(F* r, F* g, F* b, F a) {

Mike Klein

2019-10-16 13:28:55 -0500

[diff] [blame]

1511

F mn = min(*r, min(*g, *b)),

1512

mx = max(*r, max(*g, *b)),

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1513

l = lum(*r, *g, *b);

1514

1515

auto clip = [=](F c) {

1516

c = if_then_else(mn >= 0, c, l + (c - l) * ( l) / (l - mn) );

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1517

c = if_then_else(mx > a, l + (c - l) * (a - l) / (mx - l), c);

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1518

c = max(c, 0); // Sometimes without this we may dip just a little negative.

return c;

};

*r = clip(*r);

*g = clip(*g);

*b = clip(*b);

}

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1525

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1526

STAGE(hue, Ctx::None) {

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1527

F R = r*a,

1528

G = g*a,

1529

B = b*a;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1530

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1531

set_sat(&R, &G, &B, sat(dr,dg,db)*a);

1532

set_lum(&R, &G, &B, lum(dr,dg,db)*a);

1533

clip_color(&R,&G,&B, a*da);

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1534

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1535

r = r*inv(da) + dr*inv(a) + R;

1536

g = g*inv(da) + dg*inv(a) + G;

1537

b = b*inv(da) + db*inv(a) + B;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1538

a = a + da - a*da;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1539

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1540

STAGE(saturation, Ctx::None) {

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1541

F R = dr*a,

1542

G = dg*a,

1543

B = db*a;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1544

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1545

set_sat(&R, &G, &B, sat( r, g, b)*da);

1546

set_lum(&R, &G, &B, lum(dr,dg,db)* a); // (This is not redundant.)

1547

clip_color(&R,&G,&B, a*da);

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1548

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1549

r = r*inv(da) + dr*inv(a) + R;

1550

g = g*inv(da) + dg*inv(a) + G;

1551

b = b*inv(da) + db*inv(a) + B;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1552

a = a + da - a*da;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1553

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1554

STAGE(color, Ctx::None) {

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1555

F R = r*da,

1556

G = g*da,

1557

B = b*da;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1558

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1559

set_lum(&R, &G, &B, lum(dr,dg,db)*a);

1560

clip_color(&R,&G,&B, a*da);

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1561

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1562

r = r*inv(da) + dr*inv(a) + R;

1563

g = g*inv(da) + dg*inv(a) + G;

1564

b = b*inv(da) + db*inv(a) + B;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1565

a = a + da - a*da;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1566

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1567

STAGE(luminosity, Ctx::None) {

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1568

F R = dr*a,

1569

G = dg*a,

1570

B = db*a;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1571

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1572

set_lum(&R, &G, &B, lum(r,g,b)*da);

1573

clip_color(&R,&G,&B, a*da);

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1574

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1575

r = r*inv(da) + dr*inv(a) + R;

1576

g = g*inv(da) + dg*inv(a) + G;

1577

b = b*inv(da) + db*inv(a) + B;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1578

a = a + da - a*da;

Mike Klein

2017-05-04 12:42:52 -0400

[diff] [blame]

1579

}

1580

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1581

STAGE(srcover_rgba_8888, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1582

auto ptr = ptr_at_xy<uint32_t>(ctx, dx,dy);

Mike Klein

2017-05-25 13:06:57 -0400

[diff] [blame]

1583

1584

U32 dst = load<U32>(ptr, tail);

1585

dr = cast((dst ) & 0xff);

1586

dg = cast((dst >> 8) & 0xff);

1587

db = cast((dst >> 16) & 0xff);

1588

da = cast((dst >> 24) );

1589

// {dr,dg,db,da} are in [0,255]

Mike Klein

2017-12-15 09:55:03 -0500

[diff] [blame]

1590

// { r, g, b, a} are in [0, 1] (but may be out of gamut)

Mike Klein

2017-05-25 13:06:57 -0400

[diff] [blame]

1591

1592

r = mad(dr, inv(a), r*255.0f);

1593

g = mad(dg, inv(a), g*255.0f);

1594

b = mad(db, inv(a), b*255.0f);

1595

a = mad(da, inv(a), a*255.0f);

Mike Klein

2017-12-15 09:55:03 -0500

[diff] [blame]

1596

// { r, g, b, a} are now in [0,255] (but may be out of gamut)

Mike Klein

2017-05-25 13:06:57 -0400

[diff] [blame]

1597

Mike Klein

2017-12-15 09:55:03 -0500

[diff] [blame]

1598

// to_unorm() clamps back to gamut. Scaling by 1 since we're already 255-biased.

1599

dst = to_unorm(r, 1, 255)

1600

| to_unorm(g, 1, 255) << 8

1601

| to_unorm(b, 1, 255) << 16

1602

| to_unorm(a, 1, 255) << 24;

Mike Klein

2017-05-25 13:06:57 -0400

[diff] [blame]

1603

store(ptr, dst, tail);

1604

}

1605

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1606

STAGE(clamp_0, Ctx::None) {

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

r = max(r, 0);

g = max(g, 0);

b = max(b, 0);

a = max(a, 0);

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1613

STAGE(clamp_1, Ctx::None) {

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

r = min(r, 1.0f);

g = min(g, 1.0f);

b = min(b, 1.0f);

a = min(a, 1.0f);

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1618

}

1619

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1620

STAGE(clamp_a, Ctx::None) {

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1621

a = min(a, 1.0f);

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

r = min(r, a);

g = min(g, a);

b = min(b, a);

}

Mike Klein

2018-09-07 11:08:53 -0400

[diff] [blame]

1627

STAGE(clamp_gamut, Ctx::None) {

Mike Klein

6495a4f

2020-01-08 12:45:36 -0600

[diff] [blame]

1628

a = min(max(a, 0), 1.0f);

Mike Klein

eb50f43

2018-09-07 11:08:53 -0400

[diff] [blame]

1629

r = min(max(r, 0), a);

1630

g = min(max(g, 0), a);

1631

b = min(max(b, 0), a);

1632

}

1633

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1634

STAGE(set_rgb, const float* rgb) {

Mike Klein

d9e8225

2017-02-22 14:17:32 -0500

[diff] [blame]

r = rgb[0];

g = rgb[1];

b = rgb[2];

}

Mike Klein

be56949

2018-09-14 09:34:21 -0400

[diff] [blame]

1639

STAGE(unbounded_set_rgb, const float* rgb) {

r = rgb[0];

g = rgb[1];

b = rgb[2];

}

Mike Klein

1a3eb52

2018-10-18 10:11:00 -0400

[diff] [blame]

1644

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1645

STAGE(swap_rb, Ctx::None) {

Mike Klein

d9e8225

2017-02-22 14:17:32 -0500

[diff] [blame]

auto tmp = r;

r = b;

b = tmp;

}

Mike Klein

1a3eb52

2018-10-18 10:11:00 -0400

[diff] [blame]

1650

STAGE(swap_rb_dst, Ctx::None) {

auto tmp = dr;

dr = db;

db = tmp;

}

Mike Klein

d9e8225

2017-02-22 14:17:32 -0500

[diff] [blame]

1655

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1656

STAGE(move_src_dst, Ctx::None) {

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

dr = r;

dg = g;

db = b;

da = a;

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1662

STAGE(move_dst_src, Ctx::None) {

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

r = dr;

g = dg;

b = db;

a = da;

}

Brian Osman

9f1e06a

2021-08-10 14:39:18 -0400

[diff] [blame]

1668

STAGE(swap_src_dst, Ctx::None) {

std::swap(r, dr);

std::swap(g, dg);

std::swap(b, db);

std::swap(a, da);

}

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1674

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1675

STAGE(premul, Ctx::None) {

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

r = r * a;

g = g * a;

b = b * a;

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1680

STAGE(premul_dst, Ctx::None) {

Mike Reed

883c9bc

2017-07-19 10:57:53 -0400

[diff] [blame]

dr = dr * da;

dg = dg * da;

db = db * da;

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1685

STAGE(unpremul, Ctx::None) {

John Stiles

2020-07-24 09:56:05 -0400

[diff] [blame]

1686

float inf = sk_bit_cast<float>(0x7f800000);

Mike Klein

a65f2f0

2017-10-11 13:05:24 -0400

[diff] [blame]

1687

auto scale = if_then_else(1.0f/a < inf, 1.0f/a, 0);

Mike Klein

2017-05-12 12:59:24 -0400

[diff] [blame]

1688

r *= scale;

1689

g *= scale;

1690

b *= scale;

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1691

}

1692

Mike Klein

2018-01-25 09:09:32 -0500

[diff] [blame]

1693

STAGE(force_opaque , Ctx::None) { a = 1; }

1694

STAGE(force_opaque_dst, Ctx::None) { da = 1; }

1695

Florin Malita

2019-10-23 17:37:35 -0400

[diff] [blame]

1696

// Clamp x to [0,1], both sides inclusive (think, gradients).

1697

// Even repeat and mirror funnel through a clamp to handle bad inputs like +Inf, NaN.

1698

SI F clamp_01(F v) { return min(max(0, v), 1); }

1699

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1700

STAGE(rgb_to_hsl, Ctx::None) {

Mike Klein

2019-10-16 13:28:55 -0500

[diff] [blame]

1701

F mx = max(r, max(g,b)),

1702

mn = min(r, min(g,b)),

Mike Klein

2017-04-12 08:35:41 -0400

[diff] [blame]

1703

d = mx - mn,

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1704

d_rcp = 1.0f / d;

Mike Klein

2017-04-12 08:35:41 -0400

[diff] [blame]

1705

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1706

F h = (1/6.0f) *

Mike Klein

2017-04-12 08:35:41 -0400

[diff] [blame]

1707

if_then_else(mx == mn, 0,

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1708

if_then_else(mx == r, (g-b)*d_rcp + if_then_else(g < b, 6.0f, 0),

1709

if_then_else(mx == g, (b-r)*d_rcp + 2.0f,

1710

(r-g)*d_rcp + 4.0f)));

Mike Klein

2017-04-12 08:35:41 -0400

[diff] [blame]

1711

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1712

F l = (mx + mn) * 0.5f;

Mike Klein

2017-04-12 08:35:41 -0400

[diff] [blame]

1713

F s = if_then_else(mx == mn, 0,

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1714

d / if_then_else(l > 0.5f, 2.0f-mx-mn, mx+mn));

Mike Klein

2017-04-12 08:35:41 -0400

[diff] [blame]

r = h;

g = s;

b = l;

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1720

STAGE(hsl_to_rgb, Ctx::None) {

Florin Malita

2019-10-23 17:37:35 -0400

[diff] [blame]

1721

// See GrRGBToHSLFilterEffect.fp

1722

Mike Klein

2017-04-12 08:35:41 -0400

[diff] [blame]

1723

F h = r,

1724

s = g,

Florin Malita

2019-10-23 17:37:35 -0400

[diff] [blame]

1725

l = b,

1726

c = (1.0f - abs_(2.0f * l - 1)) * s;

Mike Klein

2017-04-12 08:35:41 -0400

[diff] [blame]

1727

Florin Malita

2019-10-23 17:37:35 -0400

[diff] [blame]

1728

auto hue_to_rgb = [&](F hue) {

1729

F q = clamp_01(abs_(fract(hue) * 6.0f - 3.0f) - 1.0f);

1730

return (q - 0.5f) * c + l;

Mike Klein

2017-04-12 08:35:41 -0400

[diff] [blame]

1731

};

1732

Florin Malita

2019-10-23 17:37:35 -0400

[diff] [blame]

1733

r = hue_to_rgb(h + 0.0f/3.0f);

1734

g = hue_to_rgb(h + 2.0f/3.0f);

1735

b = hue_to_rgb(h + 1.0f/3.0f);

Mike Klein

2017-04-12 08:35:41 -0400

[diff] [blame]

1736

}

1737

Mike Klein

2017-08-24 13:06:23 -0400

[diff] [blame]

1738

// Derive alpha's coverage from rgb coverage and the values of src and dst alpha.

1739

SI F alpha_coverage_from_rgb_coverage(F a, F da, F cr, F cg, F cb) {

Mike Klein

2019-10-16 13:28:55 -0500

[diff] [blame]

1740

return if_then_else(a < da, min(cr, min(cg,cb))

1741

, max(cr, max(cg,cb)));

Mike Klein

2017-08-24 13:06:23 -0400

[diff] [blame]

1742

}

1743

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1744

STAGE(scale_1_float, const float* c) {

r = r * *c;

g = g * *c;

b = b * *c;

a = a * *c;

Mike Klein

2017-02-24 08:21:18 -0500

[diff] [blame]

1749

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1750

STAGE(scale_u8, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1751

auto ptr = ptr_at_xy<const uint8_t>(ctx, dx,dy);

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1752

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

1753

auto scales = load<U8>(ptr, tail);

Mike Klein

2017-04-07 13:09:29 -0400

[diff] [blame]

1754

auto c = from_byte(scales);

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

r = r * c;

g = g * c;

b = b * c;

a = a * c;

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1761

STAGE(scale_565, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1762

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx,dy);

Mike Klein

2017-08-24 13:06:23 -0400

[diff] [blame]

1763

1764

F cr,cg,cb;

1765

from_565(load<U16>(ptr, tail), &cr, &cg, &cb);

1766

1767

F ca = alpha_coverage_from_rgb_coverage(a,da, cr,cg,cb);

r = r * cr;

g = g * cg;

b = b * cb;

a = a * ca;

}

Mike Klein

2017-02-24 08:21:18 -0500

[diff] [blame]

1774

Mike Klein

2017-04-03 13:54:55 -0400

[diff] [blame]

1775

SI F lerp(F from, F to, F t) {

1776

return mad(to-from, t, from);

1777

}

1778

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

1779

STAGE(lerp_1_float, const float* c) {

r = lerp(dr, r, *c);

g = lerp(dg, g, *c);

b = lerp(db, b, *c);

a = lerp(da, a, *c);

Mike Klein

2017-02-24 08:21:18 -0500

[diff] [blame]

1784

}

Mike Reed

2020-03-10 14:02:56 -0400

[diff] [blame]

1785

STAGE(scale_native, const float scales[]) {

1786

auto c = sk_unaligned_load<F>(scales);

r = r * c;

g = g * c;

b = b * c;

a = a * c;

}

Mike Reed

79a7542

2019-03-15 15:45:09 -0400

[diff] [blame]

1792

STAGE(lerp_native, const float scales[]) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

1793

auto c = sk_unaligned_load<F>(scales);

Mike Reed

79a7542

2019-03-15 15:45:09 -0400

[diff] [blame]

r = lerp(dr, r, c);

g = lerp(dg, g, c);

b = lerp(db, b, c);

a = lerp(da, a, c);

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1799

STAGE(lerp_u8, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1800

auto ptr = ptr_at_xy<const uint8_t>(ctx, dx,dy);

Mike Klein

2b76736

2017-02-22 13:52:40 -0500

[diff] [blame]

1801

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

1802

auto scales = load<U8>(ptr, tail);

Mike Klein

2017-04-07 13:09:29 -0400

[diff] [blame]

1803

auto c = from_byte(scales);

Mike Klein

2b76736

2017-02-22 13:52:40 -0500

[diff] [blame]

r = lerp(dr, r, c);

g = lerp(dg, g, c);

b = lerp(db, b, c);

a = lerp(da, a, c);

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1810

STAGE(lerp_565, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1811

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx,dy);

Mike Klein

2017-02-24 08:21:18 -0500

[diff] [blame]

1812

1813

F cr,cg,cb;

Mike Klein

5224f46

2017-03-07 17:29:54 -0500

[diff] [blame]

1814

from_565(load<U16>(ptr, tail), &cr, &cg, &cb);

Mike Klein

2017-02-24 08:21:18 -0500

[diff] [blame]

1815

Mike Klein

2017-08-24 13:06:23 -0400

[diff] [blame]

1816

F ca = alpha_coverage_from_rgb_coverage(a,da, cr,cg,cb);

1817

Mike Klein

2017-02-24 08:21:18 -0500

[diff] [blame]

1818

r = lerp(dr, r, cr);

1819

g = lerp(dg, g, cg);

1820

b = lerp(db, b, cb);

Mike Klein

2017-08-24 13:06:23 -0400

[diff] [blame]

1821

a = lerp(da, a, ca);

Mike Klein

2017-02-24 08:21:18 -0500

[diff] [blame]

1822

}

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

1823

Mike Klein

eda2ac2

2018-11-06 11:53:59 -0500

[diff] [blame]

1824

STAGE(emboss, const SkRasterPipeline_EmbossCtx* ctx) {

1825

auto mptr = ptr_at_xy<const uint8_t>(&ctx->mul, dx,dy),

1826

aptr = ptr_at_xy<const uint8_t>(&ctx->add, dx,dy);

1827

1828

F mul = from_byte(load<U8>(mptr, tail)),

1829

add = from_byte(load<U8>(aptr, tail));

1830

1831

r = mad(r, mul, add);

1832

g = mad(g, mul, add);

1833

b = mad(b, mul, add);

1834

}

1835

Mike Klein

2021-02-08 15:17:45 -0600

[diff] [blame]

1836

STAGE(byte_tables, const void* ctx) {

Mike Klein

2017-04-07 13:09:29 -0400

[diff] [blame]

1837

struct Tables { const uint8_t *r, *g, *b, *a; };

1838

auto tables = (const Tables*)ctx;

1839

Mike Klein

2017-12-15 09:55:03 -0500

[diff] [blame]

1840

r = from_byte(gather(tables->r, to_unorm(r, 255)));

1841

g = from_byte(gather(tables->g, to_unorm(g, 255)));

1842

b = from_byte(gather(tables->b, to_unorm(b, 255)));

1843

a = from_byte(gather(tables->a, to_unorm(a, 255)));

Mike Klein

2017-04-07 13:09:29 -0400

[diff] [blame]

1844

}

1845

Mike Klein

2018-09-06 15:23:29 -0400

[diff] [blame]

1846

SI F strip_sign(F x, U32* sign) {

John Stiles

2020-07-24 09:56:05 -0400

[diff] [blame]

1847

U32 bits = sk_bit_cast<U32>(x);

Mike Klein

2018-09-06 15:23:29 -0400

[diff] [blame]

1848

*sign = bits & 0x80000000;

John Stiles

2020-07-24 09:56:05 -0400

[diff] [blame]

1849

return sk_bit_cast<F>(bits ^ *sign);

Mike Klein

2018-09-06 15:23:29 -0400

[diff] [blame]

1850

}

Mike Klein

2018-09-05 15:16:52 -0400

[diff] [blame]

1851

Mike Klein

2018-09-06 15:23:29 -0400

[diff] [blame]

1852

SI F apply_sign(F x, U32 sign) {

John Stiles

2020-07-24 09:56:05 -0400

[diff] [blame]

1853

return sk_bit_cast<F>(sign | sk_bit_cast<U32>(x));

Mike Klein

2018-09-06 15:23:29 -0400

[diff] [blame]

1854

}

Mike Klein

2018-09-05 15:16:52 -0400

[diff] [blame]

1855

Brian Osman

5deadca

2019-01-24 12:18:17 -0500

[diff] [blame]

1856

STAGE(parametric, const skcms_TransferFunction* ctx) {

Mike Klein

4eebd9e

2018-07-11 14:49:51 -0400

[diff] [blame]

1857

auto fn = [&](F v) {

Mike Klein

2018-09-05 15:16:52 -0400

[diff] [blame]

1858

U32 sign;

1859

v = strip_sign(v, &sign);

1860

Brian Osman

5deadca

2019-01-24 12:18:17 -0500

[diff] [blame]

1861

F r = if_then_else(v <= ctx->d, mad(ctx->c, v, ctx->f)

1862

, approx_powf(mad(ctx->a, v, ctx->b), ctx->g) + ctx->e);

Mike Klein

33d3d31

2018-09-05 17:52:25 -0400

[diff] [blame]

1863

return apply_sign(r, sign);

Mike Klein

4eebd9e

2018-07-11 14:49:51 -0400

[diff] [blame]

};

r = fn(r);

g = fn(g);

b = fn(b);

Mike Klein

4437517

2017-04-17 19:32:05 -0400

[diff] [blame]

1868

}

Mike Klein

4437517

2017-04-17 19:32:05 -0400

[diff] [blame]

1869

Mike Klein

1ce03a6

2019-04-23 08:00:35 -0500

[diff] [blame]

1870

STAGE(gamma_, const float* G) {

Mike Klein

2018-09-05 15:16:52 -0400

[diff] [blame]

1871

auto fn = [&](F v) {

1872

U32 sign;

1873

v = strip_sign(v, &sign);

1874

return apply_sign(approx_powf(v, *G), sign);

};

r = fn(r);

g = fn(g);

b = fn(b);

}

Brian Osman

2019-10-16 13:58:42 -0400

[diff] [blame]

1881

STAGE(PQish, const skcms_TransferFunction* ctx) {

1882

auto fn = [&](F v) {

1883

U32 sign;

1884

v = strip_sign(v, &sign);

1885

1886

F r = approx_powf(max(mad(ctx->b, approx_powf(v, ctx->c), ctx->a), 0)

1887

/ (mad(ctx->e, approx_powf(v, ctx->c), ctx->d)),

1888

ctx->f);

1889

1890

return apply_sign(r, sign);

};

r = fn(r);

g = fn(g);

b = fn(b);

}

STAGE(HLGish, const skcms_TransferFunction* ctx) {

1898

auto fn = [&](F v) {

1899

U32 sign;

1900

v = strip_sign(v, &sign);

1901

1902

const float R = ctx->a, G = ctx->b,

Mike Klein

2021-01-07 10:50:01 -0600

[diff] [blame]

1903

a = ctx->c, b = ctx->d, c = ctx->e,

1904

K = ctx->f + 1.0f;

Brian Osman

2019-10-16 13:58:42 -0400

[diff] [blame]

1905

1906

F r = if_then_else(v*R <= 1, approx_powf(v*R, G)

1907

, approx_exp((v-c)*a) + b);

1908

Mike Klein

2021-01-07 10:50:01 -0600

[diff] [blame]

1909

return K * apply_sign(r, sign);

Brian Osman

2019-10-16 13:58:42 -0400

[diff] [blame]

};

r = fn(r);

g = fn(g);

b = fn(b);

}

STAGE(HLGinvish, const skcms_TransferFunction* ctx) {

1917

auto fn = [&](F v) {

1918

U32 sign;

1919

v = strip_sign(v, &sign);

1920

1921

const float R = ctx->a, G = ctx->b,

Mike Klein

2021-01-07 10:50:01 -0600

[diff] [blame]

1922

a = ctx->c, b = ctx->d, c = ctx->e,

1923

K = ctx->f + 1.0f;

Brian Osman

2019-10-16 13:58:42 -0400

[diff] [blame]

1924

Mike Klein

2021-01-07 10:50:01 -0600

[diff] [blame]

1925

v /= K;

Brian Osman

2019-10-16 13:58:42 -0400

[diff] [blame]

1926

F r = if_then_else(v <= 1, R * approx_powf(v, G)

1927

, a * approx_log(v - b) + c);

1928

1929

return apply_sign(r, sign);

};

r = fn(r);

g = fn(g);

b = fn(b);

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1936

STAGE(load_a8, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1937

auto ptr = ptr_at_xy<const uint8_t>(ctx, dx,dy);

Mike Klein

2017-02-24 09:05:14 -0500

[diff] [blame]

1938

1939

r = g = b = 0.0f;

Mike Klein

2017-04-07 13:09:29 -0400

[diff] [blame]

1940

a = from_byte(load<U8>(ptr, tail));

Mike Klein

2017-02-24 09:05:14 -0500

[diff] [blame]

1941

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1942

STAGE(load_a8_dst, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1943

auto ptr = ptr_at_xy<const uint8_t>(ctx, dx,dy);

Mike Reed

2017-06-27 16:58:00 -0400

[diff] [blame]

1944

1945

dr = dg = db = 0.0f;

1946

da = from_byte(load<U8>(ptr, tail));

1947

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1948

STAGE(gather_a8, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

2017-04-06 16:32:29 -0400

[diff] [blame]

1949

const uint8_t* ptr;

1950

U32 ix = ix_and_ptr(&ptr, ctx, r,g);

1951

r = g = b = 0.0f;

Mike Klein

2017-04-07 13:09:29 -0400

[diff] [blame]

1952

a = from_byte(gather(ptr, ix));

Mike Klein

2017-04-06 16:32:29 -0400

[diff] [blame]

1953

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1954

STAGE(store_a8, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1955

auto ptr = ptr_at_xy<uint8_t>(ctx, dx,dy);

Mike Klein

2017-02-24 09:05:14 -0500

[diff] [blame]

1956

Mike Klein

2017-12-15 09:55:03 -0500

[diff] [blame]

1957

U8 packed = pack(pack(to_unorm(a, 255)));

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

1958

store(ptr, packed, tail);

Mike Klein

2017-02-24 09:05:14 -0500

[diff] [blame]

1959

}

1960

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1961

STAGE(load_565, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1962

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx,dy);

Mike Klein

2017-02-23 13:03:57 -0500

[diff] [blame]

1963

Mike Klein

5224f46

2017-03-07 17:29:54 -0500

[diff] [blame]

1964

from_565(load<U16>(ptr, tail), &r,&g,&b);

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1965

a = 1.0f;

Mike Klein

2017-02-23 13:03:57 -0500

[diff] [blame]

1966

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1967

STAGE(load_565_dst, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1968

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx,dy);

Mike Reed

2017-06-27 16:58:00 -0400

[diff] [blame]

1969

1970

from_565(load<U16>(ptr, tail), &dr,&dg,&db);

1971

da = 1.0f;

1972

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1973

STAGE(gather_565, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

2017-04-06 16:32:29 -0400

[diff] [blame]

1974

const uint16_t* ptr;

1975

U32 ix = ix_and_ptr(&ptr, ctx, r,g);

1976

from_565(gather(ptr, ix), &r,&g,&b);

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

1977

a = 1.0f;

Mike Klein

2017-04-06 16:32:29 -0400

[diff] [blame]

1978

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1979

STAGE(store_565, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1980

auto ptr = ptr_at_xy<uint16_t>(ctx, dx,dy);

Mike Klein

2017-02-23 13:03:57 -0500

[diff] [blame]

1981

Mike Klein

2017-12-15 09:55:03 -0500

[diff] [blame]

1982

U16 px = pack( to_unorm(r, 31) << 11

1983

| to_unorm(g, 63) << 5

1984

| to_unorm(b, 31) );

Mike Klein

2017-03-01 13:07:40 -0500

[diff] [blame]

1985

store(ptr, px, tail);

Mike Klein

2017-02-23 13:03:57 -0500

[diff] [blame]

1986

}

1987

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1988

STAGE(load_4444, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1989

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx,dy);

Mike Klein

2017-03-31 13:52:45 -0400

[diff] [blame]

1990

from_4444(load<U16>(ptr, tail), &r,&g,&b,&a);

1991

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1992

STAGE(load_4444_dst, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

1993

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx,dy);

Mike Reed

2017-06-27 16:58:00 -0400

[diff] [blame]

1994

from_4444(load<U16>(ptr, tail), &dr,&dg,&db,&da);

1995

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

1996

STAGE(gather_4444, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

2017-04-06 16:32:29 -0400

[diff] [blame]

1997

const uint16_t* ptr;

1998

U32 ix = ix_and_ptr(&ptr, ctx, r,g);

1999

from_4444(gather(ptr, ix), &r,&g,&b,&a);

2000

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2001

STAGE(store_4444, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

2002

auto ptr = ptr_at_xy<uint16_t>(ctx, dx,dy);

Mike Klein

2017-12-15 09:55:03 -0500

[diff] [blame]

2003

U16 px = pack( to_unorm(r, 15) << 12

2004

| to_unorm(g, 15) << 8

2005

| to_unorm(b, 15) << 4

2006

| to_unorm(a, 15) );

Mike Klein

2017-03-31 13:52:45 -0400

[diff] [blame]

2007

store(ptr, px, tail);

2008

}

2009

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2010

STAGE(load_8888, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

2011

auto ptr = ptr_at_xy<const uint32_t>(ctx, dx,dy);

Mike Klein

2017-04-06 15:04:05 -0400

[diff] [blame]

2012

from_8888(load<U32>(ptr, tail), &r,&g,&b,&a);

2013

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2014

STAGE(load_8888_dst, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

2015

auto ptr = ptr_at_xy<const uint32_t>(ctx, dx,dy);

Mike Reed

2017-06-27 16:58:00 -0400

[diff] [blame]

2016

from_8888(load<U32>(ptr, tail), &dr,&dg,&db,&da);

2017

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2018

STAGE(gather_8888, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

2017-04-06 15:04:05 -0400

[diff] [blame]

2019

const uint32_t* ptr;

2020

U32 ix = ix_and_ptr(&ptr, ctx, r,g);

2021

from_8888(gather(ptr, ix), &r,&g,&b,&a);

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

2022

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2023

STAGE(store_8888, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

2024

auto ptr = ptr_at_xy<uint32_t>(ctx, dx,dy);

Mike Klein

3b92b69

2017-07-18 11:30:25 -0400

[diff] [blame]

2025

Mike Klein

2017-12-15 09:55:03 -0500

[diff] [blame]

2026

U32 px = to_unorm(r, 255)

2027

| to_unorm(g, 255) << 8

2028

| to_unorm(b, 255) << 16

2029

| to_unorm(a, 255) << 24;

Mike Klein

3b92b69

2017-07-18 11:30:25 -0400

[diff] [blame]

2030

store(ptr, px, tail);

2031

}

2032

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2033

STAGE(load_rg88, const SkRasterPipeline_MemoryCtx* ctx) {

Robert Phillips

2019-09-04 15:05:35 -0400

[diff] [blame]

2034

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx, dy);

2035

from_88(load<U16>(ptr, tail), &r, &g);

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2036

b = 0;

2037

a = 1;

Robert Phillips

2019-09-04 15:05:35 -0400

[diff] [blame]

2038

}

2039

STAGE(load_rg88_dst, const SkRasterPipeline_MemoryCtx* ctx) {

2040

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx, dy);

2041

from_88(load<U16>(ptr, tail), &dr, &dg);

db = 0;

da = 1;

}

STAGE(gather_rg88, const SkRasterPipeline_GatherCtx* ctx) {

2046

const uint16_t* ptr;

2047

U32 ix = ix_and_ptr(&ptr, ctx, r, g);

2048

from_88(gather(ptr, ix), &r, &g);

2049

b = 0;

2050

a = 1;

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2051

}

2052

STAGE(store_rg88, const SkRasterPipeline_MemoryCtx* ctx) {

Robert Phillips

2019-09-04 15:05:35 -0400

[diff] [blame]

2053

auto ptr = ptr_at_xy<uint16_t>(ctx, dx, dy);

2054

U16 px = pack( to_unorm(r, 255) | to_unorm(g, 255) << 8 );

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2055

store(ptr, px, tail);

2056

}

2057

2058

STAGE(load_a16, const SkRasterPipeline_MemoryCtx* ctx) {

2059

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx,dy);

2060

r = g = b = 0;

2061

a = from_short(load<U16>(ptr, tail));

2062

}

Robert Phillips

2019-09-11 17:03:28 -0400

[diff] [blame]

2063

STAGE(load_a16_dst, const SkRasterPipeline_MemoryCtx* ctx) {

2064

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx, dy);

2065

dr = dg = db = 0.0f;

2066

da = from_short(load<U16>(ptr, tail));

2067

}

2068

STAGE(gather_a16, const SkRasterPipeline_GatherCtx* ctx) {

2069

const uint16_t* ptr;

2070

U32 ix = ix_and_ptr(&ptr, ctx, r, g);

2071

r = g = b = 0.0f;

2072

a = from_short(gather(ptr, ix));

2073

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2074

STAGE(store_a16, const SkRasterPipeline_MemoryCtx* ctx) {

2075

auto ptr = ptr_at_xy<uint16_t>(ctx, dx,dy);

2076

2077

U16 px = pack(to_unorm(a, 65535));

2078

store(ptr, px, tail);

2079

}

Robert Phillips

2019-09-11 17:03:28 -0400

[diff] [blame]

2080

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2081

STAGE(load_rg1616, const SkRasterPipeline_MemoryCtx* ctx) {

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

2082

auto ptr = ptr_at_xy<const uint32_t>(ctx, dx, dy);

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2083

b = 0; a = 1;

2084

from_1616(load<U32>(ptr, tail), &r,&g);

2085

}

Robert Phillips

2019-09-11 17:03:28 -0400

[diff] [blame]

2086

STAGE(load_rg1616_dst, const SkRasterPipeline_MemoryCtx* ctx) {

2087

auto ptr = ptr_at_xy<const uint32_t>(ctx, dx, dy);

2088

from_1616(load<U32>(ptr, tail), &dr, &dg);

db = 0;

da = 1;

}

STAGE(gather_rg1616, const SkRasterPipeline_GatherCtx* ctx) {

2093

const uint32_t* ptr;

2094

U32 ix = ix_and_ptr(&ptr, ctx, r, g);

2095

from_1616(gather(ptr, ix), &r, &g);

2096

b = 0;

2097

a = 1;

2098

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2099

STAGE(store_rg1616, const SkRasterPipeline_MemoryCtx* ctx) {

2100

auto ptr = ptr_at_xy<uint32_t>(ctx, dx,dy);

2101

2102

U32 px = to_unorm(r, 65535)

2103

| to_unorm(g, 65535) << 16;

2104

store(ptr, px, tail);

2105

}

Robert Phillips

2019-09-11 17:03:28 -0400

[diff] [blame]

2106

Brian Salomon

2019-06-12 17:42:58 -0400

[diff] [blame]

2107

STAGE(load_16161616, const SkRasterPipeline_MemoryCtx* ctx) {

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

2108

auto ptr = ptr_at_xy<const uint64_t>(ctx, dx, dy);

Brian Salomon

2019-06-12 17:42:58 -0400

[diff] [blame]

2109

from_16161616(load<U64>(ptr, tail), &r,&g, &b, &a);

2110

}

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

2111

STAGE(load_16161616_dst, const SkRasterPipeline_MemoryCtx* ctx) {

2112

auto ptr = ptr_at_xy<const uint64_t>(ctx, dx, dy);

2113

from_16161616(load<U64>(ptr, tail), &dr, &dg, &db, &da);

2114

}

2115

STAGE(gather_16161616, const SkRasterPipeline_GatherCtx* ctx) {

2116

const uint64_t* ptr;

2117

U32 ix = ix_and_ptr(&ptr, ctx, r, g);

2118

from_16161616(gather(ptr, ix), &r, &g, &b, &a);

2119

}

Brian Salomon

2019-06-12 17:42:58 -0400

[diff] [blame]

2120

STAGE(store_16161616, const SkRasterPipeline_MemoryCtx* ctx) {

2121

auto ptr = ptr_at_xy<uint16_t>(ctx, 4*dx,4*dy);

2122

2123

U16 R = pack(to_unorm(r, 65535)),

2124

G = pack(to_unorm(g, 65535)),

2125

B = pack(to_unorm(b, 65535)),

2126

A = pack(to_unorm(a, 65535));

2127

2128

store4(ptr,tail, R,G,B,A);

2129

}

2130

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2131

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2132

STAGE(load_1010102, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-01-25 09:09:32 -0500

[diff] [blame]

2133

auto ptr = ptr_at_xy<const uint32_t>(ctx, dx,dy);

2134

from_1010102(load<U32>(ptr, tail), &r,&g,&b,&a);

2135

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2136

STAGE(load_1010102_dst, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-01-25 09:09:32 -0500

[diff] [blame]

2137

auto ptr = ptr_at_xy<const uint32_t>(ctx, dx,dy);

2138

from_1010102(load<U32>(ptr, tail), &dr,&dg,&db,&da);

2139

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2140

STAGE(gather_1010102, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

2018-01-25 09:09:32 -0500

[diff] [blame]

2141

const uint32_t* ptr;

2142

U32 ix = ix_and_ptr(&ptr, ctx, r,g);

2143

from_1010102(gather(ptr, ix), &r,&g,&b,&a);

2144

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2145

STAGE(store_1010102, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-01-25 09:09:32 -0500

[diff] [blame]

2146

auto ptr = ptr_at_xy<uint32_t>(ctx, dx,dy);

2147

2148

U32 px = to_unorm(r, 1023)

2149

| to_unorm(g, 1023) << 10

2150

| to_unorm(b, 1023) << 20

2151

| to_unorm(a, 3) << 30;

2152

store(ptr, px, tail);

2153

}

2154

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2155

STAGE(load_f16, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

2156

auto ptr = ptr_at_xy<const uint64_t>(ctx, dx,dy);

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

2157

Mike Klein

114e6b3

2017-04-03 22:21:15 -0400

[diff] [blame]

2158

U16 R,G,B,A;

Mike Klein

fa6eb91

2017-04-05 10:18:27 -0400

[diff] [blame]

2159

load4((const uint16_t*)ptr,tail, &R,&G,&B,&A);

Mike Klein

114e6b3

2017-04-03 22:21:15 -0400

[diff] [blame]

r = from_half(R);

g = from_half(G);

b = from_half(B);

a = from_half(A);

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

2164

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2165

STAGE(load_f16_dst, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

2166

auto ptr = ptr_at_xy<const uint64_t>(ctx, dx,dy);

Mike Reed

2017-06-27 16:58:00 -0400

[diff] [blame]

2167

2168

U16 R,G,B,A;

2169

load4((const uint16_t*)ptr,tail, &R,&G,&B,&A);

dr = from_half(R);

dg = from_half(G);

db = from_half(B);

da = from_half(A);

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2175

STAGE(gather_f16, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

5f055f0

2017-04-06 20:02:11 -0400

[diff] [blame]

2176

const uint64_t* ptr;

2177

U32 ix = ix_and_ptr(&ptr, ctx, r,g);

2178

auto px = gather(ptr, ix);

2179

2180

U16 R,G,B,A;

2181

load4((const uint16_t*)&px,0, &R,&G,&B,&A);

r = from_half(R);

g = from_half(G);

b = from_half(B);

a = from_half(A);

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2187

STAGE(store_f16, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

2188

auto ptr = ptr_at_xy<uint64_t>(ctx, dx,dy);

Mike Klein

fa6eb91

2017-04-05 10:18:27 -0400

[diff] [blame]

2189

store4((uint16_t*)ptr,tail, to_half(r)

2190

, to_half(g)

2191

, to_half(b)

2192

, to_half(a));

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

2193

}

2194

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2195

STAGE(store_u16_be, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2017-10-17 16:06:49 -0400

[diff] [blame]

2196

auto ptr = ptr_at_xy<uint16_t>(ctx, 4*dx,dy);

Mike Klein

3146bb9

2017-04-05 14:45:02 -0400

[diff] [blame]

2197

Mike Klein

2017-12-15 09:55:03 -0500

[diff] [blame]

2198

U16 R = bswap(pack(to_unorm(r, 65535))),

2199

G = bswap(pack(to_unorm(g, 65535))),

2200

B = bswap(pack(to_unorm(b, 65535))),

2201

A = bswap(pack(to_unorm(a, 65535)));

Mike Klein

3146bb9

2017-04-05 14:45:02 -0400

[diff] [blame]

2202

Mike Klein

b382173

2017-04-17 10:58:05 -0400

[diff] [blame]

2203

store4(ptr,tail, R,G,B,A);

Mike Klein

3146bb9

2017-04-05 14:45:02 -0400

[diff] [blame]

2204

}

2205

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2206

STAGE(load_af16, const SkRasterPipeline_MemoryCtx* ctx) {

2207

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx,dy);

2208

2209

U16 A = load<U16>((const uint16_t*)ptr, tail);

r = 0;

g = 0;

b = 0;

a = from_half(A);

}

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

2215

STAGE(load_af16_dst, const SkRasterPipeline_MemoryCtx* ctx) {

2216

auto ptr = ptr_at_xy<const uint16_t>(ctx, dx, dy);

2217

2218

U16 A = load<U16>((const uint16_t*)ptr, tail);

dr = dg = db = 0.0f;

da = from_half(A);

}

STAGE(gather_af16, const SkRasterPipeline_GatherCtx* ctx) {

2223

const uint16_t* ptr;

2224

U32 ix = ix_and_ptr(&ptr, ctx, r, g);

2225

r = g = b = 0.0f;

2226

a = from_half(gather(ptr, ix));

2227

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2228

STAGE(store_af16, const SkRasterPipeline_MemoryCtx* ctx) {

2229

auto ptr = ptr_at_xy<uint16_t>(ctx, dx,dy);

2230

store(ptr, to_half(a), tail);

2231

}

2232

2233

STAGE(load_rgf16, const SkRasterPipeline_MemoryCtx* ctx) {

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

2234

auto ptr = ptr_at_xy<const uint32_t>(ctx, dx, dy);

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2235

2236

U16 R,G;

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

2237

load2((const uint16_t*)ptr, tail, &R, &G);

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2238

r = from_half(R);

2239

g = from_half(G);

2240

b = 0;

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

2241

a = 1;

2242

}

2243

STAGE(load_rgf16_dst, const SkRasterPipeline_MemoryCtx* ctx) {

2244

auto ptr = ptr_at_xy<const uint32_t>(ctx, dx, dy);

2245

2246

U16 R,G;

2247

load2((const uint16_t*)ptr, tail, &R, &G);

dr = from_half(R);

dg = from_half(G);

db = 0;

da = 1;

}

STAGE(gather_rgf16, const SkRasterPipeline_GatherCtx* ctx) {

2254

const uint32_t* ptr;

2255

U32 ix = ix_and_ptr(&ptr, ctx, r, g);

2256

auto px = gather(ptr, ix);

2257

2258

U16 R,G;

2259

load2((const uint16_t*)&px, 0, &R, &G);

r = from_half(R);

g = from_half(G);

b = 0;

a = 1;

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2264

}

2265

STAGE(store_rgf16, const SkRasterPipeline_MemoryCtx* ctx) {

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

2266

auto ptr = ptr_at_xy<uint32_t>(ctx, dx, dy);

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2267

store2((uint16_t*)ptr, tail, to_half(r)

, to_half(g));

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2271

STAGE(load_f32, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-06-26 11:43:06 -0400

[diff] [blame]

2272

auto ptr = ptr_at_xy<const float>(ctx, 4*dx,4*dy);

Mike Klein

14987eb

2017-04-06 10:22:26 -0400

[diff] [blame]

2273

load4(ptr,tail, &r,&g,&b,&a);

2274

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2275

STAGE(load_f32_dst, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-06-26 11:43:06 -0400

[diff] [blame]

2276

auto ptr = ptr_at_xy<const float>(ctx, 4*dx,4*dy);

Mike Reed

2017-06-27 16:58:00 -0400

[diff] [blame]

2277

load4(ptr,tail, &dr,&dg,&db,&da);

2278

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2279

STAGE(gather_f32, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

2018-06-26 11:43:06 -0400

[diff] [blame]

2280

const float* ptr;

2281

U32 ix = ix_and_ptr(&ptr, ctx, r,g);

2282

r = gather(ptr, 4*ix + 0);

2283

g = gather(ptr, 4*ix + 1);

2284

b = gather(ptr, 4*ix + 2);

2285

a = gather(ptr, 4*ix + 3);

2286

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2287

STAGE(store_f32, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-06-26 11:43:06 -0400

[diff] [blame]

2288

auto ptr = ptr_at_xy<float>(ctx, 4*dx,4*dy);

Mike Klein

fa6eb91

2017-04-05 10:18:27 -0400

[diff] [blame]

2289

store4(ptr,tail, r,g,b,a);

Mike Klein

94fc0fe

2017-03-03 14:05:32 -0500

[diff] [blame]

2290

}

2291

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2292

STAGE(load_rgf32, const SkRasterPipeline_MemoryCtx* ctx) {

2293

auto ptr = ptr_at_xy<const float>(ctx, 2*dx,2*dy);

2294

load2(ptr, tail, &r, &g);

b = 0;

a = 1;

}

STAGE(store_rgf32, const SkRasterPipeline_MemoryCtx* ctx) {

2299

auto ptr = ptr_at_xy<float>(ctx, 2*dx,2*dy);

2300

store2(ptr, tail, r, g);

2301

}

2302

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2303

SI F exclusive_repeat(F v, const SkRasterPipeline_TileCtx* ctx) {

Mike Klein

2017-09-22 15:32:59 -0400

[diff] [blame]

2304

return v - floor_(v*ctx->invScale)*ctx->scale;

Mike Klein

0cc60b8

2017-06-22 11:00:17 -0700

[diff] [blame]

2305

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2306

SI F exclusive_mirror(F v, const SkRasterPipeline_TileCtx* ctx) {

Mike Reed

51e46d5

2017-06-23 14:21:25 -0400

[diff] [blame]

2307

auto limit = ctx->scale;

2308

auto invLimit = ctx->invScale;

Mike Klein

2017-09-22 15:32:59 -0400

[diff] [blame]

2309

return abs_( (v-limit) - (limit+limit)*floor_((v-limit)*(invLimit*0.5f)) - limit );

Mike Klein

0cc60b8

2017-06-22 11:00:17 -0700

[diff] [blame]

2310

}

Mike Klein

2017-09-22 15:32:59 -0400

[diff] [blame]

2311

// Tile x or y to [0,limit) == [0,limit - 1 ulp] (think, sampling from images).

2312

// The gather stages will hard clamp the output of these stages to [0,limit)...

2313

// we just need to do the basic repeat or mirroring.

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2314

STAGE(repeat_x, const SkRasterPipeline_TileCtx* ctx) { r = exclusive_repeat(r, ctx); }

2315

STAGE(repeat_y, const SkRasterPipeline_TileCtx* ctx) { g = exclusive_repeat(g, ctx); }

2316

STAGE(mirror_x, const SkRasterPipeline_TileCtx* ctx) { r = exclusive_mirror(r, ctx); }

2317

STAGE(mirror_y, const SkRasterPipeline_TileCtx* ctx) { g = exclusive_mirror(g, ctx); }

Mike Klein

0cc60b8

2017-06-22 11:00:17 -0700

[diff] [blame]

2318

Mike Klein

a3b8895

2017-10-05 13:21:31 -0400

[diff] [blame]

2319

STAGE( clamp_x_1, Ctx::None) { r = clamp_01(r); }

2320

STAGE(repeat_x_1, Ctx::None) { r = clamp_01(r - floor_(r)); }

2321

STAGE(mirror_x_1, Ctx::None) { r = clamp_01(abs_( (r-1.0f) - two(floor_((r-1.0f)*0.5f)) - 1.0f )); }

Mike Klein

9f85d68

2017-05-23 07:52:01 -0400

[diff] [blame]

2322

Mike Reed

2018-02-16 12:40:18 -0500

[diff] [blame]

2323

// Decal stores a 32bit mask after checking the coordinate (x and/or y) against its domain:

2324

// mask == 0x00000000 if the coordinate(s) are out of bounds

2325

// mask == 0xFFFFFFFF if the coordinate(s) are in bounds

2326

// After the gather stage, the r,g,b,a values are AND'd with this mask, setting them to 0

2327

// if either of the coordinates were out of bounds.

2328

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2329

STAGE(decal_x, SkRasterPipeline_DecalTileCtx* ctx) {

Mike Reed

2018-02-16 12:40:18 -0500

[diff] [blame]

2330

auto w = ctx->limit_x;

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2331

sk_unaligned_store(ctx->mask, cond_to_mask((0 <= r) & (r < w)));

Mike Reed

2018-02-16 12:40:18 -0500

[diff] [blame]

2332

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2333

STAGE(decal_y, SkRasterPipeline_DecalTileCtx* ctx) {

Mike Reed

2018-02-16 12:40:18 -0500

[diff] [blame]

2334

auto h = ctx->limit_y;

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2335

sk_unaligned_store(ctx->mask, cond_to_mask((0 <= g) & (g < h)));

Mike Reed

2018-02-16 12:40:18 -0500

[diff] [blame]

2336

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2337

STAGE(decal_x_and_y, SkRasterPipeline_DecalTileCtx* ctx) {

Mike Reed

2018-02-16 12:40:18 -0500

[diff] [blame]

2338

auto w = ctx->limit_x;

2339

auto h = ctx->limit_y;

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2340

sk_unaligned_store(ctx->mask,

Mike Reed

2018-02-16 12:40:18 -0500

[diff] [blame]

2341

cond_to_mask((0 <= r) & (r < w) & (0 <= g) & (g < h)));

2342

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2343

STAGE(check_decal_mask, SkRasterPipeline_DecalTileCtx* ctx) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2344

auto mask = sk_unaligned_load<U32>(ctx->mask);

John Stiles

2020-07-24 09:56:05 -0400

[diff] [blame]

2345

r = sk_bit_cast<F>(sk_bit_cast<U32>(r) & mask);

2346

g = sk_bit_cast<F>(sk_bit_cast<U32>(g) & mask);

2347

b = sk_bit_cast<F>(sk_bit_cast<U32>(b) & mask);

2348

a = sk_bit_cast<F>(sk_bit_cast<U32>(a) & mask);

Mike Reed

2018-02-16 12:40:18 -0500

[diff] [blame]

2349

}

2350

Mike Klein

b1df5e5

2018-10-17 17:06:03 -0400

[diff] [blame]

2351

STAGE(alpha_to_gray, Ctx::None) {

r = g = b = a;

a = 1;

}

STAGE(alpha_to_gray_dst, Ctx::None) {

2356

dr = dg = db = da;

2357

da = 1;

2358

}

Mike Klein

da69d59

2019-07-11 07:38:31 -0500

[diff] [blame]

2359

STAGE(bt709_luminance_or_luma_to_alpha, Ctx::None) {

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

2360

a = r*0.2126f + g*0.7152f + b*0.0722f;

Mike Klein

e9ed07d

2017-03-07 12:28:11 -0500

[diff] [blame]

2361

r = g = b = 0;

2362

}

Brian Salomon

01ff538

2020-12-15 16:06:26 -0500

[diff] [blame]

2363

STAGE(bt709_luminance_or_luma_to_rgb, Ctx::None) {

2364

r = g = b = r*0.2126f + g*0.7152f + b*0.0722f;

2365

}

Mike Klein

e9ed07d

2017-03-07 12:28:11 -0500

[diff] [blame]

2366

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

2367

STAGE(matrix_translate, const float* m) {

Mike Reed

7aad8cc

2017-07-05 12:33:06 -0400

[diff] [blame]

2368

r += m[0];

2369

g += m[1];

2370

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

2371

STAGE(matrix_scale_translate, const float* m) {

Mike Klein

f04ff76

2017-10-20 15:50:12 -0400

[diff] [blame]

2372

r = mad(r,m[0], m[2]);

2373

g = mad(g,m[1], m[3]);

Mike Reed

7aad8cc

2017-07-05 12:33:06 -0400

[diff] [blame]

2374

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

2375

STAGE(matrix_2x3, const float* m) {

Herb Derby

97bf728

2021-10-06 11:00:39 -0400

[diff] [blame]

2376

auto R = mad(r,m[0], mad(g,m[1], m[2])),

2377

G = mad(r,m[3], mad(g,m[4], m[5]));

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

2378

r = R;

2379

g = G;

2380

}

Mike Klein

b82edcc

2018-07-10 18:25:03 +0000

[diff] [blame]

2381

STAGE(matrix_3x3, const float* m) {

2382

auto R = mad(r,m[0], mad(g,m[3], b*m[6])),

2383

G = mad(r,m[1], mad(g,m[4], b*m[7])),

2384

B = mad(r,m[2], mad(g,m[5], b*m[8]));

r = R;

g = G;

b = B;

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

2389

STAGE(matrix_3x4, const float* m) {

Mike Klein

b8d5275

2017-02-16 10:21:29 -0500

[diff] [blame]

2390

auto R = mad(r,m[0], mad(g,m[3], mad(b,m[6], m[ 9]))),

2391

G = mad(r,m[1], mad(g,m[4], mad(b,m[7], m[10]))),

2392

B = mad(r,m[2], mad(g,m[5], mad(b,m[8], m[11])));

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

r = R;

g = G;

b = B;

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

2397

STAGE(matrix_4x5, const float* m) {

Mike Reed

361a640

2019-04-23 12:19:00 -0400

[diff] [blame]

2398

auto R = mad(r,m[ 0], mad(g,m[ 1], mad(b,m[ 2], mad(a,m[ 3], m[ 4])))),

2399

G = mad(r,m[ 5], mad(g,m[ 6], mad(b,m[ 7], mad(a,m[ 8], m[ 9])))),

2400

B = mad(r,m[10], mad(g,m[11], mad(b,m[12], mad(a,m[13], m[14])))),

2401

A = mad(r,m[15], mad(g,m[16], mad(b,m[17], mad(a,m[18], m[19]))));

Mike Klein

e9ed07d

2017-03-07 12:28:11 -0500

[diff] [blame]

r = R;

g = G;

b = B;

a = A;

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

2407

STAGE(matrix_4x3, const float* m) {

Mike Reed

0264095

2017-05-19 15:32:13 -0400

[diff] [blame]

auto X = r,

Y = g;

r = mad(X, m[0], mad(Y, m[4], m[ 8]));

2412

g = mad(X, m[1], mad(Y, m[5], m[ 9]));

2413

b = mad(X, m[2], mad(Y, m[6], m[10]));

2414

a = mad(X, m[3], mad(Y, m[7], m[11]));

2415

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

2416

STAGE(matrix_perspective, const float* m) {

Mike Klein

11d2df0

2017-02-24 11:51:36 -0500

[diff] [blame]

2417

// N.B. Unlike the other matrix_ stages, this matrix is row-major.

Mike Klein

11d2df0

2017-02-24 11:51:36 -0500

[diff] [blame]

2418

auto R = mad(r,m[0], mad(g,m[1], m[2])),

2419

G = mad(r,m[3], mad(g,m[4], m[5])),

2420

Z = mad(r,m[6], mad(g,m[7], m[8]));

Herb Derby

2021-09-15 17:25:01 -0400

[diff] [blame]

2421

r = R * rcp_precise(Z);

2422

g = G * rcp_precise(Z);

Mike Klein

11d2df0

2017-02-24 11:51:36 -0500

[diff] [blame]

2423

}

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

2424

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2425

SI void gradient_lookup(const SkRasterPipeline_GradientCtx* c, U32 idx, F t,

Herb Derby

2017-05-15 10:49:39 -0400

[diff] [blame]

2426

F* r, F* g, F* b, F* a) {

2427

F fr, br, fg, bg, fb, bb, fa, ba;

Mike Klein

2020-04-24 08:16:22 -0500

[diff] [blame]

2428

#if defined(JUMPER_IS_HSW) || defined(JUMPER_IS_SKX)

Herb Derby

2017-05-15 10:49:39 -0400

[diff] [blame]

2429

if (c->stopCount <=8) {

2430

fr = _mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[0]), idx);

2431

br = _mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[0]), idx);

2432

fg = _mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[1]), idx);

2433

bg = _mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[1]), idx);

2434

fb = _mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[2]), idx);

2435

bb = _mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[2]), idx);

2436

fa = _mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[3]), idx);

2437

ba = _mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[3]), idx);

} else

#endif

{

fr = gather(c->fs[0], idx);

2442

br = gather(c->bs[0], idx);

2443

fg = gather(c->fs[1], idx);

2444

bg = gather(c->bs[1], idx);

2445

fb = gather(c->fs[2], idx);

2446

bb = gather(c->bs[2], idx);

2447

fa = gather(c->fs[3], idx);

2448

ba = gather(c->bs[3], idx);

Herb Derby

2017-04-10 10:52:34 -0400

[diff] [blame]

2449

}

2450

Herb Derby

2017-05-15 10:49:39 -0400

[diff] [blame]

*r = mad(t, fr, br);

*g = mad(t, fg, bg);

*b = mad(t, fb, bb);

*a = mad(t, fa, ba);

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2457

STAGE(evenly_spaced_gradient, const SkRasterPipeline_GradientCtx* c) {

Herb Derby

2017-05-15 10:49:39 -0400

[diff] [blame]

2458

auto t = r;

2459

auto idx = trunc_(t * (c->stopCount-1));

2460

gradient_lookup(c, idx, t, &r, &g, &b, &a);

2461

}

2462

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2463

STAGE(gradient, const SkRasterPipeline_GradientCtx* c) {

Herb Derby

2017-05-15 10:49:39 -0400

[diff] [blame]

auto t = r;

U32 idx = 0;

// N.B. The loop starts at 1 because idx 0 is the color to use before the first stop.

2468

for (size_t i = 1; i < c->stopCount; i++) {

2469

idx += if_then_else(t >= c->ts[i], U32(1), U32(0));

2470

}

2471

2472

gradient_lookup(c, idx, t, &r, &g, &b, &a);

Herb Derby

2017-04-10 10:52:34 -0400

[diff] [blame]

2473

}

2474

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

2475

STAGE(evenly_spaced_2_stop_gradient, const void* ctx) {

Herb Derby

2017-04-10 10:52:34 -0400

[diff] [blame]

2476

struct Ctx { float f[4], b[4]; };

Mike Klein

8a823fa

2017-04-05 17:29:26 -0400

[diff] [blame]

2477

auto c = (const Ctx*)ctx;

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

2478

2479

auto t = r;

Herb Derby

2017-04-10 10:52:34 -0400

[diff] [blame]

2480

r = mad(t, c->f[0], c->b[0]);

2481

g = mad(t, c->f[1], c->b[1]);

2482

b = mad(t, c->f[2], c->b[2]);

2483

a = mad(t, c->f[3], c->b[3]);

Mike Klein

2017-02-15 13:31:12 -0500

[diff] [blame]

2484

}

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2485

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

2486

STAGE(xy_to_unit_angle, Ctx::None) {

Herb Derby

7eb8698

2017-05-02 19:04:39 -0400

[diff] [blame]

F X = r,

Y = g;

F xabs = abs_(X),

yabs = abs_(Y);

F slope = min(xabs, yabs)/max(xabs, yabs);

2493

F s = slope * slope;

2494

2495

// Use a 7th degree polynomial to approximate atan.

2496

// This was generated using sollya.gforge.inria.fr.

2497

// A float optimized polynomial was generated using the following command.

2498

// P1 = fpminimax((1/(2*Pi))*atan(x),[|1,3,5,7|],[|24...|],[2^(-40),1],relative);

2499

F phi = slope

2500

* (0.15912117063999176025390625f + s

2501

* (-5.185396969318389892578125e-2f + s

2502

* (2.476101927459239959716796875e-2f + s

2503

* (-7.0547382347285747528076171875e-3f))));

2504

2505

phi = if_then_else(xabs < yabs, 1.0f/4.0f - phi, phi);

2506

phi = if_then_else(X < 0.0f , 1.0f/2.0f - phi, phi);

2507

phi = if_then_else(Y < 0.0f , 1.0f - phi , phi);

2508

phi = if_then_else(phi != phi , 0 , phi); // Check for NaN.

r = phi;

}

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

2512

STAGE(xy_to_radius, Ctx::None) {

Herb Derby

090fbf8

2017-05-08 15:10:36 -0400

[diff] [blame]

2513

F X2 = r * r,

2514

Y2 = g * g;

Mike Klein

fd35c74

2017-05-15 15:55:54 -0400

[diff] [blame]

2515

r = sqrt_(X2 + Y2);

Herb Derby

090fbf8

2017-05-08 15:10:36 -0400

[diff] [blame]

2516

}

2517

Yuqian Li

2018-01-04 10:08:42 -0500

[diff] [blame]

2518

// Please see https://skia.org/dev/design/conical for how our 2pt conical shader works.

2519

2520

STAGE(negate_x, Ctx::None) { r = -r; }

2521

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2522

STAGE(xy_to_2pt_conical_strip, const SkRasterPipeline_2PtConicalCtx* ctx) {

Yuqian Li

2018-01-04 10:08:42 -0500

[diff] [blame]

2523

F x = r, y = g, &t = r;

2524

t = x + sqrt_(ctx->fP0 - y*y); // ctx->fP0 = r0 * r0

2525

}

2526

2527

STAGE(xy_to_2pt_conical_focal_on_circle, Ctx::None) {

2528

F x = r, y = g, &t = r;

2529

t = x + y*y / x; // (x^2 + y^2) / x

2530

}

2531

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2532

STAGE(xy_to_2pt_conical_well_behaved, const SkRasterPipeline_2PtConicalCtx* ctx) {

Yuqian Li

2018-01-04 10:08:42 -0500

[diff] [blame]

2533

F x = r, y = g, &t = r;

2534

t = sqrt_(x*x + y*y) - x * ctx->fP0; // ctx->fP0 = 1/r1

2535

}

2536

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2537

STAGE(xy_to_2pt_conical_greater, const SkRasterPipeline_2PtConicalCtx* ctx) {

Yuqian Li

2018-01-04 10:08:42 -0500

[diff] [blame]

2538

F x = r, y = g, &t = r;

2539

t = sqrt_(x*x - y*y) - x * ctx->fP0; // ctx->fP0 = 1/r1

2540

}

2541

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2542

STAGE(xy_to_2pt_conical_smaller, const SkRasterPipeline_2PtConicalCtx* ctx) {

Yuqian Li

2018-01-04 10:08:42 -0500

[diff] [blame]

2543

F x = r, y = g, &t = r;

2544

t = -sqrt_(x*x - y*y) - x * ctx->fP0; // ctx->fP0 = 1/r1

2545

}

2546

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2547

STAGE(alter_2pt_conical_compensate_focal, const SkRasterPipeline_2PtConicalCtx* ctx) {

Yuqian Li

2018-01-04 10:08:42 -0500

[diff] [blame]

2548

F& t = r;

2549

t = t + ctx->fP1; // ctx->fP1 = f

2550

}

2551

2552

STAGE(alter_2pt_conical_unswap, Ctx::None) {

F& t = r;

t = 1 - t;

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2557

STAGE(mask_2pt_conical_nan, SkRasterPipeline_2PtConicalCtx* c) {

Yuqian Li

2018-01-04 10:08:42 -0500

[diff] [blame]

2558

F& t = r;

2559

auto is_degenerate = (t != t); // NaN

2560

t = if_then_else(is_degenerate, F(0), t);

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2561

sk_unaligned_store(&c->fMask, cond_to_mask(!is_degenerate));

Yuqian Li

2018-01-04 10:08:42 -0500

[diff] [blame]

2562

}

2563

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2564

STAGE(mask_2pt_conical_degenerates, SkRasterPipeline_2PtConicalCtx* c) {

Yuqian Li

2018-01-04 10:08:42 -0500

[diff] [blame]

2565

F& t = r;

2566

auto is_degenerate = (t <= 0) | (t != t);

2567

t = if_then_else(is_degenerate, F(0), t);

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2568

sk_unaligned_store(&c->fMask, cond_to_mask(!is_degenerate));

Yuqian Li

2018-01-04 10:08:42 -0500

[diff] [blame]

2569

}

2570

Mike Klein

2017-09-27 11:42:30 -0400

[diff] [blame]

2571

STAGE(apply_vector_mask, const uint32_t* ctx) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2572

const U32 mask = sk_unaligned_load<U32>(ctx);

John Stiles

2020-07-24 09:56:05 -0400

[diff] [blame]

2573

r = sk_bit_cast<F>(sk_bit_cast<U32>(r) & mask);

2574

g = sk_bit_cast<F>(sk_bit_cast<U32>(g) & mask);

2575

b = sk_bit_cast<F>(sk_bit_cast<U32>(b) & mask);

2576

a = sk_bit_cast<F>(sk_bit_cast<U32>(a) & mask);

Florin Malita

2e40900

2017-06-28 14:46:54 -0400

[diff] [blame]

2577

}

2578

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2579

STAGE(save_xy, SkRasterPipeline_SamplerCtx* c) {

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2580

// Whether bilinear or bicubic, all sample points are at the same fractional offset (fx,fy).

2581

// They're either the 4 corners of a logical 1x1 pixel or the 16 corners of a 3x3 grid

2582

// surrounding (x,y) at (0.5,0.5) off-center.

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

2583

F fx = fract(r + 0.5f),

2584

fy = fract(g + 0.5f);

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2585

2586

// Samplers will need to load x and fx, or y and fy.

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2587

sk_unaligned_store(c->x, r);

2588

sk_unaligned_store(c->y, g);

2589

sk_unaligned_store(c->fx, fx);

2590

sk_unaligned_store(c->fy, fy);

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2591

}

2592

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2593

STAGE(accumulate, const SkRasterPipeline_SamplerCtx* c) {

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2594

// Bilinear and bicubic filters are both separable, so we produce independent contributions

2595

// from x and y, multiplying them together here to get each pixel's total scale factor.

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2596

auto scale = sk_unaligned_load<F>(c->scalex)

2597

* sk_unaligned_load<F>(c->scaley);

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2598

dr = mad(scale, r, dr);

2599

dg = mad(scale, g, dg);

2600

db = mad(scale, b, db);

2601

da = mad(scale, a, da);

2602

}

2603

2604

// In bilinear interpolation, the 4 pixels at +/- 0.5 offsets from the sample pixel center

2605

// are combined in direct proportion to their area overlapping that logical query pixel.

2606

// At positive offsets, the x-axis contribution to that rectangle is fx, or (1-fx) at negative x.

2607

// The y-axis is symmetric.

2608

2609

template <int kScale>

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2610

SI void bilinear_x(SkRasterPipeline_SamplerCtx* ctx, F* x) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2611

*x = sk_unaligned_load<F>(ctx->x) + (kScale * 0.5f);

2612

F fx = sk_unaligned_load<F>(ctx->fx);

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2613

2614

F scalex;

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

2615

if (kScale == -1) { scalex = 1.0f - fx; }

2616

if (kScale == +1) { scalex = fx; }

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2617

sk_unaligned_store(ctx->scalex, scalex);

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2618

}

2619

template <int kScale>

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2620

SI void bilinear_y(SkRasterPipeline_SamplerCtx* ctx, F* y) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2621

*y = sk_unaligned_load<F>(ctx->y) + (kScale * 0.5f);

2622

F fy = sk_unaligned_load<F>(ctx->fy);

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2623

2624

F scaley;

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

2625

if (kScale == -1) { scaley = 1.0f - fy; }

2626

if (kScale == +1) { scaley = fy; }

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2627

sk_unaligned_store(ctx->scaley, scaley);

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2628

}

2629

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2630

STAGE(bilinear_nx, SkRasterPipeline_SamplerCtx* ctx) { bilinear_x<-1>(ctx, &r); }

2631

STAGE(bilinear_px, SkRasterPipeline_SamplerCtx* ctx) { bilinear_x<+1>(ctx, &r); }

2632

STAGE(bilinear_ny, SkRasterPipeline_SamplerCtx* ctx) { bilinear_y<-1>(ctx, &g); }

2633

STAGE(bilinear_py, SkRasterPipeline_SamplerCtx* ctx) { bilinear_y<+1>(ctx, &g); }

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2634

2635

2636

// In bicubic interpolation, the 16 pixels and +/- 0.5 and +/- 1.5 offsets from the sample

2637

// pixel center are combined with a non-uniform cubic filter, with higher values near the center.

2638

//

2639

// We break this function into two parts, one for near 0.5 offsets and one for far 1.5 offsets.

2640

// See GrCubicEffect for details of this particular filter.

2641

2642

SI F bicubic_near(F t) {

2643

// 1/18 + 9/18t + 27/18t^2 - 21/18t^3 == t ( t ( -21/18t + 27/18) + 9/18) + 1/18

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

2644

return mad(t, mad(t, mad((-21/18.0f), t, (27/18.0f)), (9/18.0f)), (1/18.0f));

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2645

}

2646

SI F bicubic_far(F t) {

2647

// 0/18 + 0/18*t - 6/18t^2 + 7/18t^3 == t^2 (7/18t - 6/18)

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

2648

return (t*t)*mad((7/18.0f), t, (-6/18.0f));

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2649

}

2650

2651

template <int kScale>

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2652

SI void bicubic_x(SkRasterPipeline_SamplerCtx* ctx, F* x) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2653

*x = sk_unaligned_load<F>(ctx->x) + (kScale * 0.5f);

2654

F fx = sk_unaligned_load<F>(ctx->fx);

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2655

2656

F scalex;

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

2657

if (kScale == -3) { scalex = bicubic_far (1.0f - fx); }

2658

if (kScale == -1) { scalex = bicubic_near(1.0f - fx); }

2659

if (kScale == +1) { scalex = bicubic_near( fx); }

2660

if (kScale == +3) { scalex = bicubic_far ( fx); }

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2661

sk_unaligned_store(ctx->scalex, scalex);

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2662

}

2663

template <int kScale>

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2664

SI void bicubic_y(SkRasterPipeline_SamplerCtx* ctx, F* y) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2665

*y = sk_unaligned_load<F>(ctx->y) + (kScale * 0.5f);

2666

F fy = sk_unaligned_load<F>(ctx->fy);

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2667

2668

F scaley;

Mike Klein

2017-05-01 12:56:35 -0400

[diff] [blame]

2669

if (kScale == -3) { scaley = bicubic_far (1.0f - fy); }

2670

if (kScale == -1) { scaley = bicubic_near(1.0f - fy); }

2671

if (kScale == +1) { scaley = bicubic_near( fy); }

2672

if (kScale == +3) { scaley = bicubic_far ( fy); }

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

2673

sk_unaligned_store(ctx->scaley, scaley);

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2674

}

2675

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2676

STAGE(bicubic_n3x, SkRasterPipeline_SamplerCtx* ctx) { bicubic_x<-3>(ctx, &r); }

2677

STAGE(bicubic_n1x, SkRasterPipeline_SamplerCtx* ctx) { bicubic_x<-1>(ctx, &r); }

2678

STAGE(bicubic_p1x, SkRasterPipeline_SamplerCtx* ctx) { bicubic_x<+1>(ctx, &r); }

2679

STAGE(bicubic_p3x, SkRasterPipeline_SamplerCtx* ctx) { bicubic_x<+3>(ctx, &r); }

Mike Klein

2017-04-12 12:52:48 -0400

[diff] [blame]

2680

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2681

STAGE(bicubic_n3y, SkRasterPipeline_SamplerCtx* ctx) { bicubic_y<-3>(ctx, &g); }

2682

STAGE(bicubic_n1y, SkRasterPipeline_SamplerCtx* ctx) { bicubic_y<-1>(ctx, &g); }

2683

STAGE(bicubic_p1y, SkRasterPipeline_SamplerCtx* ctx) { bicubic_y<+1>(ctx, &g); }

2684

STAGE(bicubic_p3y, SkRasterPipeline_SamplerCtx* ctx) { bicubic_y<+3>(ctx, &g); }

Mike Klein

7fee90c

2017-04-07 16:55:09 -0400

[diff] [blame]

2685

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

2686

STAGE(callback, SkRasterPipeline_CallbackCtx* c) {

Mike Klein

c17dc24

2017-04-20 16:21:57 -0400

[diff] [blame]

2687

store4(c->rgba,0, r,g,b,a);

Mike Klein

2017-09-27 11:04:34 -0400

[diff] [blame]

2688

c->fn(c, tail ? tail : N);

Mike Klein

c17dc24

2017-04-20 16:21:57 -0400

[diff] [blame]

2689

load4(c->read_from,0, &r,&g,&b,&a);

Mike Klein

7fee90c

2017-04-07 16:55:09 -0400

[diff] [blame]

2690

}

Mike Klein

c2f876b

2017-08-09 18:23:25 -0400

[diff] [blame]

2691

Mike Klein

3cbcb73

2017-10-25 12:38:25 -0400

[diff] [blame]

2692

STAGE(gauss_a_to_rgba, Ctx::None) {

2693

// x = 1 - x;

2694

// exp(-x * x * 4) - 0.018f;

2695

// ... now approximate with quartic

2696

//

2697

const float c4 = -2.26661229133605957031f;

2698

const float c3 = 2.89795351028442382812f;

2699

const float c2 = 0.21345567703247070312f;

2700

const float c1 = 0.15489584207534790039f;

2701

const float c0 = 0.00030726194381713867f;

2702

a = mad(a, mad(a, mad(a, mad(a, c4, c3), c2), c1), c0);

r = a;

g = a;

b = a;

}

Mike Klein

1fa9c43

2017-12-11 09:59:47 -0500

[diff] [blame]

2707

Mike Klein

0100562

2019-08-13 12:22:17 -0400

[diff] [blame]

2708

SI F tile(F v, SkTileMode mode, float limit, float invLimit) {

2709

// The ix_and_ptr() calls in sample() will clamp tile()'s output, so no need to clamp here.

2710

switch (mode) {

Mike Klein

2021-02-08 15:17:45 -0600

[diff] [blame]

2711

case SkTileMode::kDecal:

Mike Klein

0100562

2019-08-13 12:22:17 -0400

[diff] [blame]

2712

case SkTileMode::kClamp: return v;

2713

case SkTileMode::kRepeat: return v - floor_(v*invLimit)*limit;

2714

case SkTileMode::kMirror:

2715

return abs_( (v-limit) - (limit+limit)*floor_((v-limit)*(invLimit*0.5f)) - limit );

}

SkUNREACHABLE;

}

SI void sample(const SkRasterPipeline_SamplerCtx2* ctx, F x, F y,

2721

F* r, F* g, F* b, F* a) {

2722

x = tile(x, ctx->tileX, ctx->width , ctx->invWidth );

2723

y = tile(y, ctx->tileY, ctx->height, ctx->invHeight);

2724

2725

switch (ctx->ct) {

Mike Klein

2021-02-08 15:17:45 -0600

[diff] [blame]

2726

default: *r = *g = *b = *a = 0;

Mike Klein

0100562

2019-08-13 12:22:17 -0400

[diff] [blame]

2727

break;

2728

2729

case kRGBA_8888_SkColorType:

2730

case kBGRA_8888_SkColorType: {

2731

const uint32_t* ptr;

2732

U32 ix = ix_and_ptr(&ptr, ctx, x,y);

2733

from_8888(gather(ptr, ix), r,g,b,a);

2734

if (ctx->ct == kBGRA_8888_SkColorType) {

std::swap(*r,*b);

}

} break;

}

}

template <int D>

SI void sampler(const SkRasterPipeline_SamplerCtx2* ctx,

2743

F cx, F cy, const F (&wx)[D], const F (&wy)[D],

2744

F* r, F* g, F* b, F* a) {

2745

2746

float start = -0.5f*(D-1);

2747

2748

*r = *g = *b = *a = 0;

2749

F y = cy + start;

2750

for (int j = 0; j < D; j++, y += 1.0f) {

2751

F x = cx + start;

2752

for (int i = 0; i < D; i++, x += 1.0f) {

2753

F R,G,B,A;

2754

sample(ctx, x,y, &R,&G,&B,&A);

F w = wx[i] * wy[j];

*r = mad(w,R,*r);

*g = mad(w,G,*g);

*b = mad(w,B,*b);

*a = mad(w,A,*a);

}

}

}

STAGE(bilinear, const SkRasterPipeline_SamplerCtx2* ctx) {

2766

F x = r, fx = fract(x + 0.5f),

2767

y = g, fy = fract(y + 0.5f);

2768

const F wx[] = {1.0f - fx, fx};

2769

const F wy[] = {1.0f - fy, fy};

2770

2771

sampler(ctx, x,y, wx,wy, &r,&g,&b,&a);

2772

}

2773

STAGE(bicubic, SkRasterPipeline_SamplerCtx2* ctx) {

2774

F x = r, fx = fract(x + 0.5f),

2775

y = g, fy = fract(y + 0.5f);

2776

const F wx[] = { bicubic_far(1-fx), bicubic_near(1-fx), bicubic_near(fx), bicubic_far(fx) };

2777

const F wy[] = { bicubic_far(1-fy), bicubic_near(1-fy), bicubic_near(fy), bicubic_far(fy) };

2778

2779

sampler(ctx, x,y, wx,wy, &r,&g,&b,&a);

2780

}

2781

Mike Klein

2019-10-17 20:13:14 +0000

[diff] [blame]

2782

// A specialized fused image shader for clamp-x, clamp-y, non-sRGB sampling.

Mike Klein

dfa1de9

2019-10-17 12:34:22 -0500

[diff] [blame]

2783

STAGE(bilerp_clamp_8888, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

2019-10-17 20:13:14 +0000

[diff] [blame]

2784

// (cx,cy) are the center of our sample.

2785

F cx = r,

2786

cy = g;

Mike Klein

dfa1de9

2019-10-17 12:34:22 -0500

[diff] [blame]

2787

Mike Klein

2019-10-17 20:13:14 +0000

[diff] [blame]

2788

// All sample points are at the same fractional offset (fx,fy).

2789

// They're the 4 corners of a logical 1x1 pixel surrounding (x,y) at (0.5,0.5) offsets.

2790

F fx = fract(cx + 0.5f),

2791

fy = fract(cy + 0.5f);

2792

2793

// We'll accumulate the color of all four samples into {r,g,b,a} directly.

2794

r = g = b = a = 0;

2795

John Stiles

14f8d79

2021-08-10 16:22:22 -0400

[diff] [blame]

2796

for (float py = -0.5f; py <= +0.5f; py += 1.0f)

2797

for (float px = -0.5f; px <= +0.5f; px += 1.0f) {

Mike Klein

2019-10-17 20:13:14 +0000

[diff] [blame]

2798

// (x,y) are the coordinates of this sample point.

John Stiles

14f8d79

2021-08-10 16:22:22 -0400

[diff] [blame]

2799

F x = cx + px,

2800

y = cy + py;

Mike Klein

2019-10-17 20:13:14 +0000

[diff] [blame]

2801

2802

// ix_and_ptr() will clamp to the image's bounds for us.

2803

const uint32_t* ptr;

2804

U32 ix = ix_and_ptr(&ptr, ctx, x,y);

2805

2806

F sr,sg,sb,sa;

2807

from_8888(gather(ptr, ix), &sr,&sg,&sb,&sa);

2808

2809

// In bilinear interpolation, the 4 pixels at +/- 0.5 offsets from the sample pixel center

2810

// are combined in direct proportion to their area overlapping that logical query pixel.

2811

// At positive offsets, the x-axis contribution to that rectangle is fx,

2812

// or (1-fx) at negative x. Same deal for y.

John Stiles

14f8d79

2021-08-10 16:22:22 -0400

[diff] [blame]

2813

F sx = (px > 0) ? fx : 1.0f - fx,

2814

sy = (py > 0) ? fy : 1.0f - fy,

Mike Klein

2019-10-17 20:13:14 +0000

[diff] [blame]

area = sx * sy;

r += sr * area;

g += sg * area;

b += sb * area;

a += sa * area;

}

Mike Klein

dfa1de9

2019-10-17 12:34:22 -0500

[diff] [blame]

2822

}

Mike Reed

78eedba

2019-07-31 16:39:15 -0400

[diff] [blame]

2823

Mike Klein

2019-10-17 20:13:14 +0000

[diff] [blame]

2824

// A specialized fused image shader for clamp-x, clamp-y, non-sRGB sampling.

2825

STAGE(bicubic_clamp_8888, const SkRasterPipeline_GatherCtx* ctx) {

2826

// (cx,cy) are the center of our sample.

F cx = r,

cy = g;

// All sample points are at the same fractional offset (fx,fy).

2831

// They're the 4 corners of a logical 1x1 pixel surrounding (x,y) at (0.5,0.5) offsets.

2832

F fx = fract(cx + 0.5f),

2833

fy = fract(cy + 0.5f);

2834

2835

// We'll accumulate the color of all four samples into {r,g,b,a} directly.

2836

r = g = b = a = 0;

2837

2838

const F scaley[4] = {

2839

bicubic_far (1.0f - fy), bicubic_near(1.0f - fy),

2840

bicubic_near( fy), bicubic_far ( fy),

2841

};

2842

const F scalex[4] = {

2843

bicubic_far (1.0f - fx), bicubic_near(1.0f - fx),

2844

bicubic_near( fx), bicubic_far ( fx),

2845

};

2846

2847

F sample_y = cy - 1.5f;

2848

for (int yy = 0; yy <= 3; ++yy) {

2849

F sample_x = cx - 1.5f;

2850

for (int xx = 0; xx <= 3; ++xx) {

2851

F scale = scalex[xx] * scaley[yy];

2852

2853

// ix_and_ptr() will clamp to the image's bounds for us.

2854

const uint32_t* ptr;

2855

U32 ix = ix_and_ptr(&ptr, ctx, sample_x, sample_y);

2856

2857

F sr,sg,sb,sa;

2858

from_8888(gather(ptr, ix), &sr,&sg,&sb,&sa);

2859

2860

r = mad(scale, sr, r);

2861

g = mad(scale, sg, g);

2862

b = mad(scale, sb, b);

2863

a = mad(scale, sa, a);

sample_x += 1;

}

sample_y += 1;

}

Mike Reed

78eedba

2019-07-31 16:39:15 -0400

[diff] [blame]

2869

}

2870

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2871

// ~~~~~~ GrSwizzle stage ~~~~~~ //

2872

2873

STAGE(swizzle, void* ctx) {

2874

auto ir = r, ig = g, ib = b, ia = a;

2875

F* o[] = {&r, &g, &b, &a};

2876

char swiz[4];

2877

memcpy(swiz, &ctx, sizeof(swiz));

2878

2879

for (int i = 0; i < 4; ++i) {

2880

switch (swiz[i]) {

2881

case 'r': *o[i] = ir; break;

2882

case 'g': *o[i] = ig; break;

2883

case 'b': *o[i] = ib; break;

2884

case 'a': *o[i] = ia; break;

Brian Salomon

f30b1c1

2019-06-20 12:25:02 -0400

[diff] [blame]

2885

case '0': *o[i] = F(0); break;

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

2886

case '1': *o[i] = F(1); break;

default: break;

}

}

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

2892

namespace lowp {

Mike Klein

419709d

2018-10-11 22:05:14 -0400

[diff] [blame]

2893

#if defined(JUMPER_IS_SCALAR) || defined(SK_DISABLE_LOWP_RASTER_PIPELINE)

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

2894

// If we're not compiled by Clang, or otherwise switched into scalar mode (old Clang, manually),

2895

// we don't generate lowp stages. All these nullptrs will tell SkJumper.cpp to always use the

2896

// highp float pipeline.

2897

#define M(st) static void (*st)(void) = nullptr;

2898

SK_RASTER_PIPELINE_STAGES(M)

2899

#undef M

2900

static void (*just_return)(void) = nullptr;

2901

2902

static void start_pipeline(size_t,size_t,size_t,size_t, void**) {}

2903

2904

#else // We are compiling vector code with Clang... let's make some lowp stages!

2905

Mike Klein

2020-04-24 08:16:22 -0500

[diff] [blame]

2906

#if defined(JUMPER_IS_HSW) || defined(JUMPER_IS_SKX)

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

2907

using U8 = uint8_t __attribute__((ext_vector_type(16)));

2908

using U16 = uint16_t __attribute__((ext_vector_type(16)));

2909

using I16 = int16_t __attribute__((ext_vector_type(16)));

2910

using I32 = int32_t __attribute__((ext_vector_type(16)));

2911

using U32 = uint32_t __attribute__((ext_vector_type(16)));

Herb Derby

2021-08-27 18:21:02 -0400

[diff] [blame]

2912

using I64 = int64_t __attribute__((ext_vector_type(16)));

2913

using U64 = uint64_t __attribute__((ext_vector_type(16)));

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

2914

using F = float __attribute__((ext_vector_type(16)));

2915

#else

2916

using U8 = uint8_t __attribute__((ext_vector_type(8)));

2917

using U16 = uint16_t __attribute__((ext_vector_type(8)));

2918

using I16 = int16_t __attribute__((ext_vector_type(8)));

2919

using I32 = int32_t __attribute__((ext_vector_type(8)));

2920

using U32 = uint32_t __attribute__((ext_vector_type(8)));

Herb Derby

2021-08-27 18:21:02 -0400

[diff] [blame]

2921

using I64 = int64_t __attribute__((ext_vector_type(8)));

2922

using U64 = uint64_t __attribute__((ext_vector_type(8)));

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

2923

using F = float __attribute__((ext_vector_type(8)));

2924

#endif

2925

2926

static const size_t N = sizeof(U16) / sizeof(uint16_t);

2927

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

2928

// Once again, some platforms benefit from a restricted Stage calling convention,

2929

// but others can pass tons and tons of registers and we're happy to exploit that.

2930

// It's exactly the same decision and implementation strategy as the F stages above.

2931

#if JUMPER_NARROW_STAGES

struct Params {

size_t dx, dy, tail;

U16 dr,dg,db,da;

};

using Stage = void(ABI*)(Params*, void** program, U16 r, U16 g, U16 b, U16 a);

2937

#else

2938

// We pass program as the second argument so that load_and_inc() will find it in %rsi on x86-64.

2939

using Stage = void (ABI*)(size_t tail, void** program, size_t dx, size_t dy,

2940

U16 r, U16 g, U16 b, U16 a,

2941

U16 dr, U16 dg, U16 db, U16 da);

2942

#endif

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

2943

2944

static void start_pipeline(const size_t x0, const size_t y0,

2945

const size_t xlimit, const size_t ylimit, void** program) {

2946

auto start = (Stage)load_and_inc(program);

2947

for (size_t dy = y0; dy < ylimit; dy++) {

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

2948

#if JUMPER_NARROW_STAGES

2949

Params params = { x0,dy,0, 0,0,0,0 };

2950

for (; params.dx + N <= xlimit; params.dx += N) {

2951

start(&params,program, 0,0,0,0);

2952

}

2953

if (size_t tail = xlimit - params.dx) {

2954

params.tail = tail;

2955

start(&params,program, 0,0,0,0);

2956

}

2957

#else

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

2958

size_t dx = x0;

2959

for (; dx + N <= xlimit; dx += N) {

2960

start( 0,program,dx,dy, 0,0,0,0, 0,0,0,0);

2961

}

2962

if (size_t tail = xlimit - dx) {

2963

start(tail,program,dx,dy, 0,0,0,0, 0,0,0,0);

2964

}

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

2965

#endif

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

}

}

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

2969

#if JUMPER_NARROW_STAGES

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

2970

static void ABI just_return(Params*, void**, U16,U16,U16,U16) {}

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

2971

#else

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

2972

static void ABI just_return(size_t,void**,size_t,size_t, U16,U16,U16,U16, U16,U16,U16,U16) {}

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

2973

#endif

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

2974

2975

// All stages use the same function call ABI to chain into each other, but there are three types:

2976

// GG: geometry in, geometry out -- think, a matrix

2977

// GP: geometry in, pixels out. -- think, a memory gather

2978

// PP: pixels in, pixels out. -- think, a blend mode

2979

//

2980

// (Some stages ignore their inputs or produce no logical output. That's perfectly fine.)

2981

//

2982

// These three STAGE_ macros let you define each type of stage,

2983

// and will have (x,y) geometry and/or (r,g,b,a, dr,dg,db,da) pixel arguments as appropriate.

2984

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

2985

#if JUMPER_NARROW_STAGES

Mike Klein

8354c52

2018-12-19 10:45:14 -0500

[diff] [blame]

2986

#define STAGE_GG(name, ...) \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

2987

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, F& x, F& y); \

Mike Klein

8354c52

2018-12-19 10:45:14 -0500

[diff] [blame]

2988

static void ABI name(Params* params, void** program, U16 r, U16 g, U16 b, U16 a) { \

2989

auto x = join<F>(r,g), \

2990

y = join<F>(b,a); \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

2991

name##_k(Ctx{program}, params->dx,params->dy,params->tail, x,y); \

Mike Klein

8354c52

2018-12-19 10:45:14 -0500

[diff] [blame]

2992

split(x, &r,&g); \

2993

split(y, &b,&a); \

2994

auto next = (Stage)load_and_inc(program); \

2995

next(params,program, r,g,b,a); \

2996

} \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

2997

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, F& x, F& y)

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

2998

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

2999

#define STAGE_GP(name, ...) \

3000

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, F x, F y, \

3001

U16& r, U16& g, U16& b, U16& a, \

3002

U16& dr, U16& dg, U16& db, U16& da); \

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

3003

static void ABI name(Params* params, void** program, U16 r, U16 g, U16 b, U16 a) { \

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3004

auto x = join<F>(r,g), \

3005

y = join<F>(b,a); \

3006

name##_k(Ctx{program}, params->dx,params->dy,params->tail, x,y, r,g,b,a, \

3007

params->dr,params->dg,params->db,params->da); \

3008

auto next = (Stage)load_and_inc(program); \

3009

next(params,program, r,g,b,a); \

3010

} \

3011

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, F x, F y, \

3012

U16& r, U16& g, U16& b, U16& a, \

3013

U16& dr, U16& dg, U16& db, U16& da)

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3014

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3015

#define STAGE_PP(name, ...) \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

3016

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, \

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3017

U16& r, U16& g, U16& b, U16& a, \

3018

U16& dr, U16& dg, U16& db, U16& da); \

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

3019

static void ABI name(Params* params, void** program, U16 r, U16 g, U16 b, U16 a) { \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

3020

name##_k(Ctx{program}, params->dx,params->dy,params->tail, r,g,b,a, \

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3021

params->dr,params->dg,params->db,params->da); \

3022

auto next = (Stage)load_and_inc(program); \

3023

next(params,program, r,g,b,a); \

3024

} \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

3025

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, \

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3026

U16& r, U16& g, U16& b, U16& a, \

3027

U16& dr, U16& dg, U16& db, U16& da)

3028

#else

3029

#define STAGE_GG(name, ...) \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

3030

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, F& x, F& y); \

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

3031

static void ABI name(size_t tail, void** program, size_t dx, size_t dy, \

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3032

U16 r, U16 g, U16 b, U16 a, \

3033

U16 dr, U16 dg, U16 db, U16 da) { \

3034

auto x = join<F>(r,g), \

3035

y = join<F>(b,a); \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

3036

name##_k(Ctx{program}, dx,dy,tail, x,y); \

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3037

split(x, &r,&g); \

3038

split(y, &b,&a); \

3039

auto next = (Stage)load_and_inc(program); \

3040

next(tail,program,dx,dy, r,g,b,a, dr,dg,db,da); \

3041

} \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

3042

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, F& x, F& y)

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3043

3044

#define STAGE_GP(name, ...) \

3045

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, F x, F y, \

3046

U16& r, U16& g, U16& b, U16& a, \

3047

U16& dr, U16& dg, U16& db, U16& da); \

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

3048

static void ABI name(size_t tail, void** program, size_t dx, size_t dy, \

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3049

U16 r, U16 g, U16 b, U16 a, \

3050

U16 dr, U16 dg, U16 db, U16 da) { \

3051

auto x = join<F>(r,g), \

3052

y = join<F>(b,a); \

3053

name##_k(Ctx{program}, dx,dy,tail, x,y, r,g,b,a, dr,dg,db,da); \

3054

auto next = (Stage)load_and_inc(program); \

3055

next(tail,program,dx,dy, r,g,b,a, dr,dg,db,da); \

3056

} \

3057

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, F x, F y, \

3058

U16& r, U16& g, U16& b, U16& a, \

3059

U16& dr, U16& dg, U16& db, U16& da)

3060

3061

#define STAGE_PP(name, ...) \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

3062

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, \

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3063

U16& r, U16& g, U16& b, U16& a, \

3064

U16& dr, U16& dg, U16& db, U16& da); \

Mike Klein

2018-03-21 13:07:35 -0400

[diff] [blame]

3065

static void ABI name(size_t tail, void** program, size_t dx, size_t dy, \

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3066

U16 r, U16 g, U16 b, U16 a, \

3067

U16 dr, U16 dg, U16 db, U16 da) { \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

3068

name##_k(Ctx{program}, dx,dy,tail, r,g,b,a, dr,dg,db,da); \

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3069

auto next = (Stage)load_and_inc(program); \

3070

next(tail,program,dx,dy, r,g,b,a, dr,dg,db,da); \

3071

} \

Mike Klein

2019-03-18 11:57:58 -0500

[diff] [blame]

3072

SI void name##_k(__VA_ARGS__, size_t dx, size_t dy, size_t tail, \

Mike Klein

2018-03-10 10:27:24 -0500

[diff] [blame]

3073

U16& r, U16& g, U16& b, U16& a, \

3074

U16& dr, U16& dg, U16& db, U16& da)

3075

#endif

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3076

3077

// ~~~~~~ Commonly used helper functions ~~~~~~ //

3078

3079

SI U16 div255(U16 v) {

3080

#if 0

3081

return (v+127)/255; // The ideal rounding divide by 255.

Mike Klein

2018-07-25 09:19:23 -0400

[diff] [blame]

3082

#elif 1 && defined(JUMPER_IS_NEON)

Mike Klein

d8853ec

2018-03-10 11:34:53 -0500

[diff] [blame]

3083

// With NEON we can compute (v+127)/255 as (v + ((v+128)>>8) + 128)>>8

3084

// just as fast as we can do the approximation below, so might as well be correct!

3085

// First we compute v + ((v+128)>>8), then one more round of (...+128)>>8 to finish up.

3086

return vrshrq_n_u16(vrsraq_n_u16(v, v, 8), 8);

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3087

#else

3088

return (v+255)/256; // A good approximation of (v+127)/255.

#endif

}

SI U16 inv(U16 v) { return 255-v; }

3093

3094

SI U16 if_then_else(I16 c, U16 t, U16 e) { return (t & c) | (e & ~c); }

3095

SI U32 if_then_else(I32 c, U32 t, U32 e) { return (t & c) | (e & ~c); }

3096

3097

SI U16 max(U16 x, U16 y) { return if_then_else(x < y, y, x); }

3098

SI U16 min(U16 x, U16 y) { return if_then_else(x < y, x, y); }

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3099

3100

SI U16 from_float(float f) { return f * 255.0f + 0.5f; }

3101

3102

SI U16 lerp(U16 from, U16 to, U16 t) { return div255( from*inv(t) + to*t ); }

3103

3104

template <typename D, typename S>

3105

SI D cast(S src) {

3106

return __builtin_convertvector(src, D);

3107

}

3108

3109

template <typename D, typename S>

3110

SI void split(S v, D* lo, D* hi) {

3111

static_assert(2*sizeof(D) == sizeof(S), "");

3112

memcpy(lo, (const char*)&v + 0*sizeof(D), sizeof(D));

3113

memcpy(hi, (const char*)&v + 1*sizeof(D), sizeof(D));

3114

}

3115

template <typename D, typename S>

3116

SI D join(S lo, S hi) {

3117

static_assert(sizeof(D) == 2*sizeof(S), "");

3118

D v;

3119

memcpy((char*)&v + 0*sizeof(S), &lo, sizeof(S));

3120

memcpy((char*)&v + 1*sizeof(S), &hi, sizeof(S));

3121

return v;

3122

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3123

3124

SI F if_then_else(I32 c, F t, F e) {

John Stiles

2020-07-24 09:56:05 -0400

[diff] [blame]

3125

return sk_bit_cast<F>( (sk_bit_cast<I32>(t) & c) | (sk_bit_cast<I32>(e) & ~c) );

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3126

}

3127

SI F max(F x, F y) { return if_then_else(x < y, y, x); }

3128

SI F min(F x, F y) { return if_then_else(x < y, x, y); }

3129

Herb Derby

2021-08-27 18:21:02 -0400

[diff] [blame]

3130

SI I32 if_then_else(I32 c, I32 t, I32 e) {

3131

return (t & c) | (e & ~c);

3132

}

3133

SI I32 max(I32 x, I32 y) { return if_then_else(x < y, y, x); }

3134

SI I32 min(I32 x, I32 y) { return if_then_else(x < y, x, y); }

3135

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3136

SI F mad(F f, F m, F a) { return f*m+a; }

3137

SI U32 trunc_(F x) { return (U32)cast<I32>(x); }

3138

Herb Derby

2021-09-15 17:25:01 -0400

[diff] [blame]

3139

// Use approximate instructions and one Newton-Raphson step to calculate 1/x.

3140

SI F rcp_precise(F x) {

3141

#if defined(JUMPER_IS_HSW) || defined(JUMPER_IS_SKX)

3142

__m256 lo,hi;

3143

split(x, &lo,&hi);

3144

return join<F>(SK_OPTS_NS::rcp_precise(lo), SK_OPTS_NS::rcp_precise(hi));

3145

#elif defined(JUMPER_IS_SSE2) || defined(JUMPER_IS_SSE41) || defined(JUMPER_IS_AVX)

3146

__m128 lo,hi;

3147

split(x, &lo,&hi);

3148

return join<F>(SK_OPTS_NS::rcp_precise(lo), SK_OPTS_NS::rcp_precise(hi));

3149

#elif defined(JUMPER_IS_NEON)

3150

float32x4_t lo,hi;

3151

split(x, &lo,&hi);

3152

return join<F>(SK_OPTS_NS::rcp_precise(lo), SK_OPTS_NS::rcp_precise(hi));

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

#else

return 1.0f / x;

#endif

}

SI F sqrt_(F x) {

Mike Klein

2020-04-24 08:16:22 -0500

[diff] [blame]

3158

#if defined(JUMPER_IS_HSW) || defined(JUMPER_IS_SKX)

Mike Klein

2018-05-31 10:49:51 -0400

[diff] [blame]

3159

__m256 lo,hi;

3160

split(x, &lo,&hi);

3161

return join<F>(_mm256_sqrt_ps(lo), _mm256_sqrt_ps(hi));

Mike Klein

83e86eb

2018-08-31 10:19:21 -0400

[diff] [blame]

3162

#elif defined(JUMPER_IS_SSE2) || defined(JUMPER_IS_SSE41) || defined(JUMPER_IS_AVX)

Mike Klein

2018-05-31 10:49:51 -0400

[diff] [blame]

3163

__m128 lo,hi;

3164

split(x, &lo,&hi);

3165

return join<F>(_mm_sqrt_ps(lo), _mm_sqrt_ps(hi));

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

3166

#elif defined(SK_CPU_ARM64)

Mike Klein

2018-05-31 10:49:51 -0400

[diff] [blame]

3167

float32x4_t lo,hi;

3168

split(x, &lo,&hi);

3169

return join<F>(vsqrtq_f32(lo), vsqrtq_f32(hi));

Mike Klein

2018-07-25 09:19:23 -0400

[diff] [blame]

3170

#elif defined(JUMPER_IS_NEON)

Mike Klein

2018-05-31 10:49:51 -0400

[diff] [blame]

3171

auto sqrt = [](float32x4_t v) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3172

auto est = vrsqrteq_f32(v); // Estimate and two refinement steps for est = rsqrt(v).

3173

est *= vrsqrtsq_f32(v,est*est);

3174

est *= vrsqrtsq_f32(v,est*est);

3175

return v*est; // sqrt(v) == v*rsqrt(v).

Mike Klein

2018-05-31 10:49:51 -0400

[diff] [blame]

};

float32x4_t lo,hi;

split(x, &lo,&hi);

return join<F>(sqrt(lo), sqrt(hi));

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3180

#else

3181

return F{

3182

sqrtf(x[0]), sqrtf(x[1]), sqrtf(x[2]), sqrtf(x[3]),

3183

sqrtf(x[4]), sqrtf(x[5]), sqrtf(x[6]), sqrtf(x[7]),

};

#endif

}

SI F floor_(F x) {

Mike Klein

2018-08-31 11:21:27 -0400

[diff] [blame]

3189

#if defined(SK_CPU_ARM64)

Mike Klein

2018-05-31 10:49:51 -0400

[diff] [blame]

3190

float32x4_t lo,hi;

3191

split(x, &lo,&hi);

3192

return join<F>(vrndmq_f32(lo), vrndmq_f32(hi));

Mike Klein

2020-04-24 08:16:22 -0500

[diff] [blame]

3193

#elif defined(JUMPER_IS_HSW) || defined(JUMPER_IS_SKX)

Mike Klein

2018-05-31 10:49:51 -0400

[diff] [blame]

3194

__m256 lo,hi;

3195

split(x, &lo,&hi);

3196

return join<F>(_mm256_floor_ps(lo), _mm256_floor_ps(hi));

Mike Klein

83e86eb

2018-08-31 10:19:21 -0400

[diff] [blame]

3197

#elif defined(JUMPER_IS_SSE41) || defined(JUMPER_IS_AVX)

Mike Klein

2018-05-31 10:49:51 -0400

[diff] [blame]

3198

__m128 lo,hi;

3199

split(x, &lo,&hi);

3200

return join<F>(_mm_floor_ps(lo), _mm_floor_ps(hi));

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3201

#else

3202

F roundtrip = cast<F>(cast<I32>(x));

3203

return roundtrip - if_then_else(roundtrip > x, F(1), F(0));

3204

#endif

3205

}

Herb Derby

2021-08-27 18:21:02 -0400

[diff] [blame]

3206

3207

// scaled_mult interprets a and b as number on [-1, 1) which are numbers in Q15 format. Functionally

3208

// this multiply is:

3209

// (2 * a * b + (1 << 15)) >> 16

3210

// The result is a number on [-1, 1).

3211

// Note: on neon this is a saturating multiply while the others are not.

3212

SI I16 scaled_mult(I16 a, I16 b) {

3213

#if defined(JUMPER_IS_HSW) || defined(JUMPER_IS_SKX)

3214

return _mm256_mulhrs_epi16(a, b);

3215

#elif defined(JUMPER_IS_SSE41) || defined(JUMPER_IS_AVX)

3216

return _mm_mulhrs_epi16(a, b);

3217

#elif defined(SK_CPU_ARM64)

3218

return vqrdmulhq_s16(a, b);

3219

#elif defined(JUMPER_IS_NEON)

3220

return vqrdmulhq_s16(a, b);

3221

#else

3222

const I32 roundingTerm = 1 << 14;

3223

return cast<I16>((cast<I32>(a) * cast<I32>(b) + roundingTerm) >> 15);

#endif

}

// This sum is to support lerp where the result will always be a positive number. In general,

3228

// a sum like this would require an additional bit, but because we know the range of the result

3229

// we know that the extra bit will always be zero.

Herb Derby

2021-09-28 17:37:00 -0400

[diff] [blame]

3230

SI U16 constrained_add(I16 a, U16 b) {

Herb Derby

37035fc

2021-09-29 17:49:12 -0400

[diff] [blame]

3231

#if defined(SK_DEBUG)

3232

for (size_t i = 0; i < N; i++) {

3233

// Ensure that a + b is on the interval [0, UINT16_MAX]

3234

int ia = a[i],

3235

ib = b[i];

3236

// Use 65535 here because fuchsia's compiler evaluates UINT16_MAX - ib, which is

3237

// 65536U - ib, as an uint32_t instead of an int32_t. This was forcing ia to be

3238

// interpreted as an uint32_t.

3239

SkASSERT(-ib <= ia && ia <= 65535 - ib);

3240

}

3241

#endif

Herb Derby

2021-09-28 17:37:00 -0400

[diff] [blame]

3242

return b + a;

Herb Derby

2021-08-27 18:21:02 -0400

[diff] [blame]

3243

}

3244

Mike Klein

8e3426f

2018-04-16 12:56:24 -0400

[diff] [blame]

3245

SI F fract(F x) { return x - floor_(x); }

John Stiles

2020-07-24 09:56:05 -0400

[diff] [blame]

3246

SI F abs_(F x) { return sk_bit_cast<F>( sk_bit_cast<I32>(x) & 0x7fffffff ); }

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3247

3248

// ~~~~~~ Basic / misc. stages ~~~~~~ //

3249

Mike Klein

e8de024

2018-03-10 12:37:11 -0500

[diff] [blame]

3250

STAGE_GG(seed_shader, Ctx::None) {

3251

static const float iota[] = {

3252

0.5f, 1.5f, 2.5f, 3.5f, 4.5f, 5.5f, 6.5f, 7.5f,

3253

8.5f, 9.5f,10.5f,11.5f,12.5f,13.5f,14.5f,15.5f,

3254

};

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

3255

x = cast<F>(I32(dx)) + sk_unaligned_load<F>(iota);

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3256

y = cast<F>(I32(dy)) + 0.5f;

3257

}

3258

3259

STAGE_GG(matrix_translate, const float* m) {

x += m[0];

y += m[1];

}

STAGE_GG(matrix_scale_translate, const float* m) {

3264

x = mad(x,m[0], m[2]);

3265

y = mad(y,m[1], m[3]);

3266

}

3267

STAGE_GG(matrix_2x3, const float* m) {

Herb Derby

97bf728

2021-10-06 11:00:39 -0400

[diff] [blame]

3268

auto X = mad(x,m[0], mad(y,m[1], m[2])),

3269

Y = mad(x,m[3], mad(y,m[4], m[5]));

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

x = X;

y = Y;

}

STAGE_GG(matrix_perspective, const float* m) {

3274

// N.B. Unlike the other matrix_ stages, this matrix is row-major.

3275

auto X = mad(x,m[0], mad(y,m[1], m[2])),

3276

Y = mad(x,m[3], mad(y,m[4], m[5])),

3277

Z = mad(x,m[6], mad(y,m[7], m[8]));

Herb Derby

2021-09-15 17:25:01 -0400

[diff] [blame]

3278

x = X * rcp_precise(Z);

3279

y = Y * rcp_precise(Z);

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3280

}

3281

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3282

STAGE_PP(uniform_color, const SkRasterPipeline_UniformColorCtx* c) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

r = c->rgba[0];

g = c->rgba[1];

b = c->rgba[2];

a = c->rgba[3];

}

Mike Reed

9318a6c

2019-08-16 16:16:25 -0400

[diff] [blame]

3288

STAGE_PP(uniform_color_dst, const SkRasterPipeline_UniformColorCtx* c) {

dr = c->rgba[0];

dg = c->rgba[1];

db = c->rgba[2];

da = c->rgba[3];

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3294

STAGE_PP(black_color, Ctx::None) { r = g = b = 0; a = 255; }

3295

STAGE_PP(white_color, Ctx::None) { r = g = b = 255; a = 255; }

3296

3297

STAGE_PP(set_rgb, const float rgb[3]) {

3298

r = from_float(rgb[0]);

3299

g = from_float(rgb[1]);

3300

b = from_float(rgb[2]);

3301

}

3302

Mike Klein

ea045b5

2018-08-23 12:13:58 -0400

[diff] [blame]

3303

STAGE_PP(clamp_0, Ctx::None) { /*definitely a noop*/ }

3304

STAGE_PP(clamp_1, Ctx::None) { /*_should_ be a noop*/ }

3305

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3306

STAGE_PP(clamp_a, Ctx::None) {

r = min(r, a);

g = min(g, a);

b = min(b, a);

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3311

Mike Klein

eb50f43

2018-09-07 11:08:53 -0400

[diff] [blame]

3312

STAGE_PP(clamp_gamut, Ctx::None) {

3313

// It shouldn't be possible to get out-of-gamut

3314

// colors when working in lowp.

3315

}

3316

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3317

STAGE_PP(premul, Ctx::None) {

r = div255(r * a);

g = div255(g * a);

b = div255(b * a);

}

STAGE_PP(premul_dst, Ctx::None) {

3323

dr = div255(dr * da);

3324

dg = div255(dg * da);

3325

db = div255(db * da);

3326

}

3327

3328

STAGE_PP(force_opaque , Ctx::None) { a = 255; }

3329

STAGE_PP(force_opaque_dst, Ctx::None) { da = 255; }

3330

3331

STAGE_PP(swap_rb, Ctx::None) {

auto tmp = r;

r = b;

b = tmp;

}

Mike Klein

1a3eb52

2018-10-18 10:11:00 -0400

[diff] [blame]

3336

STAGE_PP(swap_rb_dst, Ctx::None) {

auto tmp = dr;

dr = db;

db = tmp;

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3341

3342

STAGE_PP(move_src_dst, Ctx::None) {

dr = r;

dg = g;

db = b;

da = a;

}

STAGE_PP(move_dst_src, Ctx::None) {

r = dr;

g = dg;

b = db;

a = da;

}

Brian Osman

2021-08-10 14:39:18 -0400

[diff] [blame]

3356

STAGE_PP(swap_src_dst, Ctx::None) {

std::swap(r, dr);

std::swap(g, dg);

std::swap(b, db);

std::swap(a, da);

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3363

// ~~~~~~ Blend modes ~~~~~~ //

3364

3365

// The same logic applied to all 4 channels.

3366

#define BLEND_MODE(name) \

3367

SI U16 name##_channel(U16 s, U16 d, U16 sa, U16 da); \

3368

STAGE_PP(name, Ctx::None) { \

3369

r = name##_channel(r,dr,a,da); \

3370

g = name##_channel(g,dg,a,da); \

3371

b = name##_channel(b,db,a,da); \

3372

a = name##_channel(a,da,a,da); \

3373

} \

3374

SI U16 name##_channel(U16 s, U16 d, U16 sa, U16 da)

3375

3376

BLEND_MODE(clear) { return 0; }

3377

BLEND_MODE(srcatop) { return div255( s*da + d*inv(sa) ); }

3378

BLEND_MODE(dstatop) { return div255( d*sa + s*inv(da) ); }

3379

BLEND_MODE(srcin) { return div255( s*da ); }

3380

BLEND_MODE(dstin) { return div255( d*sa ); }

3381

BLEND_MODE(srcout) { return div255( s*inv(da) ); }

3382

BLEND_MODE(dstout) { return div255( d*inv(sa) ); }

3383

BLEND_MODE(srcover) { return s + div255( d*inv(sa) ); }

3384

BLEND_MODE(dstover) { return d + div255( s*inv(da) ); }

3385

BLEND_MODE(modulate) { return div255( s*d ); }

3386

BLEND_MODE(multiply) { return div255( s*inv(da) + d*inv(sa) + s*d ); }

Mike Klein

b90c080

2019-03-15 14:03:41 +0000

[diff] [blame]

3387

BLEND_MODE(plus_) { return min(s+d, 255); }

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3388

BLEND_MODE(screen) { return s + d - div255( s*d ); }

3389

BLEND_MODE(xor_) { return div255( s*inv(da) + d*inv(sa) ); }

3390

#undef BLEND_MODE

3391

3392

// The same logic applied to color, and srcover for alpha.

3393

#define BLEND_MODE(name) \

3394

SI U16 name##_channel(U16 s, U16 d, U16 sa, U16 da); \

3395

STAGE_PP(name, Ctx::None) { \

3396

r = name##_channel(r,dr,a,da); \

3397

g = name##_channel(g,dg,a,da); \

3398

b = name##_channel(b,db,a,da); \

3399

a = a + div255( da*inv(a) ); \

3400

} \

3401

SI U16 name##_channel(U16 s, U16 d, U16 sa, U16 da)

3402

3403

BLEND_MODE(darken) { return s + d - div255( max(s*da, d*sa) ); }

3404

BLEND_MODE(lighten) { return s + d - div255( min(s*da, d*sa) ); }

3405

BLEND_MODE(difference) { return s + d - 2*div255( min(s*da, d*sa) ); }

3406

BLEND_MODE(exclusion) { return s + d - 2*div255( s*d ); }

3407

3408

BLEND_MODE(hardlight) {

3409

return div255( s*inv(da) + d*inv(sa) +

3410

if_then_else(2*s <= sa, 2*s*d, sa*da - 2*(sa-s)*(da-d)) );

3411

}

3412

BLEND_MODE(overlay) {

3413

return div255( s*inv(da) + d*inv(sa) +

3414

if_then_else(2*d <= da, 2*s*d, sa*da - 2*(sa-s)*(da-d)) );

}

#undef BLEND_MODE

// ~~~~~~ Helpers for interacting with memory ~~~~~~ //

3419

3420

template <typename T>

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3421

SI T* ptr_at_xy(const SkRasterPipeline_MemoryCtx* ctx, size_t dx, size_t dy) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3422

return (T*)ctx->pixels + dy*ctx->stride + dx;

3423

}

3424

3425

template <typename T>

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3426

SI U32 ix_and_ptr(T** ptr, const SkRasterPipeline_GatherCtx* ctx, F x, F y) {

Mike Klein

2020-04-24 08:16:22 -0500

[diff] [blame]

3427

// Exclusive -> inclusive.

John Stiles

2020-07-24 09:56:05 -0400

[diff] [blame]

3428

const F w = sk_bit_cast<float>( sk_bit_cast<uint32_t>(ctx->width ) - 1),

3429

h = sk_bit_cast<float>( sk_bit_cast<uint32_t>(ctx->height) - 1);

Mike Klein

2020-04-24 08:16:22 -0500

[diff] [blame]

3430

3431

x = min(max(0, x), w);

3432

y = min(max(0, y), h);

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3433

3434

*ptr = (const T*)ctx->pixels;

3435

return trunc_(y)*ctx->stride + trunc_(x);

3436

}

3437

Herb Derby

2021-08-27 18:21:02 -0400

[diff] [blame]

3438

template <typename T>

3439

SI U32 ix_and_ptr(T** ptr, const SkRasterPipeline_GatherCtx* ctx, I32 x, I32 y) {

3440

// Exclusive -> inclusive.

3441

const I32 w = ctx->width - 1,

3442

h = ctx->height - 1;

3443

3444

U32 ax = cast<U32>(min(max(0, x), w)),

3445

ay = cast<U32>(min(max(0, y), h));

3446

3447

*ptr = (const T*)ctx->pixels;

3448

return ay * ctx->stride + ax;

3449

}

3450

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3451

template <typename V, typename T>

3452

SI V load(const T* ptr, size_t tail) {

3453

V v = 0;

3454

switch (tail & (N-1)) {

3455

case 0: memcpy(&v, ptr, sizeof(v)); break;

Mike Klein

2020-04-24 08:16:22 -0500

[diff] [blame]

3456

#if defined(JUMPER_IS_HSW) || defined(JUMPER_IS_SKX)

John Stiles

2020-06-11 17:55:07 -0400

[diff] [blame]

3457

case 15: v[14] = ptr[14]; [[fallthrough]];

3458

case 14: v[13] = ptr[13]; [[fallthrough]];

3459

case 13: v[12] = ptr[12]; [[fallthrough]];

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3460

case 12: memcpy(&v, ptr, 12*sizeof(T)); break;

John Stiles

2020-06-11 17:55:07 -0400

[diff] [blame]

3461

case 11: v[10] = ptr[10]; [[fallthrough]];

3462

case 10: v[ 9] = ptr[ 9]; [[fallthrough]];

3463

case 9: v[ 8] = ptr[ 8]; [[fallthrough]];

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3464

case 8: memcpy(&v, ptr, 8*sizeof(T)); break;

3465

#endif

John Stiles

2020-06-11 17:55:07 -0400

[diff] [blame]

3466

case 7: v[ 6] = ptr[ 6]; [[fallthrough]];

3467

case 6: v[ 5] = ptr[ 5]; [[fallthrough]];

3468

case 5: v[ 4] = ptr[ 4]; [[fallthrough]];

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3469

case 4: memcpy(&v, ptr, 4*sizeof(T)); break;

John Stiles

2020-06-11 17:55:07 -0400

[diff] [blame]

3470

case 3: v[ 2] = ptr[ 2]; [[fallthrough]];

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3471

case 2: memcpy(&v, ptr, 2*sizeof(T)); break;

3472

case 1: v[ 0] = ptr[ 0];

}

return v;

}

template <typename V, typename T>

3477

SI void store(T* ptr, size_t tail, V v) {

3478

switch (tail & (N-1)) {

3479

case 0: memcpy(ptr, &v, sizeof(v)); break;

Mike Klein

2020-04-24 08:16:22 -0500

[diff] [blame]

3480

#if defined(JUMPER_IS_HSW) || defined(JUMPER_IS_SKX)

John Stiles

2020-06-11 17:55:07 -0400

[diff] [blame]

3481

case 15: ptr[14] = v[14]; [[fallthrough]];

3482

case 14: ptr[13] = v[13]; [[fallthrough]];

3483

case 13: ptr[12] = v[12]; [[fallthrough]];

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3484

case 12: memcpy(ptr, &v, 12*sizeof(T)); break;

John Stiles

2020-06-11 17:55:07 -0400

[diff] [blame]

3485

case 11: ptr[10] = v[10]; [[fallthrough]];

3486

case 10: ptr[ 9] = v[ 9]; [[fallthrough]];

3487

case 9: ptr[ 8] = v[ 8]; [[fallthrough]];

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3488

case 8: memcpy(ptr, &v, 8*sizeof(T)); break;

3489

#endif

John Stiles

2020-06-11 17:55:07 -0400

[diff] [blame]

3490

case 7: ptr[ 6] = v[ 6]; [[fallthrough]];

3491

case 6: ptr[ 5] = v[ 5]; [[fallthrough]];

3492

case 5: ptr[ 4] = v[ 4]; [[fallthrough]];

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3493

case 4: memcpy(ptr, &v, 4*sizeof(T)); break;

John Stiles

2020-06-11 17:55:07 -0400

[diff] [blame]

3494

case 3: ptr[ 2] = v[ 2]; [[fallthrough]];

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3495

case 2: memcpy(ptr, &v, 2*sizeof(T)); break;

3496

case 1: ptr[ 0] = v[ 0];

}

}

Mike Klein

2020-04-24 08:16:22 -0500

[diff] [blame]

3500

#if defined(JUMPER_IS_HSW) || defined(JUMPER_IS_SKX)

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3501

template <typename V, typename T>

3502

SI V gather(const T* ptr, U32 ix) {

3503

return V{ ptr[ix[ 0]], ptr[ix[ 1]], ptr[ix[ 2]], ptr[ix[ 3]],

3504

ptr[ix[ 4]], ptr[ix[ 5]], ptr[ix[ 6]], ptr[ix[ 7]],

3505

ptr[ix[ 8]], ptr[ix[ 9]], ptr[ix[10]], ptr[ix[11]],

3506

ptr[ix[12]], ptr[ix[13]], ptr[ix[14]], ptr[ix[15]], };

3507

}

3508

3509

template<>

Kevin Lubick

b5502b2

2018-03-12 10:17:06 -0400

[diff] [blame]

3510

F gather(const float* ptr, U32 ix) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

__m256i lo, hi;

split(ix, &lo, &hi);

Kevin Lubick

2018-03-12 10:17:06 -0400

[diff] [blame]

3514

return join<F>(_mm256_i32gather_ps(ptr, lo, 4),

3515

_mm256_i32gather_ps(ptr, hi, 4));

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3516

}

3517

3518

template<>

Kevin Lubick

b5502b2

2018-03-12 10:17:06 -0400

[diff] [blame]

3519

U32 gather(const uint32_t* ptr, U32 ix) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

__m256i lo, hi;

split(ix, &lo, &hi);

Kevin Lubick

2018-03-12 10:17:06 -0400

[diff] [blame]

3523

return join<U32>(_mm256_i32gather_epi32(ptr, lo, 4),

3524

_mm256_i32gather_epi32(ptr, hi, 4));

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3525

}

3526

#else

3527

template <typename V, typename T>

3528

SI V gather(const T* ptr, U32 ix) {

3529

return V{ ptr[ix[ 0]], ptr[ix[ 1]], ptr[ix[ 2]], ptr[ix[ 3]],

3530

ptr[ix[ 4]], ptr[ix[ 5]], ptr[ix[ 6]], ptr[ix[ 7]], };

}

#endif

// ~~~~~~ 32-bit memory loads and stores ~~~~~~ //

3536

3537

SI void from_8888(U32 rgba, U16* r, U16* g, U16* b, U16* a) {

Mike Klein

2020-04-24 08:16:22 -0500

[diff] [blame]

3538

#if 1 && defined(JUMPER_IS_HSW) || defined(JUMPER_IS_SKX)

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3539

// Swap the middle 128-bit lanes to make _mm256_packus_epi32() in cast_U16() work out nicely.

3540

__m256i _01,_23;

3541

split(rgba, &_01, &_23);

3542

__m256i _02 = _mm256_permute2x128_si256(_01,_23, 0x20),

3543

_13 = _mm256_permute2x128_si256(_01,_23, 0x31);

3544

rgba = join<U32>(_02, _13);

3545

3546

auto cast_U16 = [](U32 v) -> U16 {

3547

__m256i _02,_13;

3548

split(v, &_02,&_13);

3549

return _mm256_packus_epi32(_02,_13);

3550

};

3551

#else

3552

auto cast_U16 = [](U32 v) -> U16 {

return cast<U16>(v);

};

#endif

*r = cast_U16(rgba & 65535) & 255;

3557

*g = cast_U16(rgba & 65535) >> 8;

3558

*b = cast_U16(rgba >> 16) & 255;

3559

*a = cast_U16(rgba >> 16) >> 8;

3560

}

3561

3562

SI void load_8888_(const uint32_t* ptr, size_t tail, U16* r, U16* g, U16* b, U16* a) {

Mike Klein

2018-07-25 09:19:23 -0400

[diff] [blame]

3563

#if 1 && defined(JUMPER_IS_NEON)

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3564

uint8x8x4_t rgba;

3565

switch (tail & (N-1)) {

3566

case 0: rgba = vld4_u8 ((const uint8_t*)(ptr+0) ); break;

John Stiles

2020-06-11 17:55:07 -0400

[diff] [blame]

3567

case 7: rgba = vld4_lane_u8((const uint8_t*)(ptr+6), rgba, 6); [[fallthrough]];

3568

case 6: rgba = vld4_lane_u8((const uint8_t*)(ptr+5), rgba, 5); [[fallthrough]];

3569

case 5: rgba = vld4_lane_u8((const uint8_t*)(ptr+4), rgba, 4); [[fallthrough]];

3570

case 4: rgba = vld4_lane_u8((const uint8_t*)(ptr+3), rgba, 3); [[fallthrough]];

3571

case 3: rgba = vld4_lane_u8((const uint8_t*)(ptr+2), rgba, 2); [[fallthrough]];

3572

case 2: rgba = vld4_lane_u8((const uint8_t*)(ptr+1), rgba, 1); [[fallthrough]];

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3573

case 1: rgba = vld4_lane_u8((const uint8_t*)(ptr+0), rgba, 0);

3574

}

3575

*r = cast<U16>(rgba.val[0]);

3576

*g = cast<U16>(rgba.val[1]);

3577

*b = cast<U16>(rgba.val[2]);

3578

*a = cast<U16>(rgba.val[3]);

3579

#else

3580

from_8888(load<U32>(ptr, tail), r,g,b,a);

3581

#endif

3582

}

3583

SI void store_8888_(uint32_t* ptr, size_t tail, U16 r, U16 g, U16 b, U16 a) {

Mike Klein

2018-07-25 09:19:23 -0400

[diff] [blame]

3584

#if 1 && defined(JUMPER_IS_NEON)

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3585

uint8x8x4_t rgba = {{

cast<U8>(r),

cast<U8>(g),

cast<U8>(b),

cast<U8>(a),

}};

switch (tail & (N-1)) {

3592

case 0: vst4_u8 ((uint8_t*)(ptr+0), rgba ); break;

John Stiles

2020-06-11 17:55:07 -0400

[diff] [blame]

3593

case 7: vst4_lane_u8((uint8_t*)(ptr+6), rgba, 6); [[fallthrough]];

3594

case 6: vst4_lane_u8((uint8_t*)(ptr+5), rgba, 5); [[fallthrough]];

3595

case 5: vst4_lane_u8((uint8_t*)(ptr+4), rgba, 4); [[fallthrough]];

3596

case 4: vst4_lane_u8((uint8_t*)(ptr+3), rgba, 3); [[fallthrough]];

3597

case 3: vst4_lane_u8((uint8_t*)(ptr+2), rgba, 2); [[fallthrough]];

3598

case 2: vst4_lane_u8((uint8_t*)(ptr+1), rgba, 1); [[fallthrough]];

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3599

case 1: vst4_lane_u8((uint8_t*)(ptr+0), rgba, 0);

3600

}

3601

#else

3602

store(ptr, tail, cast<U32>(r | (g<<8)) << 0

3603

| cast<U32>(b | (a<<8)) << 16);

#endif

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3607

STAGE_PP(load_8888, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3608

load_8888_(ptr_at_xy<const uint32_t>(ctx, dx,dy), tail, &r,&g,&b,&a);

3609

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3610

STAGE_PP(load_8888_dst, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3611

load_8888_(ptr_at_xy<const uint32_t>(ctx, dx,dy), tail, &dr,&dg,&db,&da);

3612

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3613

STAGE_PP(store_8888, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3614

store_8888_(ptr_at_xy<uint32_t>(ctx, dx,dy), tail, r,g,b,a);

3615

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3616

STAGE_GP(gather_8888, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3617

const uint32_t* ptr;

3618

U32 ix = ix_and_ptr(&ptr, ctx, x,y);

3619

from_8888(gather<U32>(ptr, ix), &r, &g, &b, &a);

3620

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3621

3622

// ~~~~~~ 16-bit memory loads and stores ~~~~~~ //

3623

3624

SI void from_565(U16 rgb, U16* r, U16* g, U16* b) {

3625

// Format for 565 buffers: 15|rrrrr gggggg bbbbb|0

3626

U16 R = (rgb >> 11) & 31,

G = (rgb >> 5) & 63,

B = (rgb >> 0) & 31;

// These bit replications are the same as multiplying by 255/31 or 255/63 to scale to 8-bit.

3631

*r = (R << 3) | (R >> 2);

3632

*g = (G << 2) | (G >> 4);

3633

*b = (B << 3) | (B >> 2);

3634

}

3635

SI void load_565_(const uint16_t* ptr, size_t tail, U16* r, U16* g, U16* b) {

3636

from_565(load<U16>(ptr, tail), r,g,b);

3637

}

3638

SI void store_565_(uint16_t* ptr, size_t tail, U16 r, U16 g, U16 b) {

Mike Klein

1c94143

2019-02-27 14:22:55 -0600

[diff] [blame]

3639

// Round from [0,255] to [0,31] or [0,63], as if x * (31/255.0f) + 0.5f.

3640

// (Don't feel like you need to find some fundamental truth in these...

3641

// they were brute-force searched.)

3642

U16 R = (r * 9 + 36) / 74, // 9/74 ≈ 31/255, plus 36/74, about half.

3643

G = (g * 21 + 42) / 85, // 21/85 = 63/255 exactly.

3644

B = (b * 9 + 36) / 74;

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3645

// Pack them back into 15|rrrrr gggggg bbbbb|0.

3646

store(ptr, tail, R << 11

| G << 5

| B << 0);

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3651

STAGE_PP(load_565, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3652

load_565_(ptr_at_xy<const uint16_t>(ctx, dx,dy), tail, &r,&g,&b);

3653

a = 255;

3654

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3655

STAGE_PP(load_565_dst, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3656

load_565_(ptr_at_xy<const uint16_t>(ctx, dx,dy), tail, &dr,&dg,&db);

3657

da = 255;

3658

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3659

STAGE_PP(store_565, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3660

store_565_(ptr_at_xy<uint16_t>(ctx, dx,dy), tail, r,g,b);

3661

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3662

STAGE_GP(gather_565, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3663

const uint16_t* ptr;

3664

U32 ix = ix_and_ptr(&ptr, ctx, x,y);

3665

from_565(gather<U16>(ptr, ix), &r, &g, &b);

a = 255;

}

SI void from_4444(U16 rgba, U16* r, U16* g, U16* b, U16* a) {

3670

// Format for 4444 buffers: 15|rrrr gggg bbbb aaaa|0.

3671

U16 R = (rgba >> 12) & 15,

3672

G = (rgba >> 8) & 15,

3673

B = (rgba >> 4) & 15,

3674

A = (rgba >> 0) & 15;

3675

3676

// Scale [0,15] to [0,255].

*r = (R << 4) | R;

*g = (G << 4) | G;

*b = (B << 4) | B;

*a = (A << 4) | A;

}

SI void load_4444_(const uint16_t* ptr, size_t tail, U16* r, U16* g, U16* b, U16* a) {

3683

from_4444(load<U16>(ptr, tail), r,g,b,a);

3684

}

3685

SI void store_4444_(uint16_t* ptr, size_t tail, U16 r, U16 g, U16 b, U16 a) {

Mike Klein

1c94143

2019-02-27 14:22:55 -0600

[diff] [blame]

3686

// Round from [0,255] to [0,15], producing the same value as (x*(15/255.0f) + 0.5f).

3687

U16 R = (r + 8) / 17,

3688

G = (g + 8) / 17,

3689

B = (b + 8) / 17,

3690

A = (a + 8) / 17;

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3691

// Pack them back into 15|rrrr gggg bbbb aaaa|0.

3692

store(ptr, tail, R << 12

| G << 8

| B << 4

| A << 0);

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3698

STAGE_PP(load_4444, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3699

load_4444_(ptr_at_xy<const uint16_t>(ctx, dx,dy), tail, &r,&g,&b,&a);

3700

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3701

STAGE_PP(load_4444_dst, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3702

load_4444_(ptr_at_xy<const uint16_t>(ctx, dx,dy), tail, &dr,&dg,&db,&da);

3703

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3704

STAGE_PP(store_4444, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3705

store_4444_(ptr_at_xy<uint16_t>(ctx, dx,dy), tail, r,g,b,a);

3706

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3707

STAGE_GP(gather_4444, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3708

const uint16_t* ptr;

3709

U32 ix = ix_and_ptr(&ptr, ctx, x,y);

3710

from_4444(gather<U16>(ptr, ix), &r,&g,&b,&a);

3711

}

3712

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

3713

SI void from_88(U16 rg, U16* r, U16* g) {

*r = (rg & 0xFF);

*g = (rg >> 8);

}

SI void load_88_(const uint16_t* ptr, size_t tail, U16* r, U16* g) {

3719

#if 1 && defined(JUMPER_IS_NEON)

3720

uint8x8x2_t rg;

3721

switch (tail & (N-1)) {

3722

case 0: rg = vld2_u8 ((const uint8_t*)(ptr+0) ); break;

John Stiles

2020-06-11 17:55:07 -0400

[diff] [blame]

3723

case 7: rg = vld2_lane_u8((const uint8_t*)(ptr+6), rg, 6); [[fallthrough]];

3724

case 6: rg = vld2_lane_u8((const uint8_t*)(ptr+5), rg, 5); [[fallthrough]];

3725

case 5: rg = vld2_lane_u8((const uint8_t*)(ptr+4), rg, 4); [[fallthrough]];

3726

case 4: rg = vld2_lane_u8((const uint8_t*)(ptr+3), rg, 3); [[fallthrough]];

3727

case 3: rg = vld2_lane_u8((const uint8_t*)(ptr+2), rg, 2); [[fallthrough]];

3728

case 2: rg = vld2_lane_u8((const uint8_t*)(ptr+1), rg, 1); [[fallthrough]];

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

3729

case 1: rg = vld2_lane_u8((const uint8_t*)(ptr+0), rg, 0);

3730

}

3731

*r = cast<U16>(rg.val[0]);

3732

*g = cast<U16>(rg.val[1]);

3733

#else

3734

from_88(load<U16>(ptr, tail), r,g);

#endif

}

SI void store_88_(uint16_t* ptr, size_t tail, U16 r, U16 g) {

3739

#if 1 && defined(JUMPER_IS_NEON)

uint8x8x2_t rg = {{

cast<U8>(r),

cast<U8>(g),

}};

switch (tail & (N-1)) {

3745

case 0: vst2_u8 ((uint8_t*)(ptr+0), rg ); break;

John Stiles

2020-06-11 17:55:07 -0400

[diff] [blame]

3746

case 7: vst2_lane_u8((uint8_t*)(ptr+6), rg, 6); [[fallthrough]];

3747

case 6: vst2_lane_u8((uint8_t*)(ptr+5), rg, 5); [[fallthrough]];

3748

case 5: vst2_lane_u8((uint8_t*)(ptr+4), rg, 4); [[fallthrough]];

3749

case 4: vst2_lane_u8((uint8_t*)(ptr+3), rg, 3); [[fallthrough]];

3750

case 3: vst2_lane_u8((uint8_t*)(ptr+2), rg, 2); [[fallthrough]];

3751

case 2: vst2_lane_u8((uint8_t*)(ptr+1), rg, 1); [[fallthrough]];

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

3752

case 1: vst2_lane_u8((uint8_t*)(ptr+0), rg, 0);

3753

}

3754

#else

3755

store(ptr, tail, cast<U16>(r | (g<<8)) << 0);

#endif

}

STAGE_PP(load_rg88, const SkRasterPipeline_MemoryCtx* ctx) {

Robert Phillips

2019-09-04 15:05:35 -0400

[diff] [blame]

3760

load_88_(ptr_at_xy<const uint16_t>(ctx, dx, dy), tail, &r, &g);

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

3761

b = 0;

Brian Salomon

f30b1c1

2019-06-20 12:25:02 -0400

[diff] [blame]

3762

a = 255;

Robert Phillips

2019-09-04 15:05:35 -0400

[diff] [blame]

3763

}

3764

STAGE_PP(load_rg88_dst, const SkRasterPipeline_MemoryCtx* ctx) {

3765

load_88_(ptr_at_xy<const uint16_t>(ctx, dx, dy), tail, &dr, &dg);

3766

db = 0;

3767

da = 255;

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

3768

}

3769

STAGE_PP(store_rg88, const SkRasterPipeline_MemoryCtx* ctx) {

3770

store_88_(ptr_at_xy<uint16_t>(ctx, dx, dy), tail, r, g);

3771

}

Robert Phillips

2019-09-04 15:05:35 -0400

[diff] [blame]

3772

STAGE_GP(gather_rg88, const SkRasterPipeline_GatherCtx* ctx) {

3773

const uint16_t* ptr;

3774

U32 ix = ix_and_ptr(&ptr, ctx, x, y);

3775

from_88(gather<U16>(ptr, ix), &r, &g);

3776

b = 0;

3777

a = 255;

3778

}

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

3779

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3780

// ~~~~~~ 8-bit memory loads and stores ~~~~~~ //

3781

3782

SI U16 load_8(const uint8_t* ptr, size_t tail) {

3783

return cast<U16>(load<U8>(ptr, tail));

3784

}

3785

SI void store_8(uint8_t* ptr, size_t tail, U16 v) {

3786

store(ptr, tail, cast<U8>(v));

3787

}

3788

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3789

STAGE_PP(load_a8, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3790

r = g = b = 0;

3791

a = load_8(ptr_at_xy<const uint8_t>(ctx, dx,dy), tail);

3792

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3793

STAGE_PP(load_a8_dst, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3794

dr = dg = db = 0;

3795

da = load_8(ptr_at_xy<const uint8_t>(ctx, dx,dy), tail);

3796

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3797

STAGE_PP(store_a8, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3798

store_8(ptr_at_xy<uint8_t>(ctx, dx,dy), tail, a);

3799

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3800

STAGE_GP(gather_a8, const SkRasterPipeline_GatherCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3801

const uint8_t* ptr;

3802

U32 ix = ix_and_ptr(&ptr, ctx, x,y);

3803

r = g = b = 0;

3804

a = cast<U16>(gather<U8>(ptr, ix));

3805

}

3806

Mike Klein

b1df5e5

2018-10-17 17:06:03 -0400

[diff] [blame]

3807

STAGE_PP(alpha_to_gray, Ctx::None) {

3808

r = g = b = a;

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3809

a = 255;

3810

}

Mike Klein

b1df5e5

2018-10-17 17:06:03 -0400

[diff] [blame]

3811

STAGE_PP(alpha_to_gray_dst, Ctx::None) {

3812

dr = dg = db = da;

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3813

da = 255;

3814

}

Mike Klein

da69d59

2019-07-11 07:38:31 -0500

[diff] [blame]

3815

STAGE_PP(bt709_luminance_or_luma_to_alpha, Ctx::None) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3816

a = (r*54 + g*183 + b*19)/256; // 0.2126, 0.7152, 0.0722 with 256 denominator.

3817

r = g = b = 0;

3818

}

Brian Salomon

01ff538

2020-12-15 16:06:26 -0500

[diff] [blame]

3819

STAGE_PP(bt709_luminance_or_luma_to_rgb, Ctx::None) {

3820

r = g = b =(r*54 + g*183 + b*19)/256; // 0.2126, 0.7152, 0.0722 with 256 denominator.

3821

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3822

3823

// ~~~~~~ Coverage scales / lerps ~~~~~~ //

3824

Mike Reed

2019-03-16 13:16:54 -0400

[diff] [blame]

3825

STAGE_PP(load_src, const uint16_t* ptr) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

3826

r = sk_unaligned_load<U16>(ptr + 0*N);

3827

g = sk_unaligned_load<U16>(ptr + 1*N);

3828

b = sk_unaligned_load<U16>(ptr + 2*N);

3829

a = sk_unaligned_load<U16>(ptr + 3*N);

Mike Reed

2019-03-16 13:16:54 -0400

[diff] [blame]

3830

}

3831

STAGE_PP(store_src, uint16_t* ptr) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

3832

sk_unaligned_store(ptr + 0*N, r);

3833

sk_unaligned_store(ptr + 1*N, g);

3834

sk_unaligned_store(ptr + 2*N, b);

3835

sk_unaligned_store(ptr + 3*N, a);

Mike Reed

2019-03-16 13:16:54 -0400

[diff] [blame]

3836

}

Mike Reed

2020-03-10 14:02:56 -0400

[diff] [blame]

3837

STAGE_PP(store_src_a, uint16_t* ptr) {

3838

sk_unaligned_store(ptr, a);

3839

}

Mike Reed

2019-03-16 13:16:54 -0400

[diff] [blame]

3840

STAGE_PP(load_dst, const uint16_t* ptr) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

3841

dr = sk_unaligned_load<U16>(ptr + 0*N);

3842

dg = sk_unaligned_load<U16>(ptr + 1*N);

3843

db = sk_unaligned_load<U16>(ptr + 2*N);

3844

da = sk_unaligned_load<U16>(ptr + 3*N);

Mike Reed

2019-03-16 13:16:54 -0400

[diff] [blame]

3845

}

3846

STAGE_PP(store_dst, uint16_t* ptr) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

3847

sk_unaligned_store(ptr + 0*N, dr);

3848

sk_unaligned_store(ptr + 1*N, dg);

3849

sk_unaligned_store(ptr + 2*N, db);

3850

sk_unaligned_store(ptr + 3*N, da);

Mike Reed

2019-03-16 13:16:54 -0400

[diff] [blame]

3851

}

3852

3853

// ~~~~~~ Coverage scales / lerps ~~~~~~ //

3854

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3855

STAGE_PP(scale_1_float, const float* f) {

3856

U16 c = from_float(*f);

r = div255( r * c );

g = div255( g * c );

b = div255( b * c );

a = div255( a * c );

}

STAGE_PP(lerp_1_float, const float* f) {

3863

U16 c = from_float(*f);

r = lerp(dr, r, c);

g = lerp(dg, g, c);

b = lerp(db, b, c);

a = lerp(da, a, c);

}

Mike Reed

2020-03-10 14:02:56 -0400

[diff] [blame]

3869

STAGE_PP(scale_native, const uint16_t scales[]) {

3870

auto c = sk_unaligned_load<U16>(scales);

r = div255( r * c );

g = div255( g * c );

b = div255( b * c );

a = div255( a * c );

}

Mike Reed

2019-03-16 13:16:54 -0400

[diff] [blame]

3877

STAGE_PP(lerp_native, const uint16_t scales[]) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

3878

auto c = sk_unaligned_load<U16>(scales);

Mike Reed

2019-03-16 13:16:54 -0400

[diff] [blame]

r = lerp(dr, r, c);

g = lerp(dg, g, c);

b = lerp(db, b, c);

a = lerp(da, a, c);

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3884

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3885

STAGE_PP(scale_u8, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3886

U16 c = load_8(ptr_at_xy<const uint8_t>(ctx, dx,dy), tail);

r = div255( r * c );

g = div255( g * c );

b = div255( b * c );

a = div255( a * c );

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3892

STAGE_PP(lerp_u8, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3893

U16 c = load_8(ptr_at_xy<const uint8_t>(ctx, dx,dy), tail);

r = lerp(dr, r, c);

g = lerp(dg, g, c);

b = lerp(db, b, c);

a = lerp(da, a, c);

}

// Derive alpha's coverage from rgb coverage and the values of src and dst alpha.

3901

SI U16 alpha_coverage_from_rgb_coverage(U16 a, U16 da, U16 cr, U16 cg, U16 cb) {

Mike Klein

2019-10-16 13:28:55 -0500

[diff] [blame]

3902

return if_then_else(a < da, min(cr, min(cg,cb))

3903

, max(cr, max(cg,cb)));

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3904

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3905

STAGE_PP(scale_565, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3906

U16 cr,cg,cb;

3907

load_565_(ptr_at_xy<const uint16_t>(ctx, dx,dy), tail, &cr,&cg,&cb);

3908

U16 ca = alpha_coverage_from_rgb_coverage(a,da, cr,cg,cb);

3909

3910

r = div255( r * cr );

3911

g = div255( g * cg );

3912

b = div255( b * cb );

3913

a = div255( a * ca );

3914

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3915

STAGE_PP(lerp_565, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3916

U16 cr,cg,cb;

3917

load_565_(ptr_at_xy<const uint16_t>(ctx, dx,dy), tail, &cr,&cg,&cb);

3918

U16 ca = alpha_coverage_from_rgb_coverage(a,da, cr,cg,cb);

r = lerp(dr, r, cr);

g = lerp(dg, g, cg);

b = lerp(db, b, cb);

a = lerp(da, a, ca);

}

Mike Klein

2018-11-06 11:53:59 -0500

[diff] [blame]

3926

STAGE_PP(emboss, const SkRasterPipeline_EmbossCtx* ctx) {

3927

U16 mul = load_8(ptr_at_xy<const uint8_t>(&ctx->mul, dx,dy), tail),

3928

add = load_8(ptr_at_xy<const uint8_t>(&ctx->add, dx,dy), tail);

3929

3930

r = min(div255(r*mul) + add, a);

3931

g = min(div255(g*mul) + add, a);

3932

b = min(div255(b*mul) + add, a);

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3936

// ~~~~~~ Gradient stages ~~~~~~ //

3937

3938

// Clamp x to [0,1], both sides inclusive (think, gradients).

3939

// Even repeat and mirror funnel through a clamp to handle bad inputs like +Inf, NaN.

3940

SI F clamp_01(F v) { return min(max(0, v), 1); }

3941

3942

STAGE_GG(clamp_x_1 , Ctx::None) { x = clamp_01(x); }

3943

STAGE_GG(repeat_x_1, Ctx::None) { x = clamp_01(x - floor_(x)); }

3944

STAGE_GG(mirror_x_1, Ctx::None) {

3945

auto two = [](F x){ return x+x; };

3946

x = clamp_01(abs_( (x-1.0f) - two(floor_((x-1.0f)*0.5f)) - 1.0f ));

3947

}

3948

3949

SI I16 cond_to_mask_16(I32 cond) { return cast<I16>(cond); }

3950

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3951

STAGE_GG(decal_x, SkRasterPipeline_DecalTileCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3952

auto w = ctx->limit_x;

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

3953

sk_unaligned_store(ctx->mask, cond_to_mask_16((0 <= x) & (x < w)));

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3954

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3955

STAGE_GG(decal_y, SkRasterPipeline_DecalTileCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3956

auto h = ctx->limit_y;

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

3957

sk_unaligned_store(ctx->mask, cond_to_mask_16((0 <= y) & (y < h)));

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3958

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3959

STAGE_GG(decal_x_and_y, SkRasterPipeline_DecalTileCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3960

auto w = ctx->limit_x;

3961

auto h = ctx->limit_y;

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

3962

sk_unaligned_store(ctx->mask, cond_to_mask_16((0 <= x) & (x < w) & (0 <= y) & (y < h)));

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3963

}

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3964

STAGE_PP(check_decal_mask, SkRasterPipeline_DecalTileCtx* ctx) {

Mike Klein

2019-06-17 17:17:47 -0500

[diff] [blame]

3965

auto mask = sk_unaligned_load<U16>(ctx->mask);

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

r = r & mask;

g = g & mask;

b = b & mask;

a = a & mask;

}

Mike Klein

2018-09-07 12:05:29 -0400

[diff] [blame]

3972

SI void round_F_to_U16(F R, F G, F B, F A, bool interpolatedInPremul,

3973

U16* r, U16* g, U16* b, U16* a) {

3974

auto round = [](F x) { return cast<U16>(x * 255.0f + 0.5f); };

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3975

Mike Klein

24de648

2018-09-07 12:05:29 -0400

[diff] [blame]

3976

F limit = interpolatedInPremul ? A

3977

: 1;

3978

*r = round(min(max(0,R), limit));

3979

*g = round(min(max(0,G), limit));

3980

*b = round(min(max(0,B), limit));

3981

*a = round(A); // we assume alpha is already in [0,1].

3982

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3983

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

3984

SI void gradient_lookup(const SkRasterPipeline_GradientCtx* c, U32 idx, F t,

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3985

U16* r, U16* g, U16* b, U16* a) {

3986

3987

F fr, fg, fb, fa, br, bg, bb, ba;

Mike Klein

2020-04-24 08:16:22 -0500

[diff] [blame]

3988

#if defined(JUMPER_IS_HSW) || defined(JUMPER_IS_SKX)

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

3989

if (c->stopCount <=8) {

3990

__m256i lo, hi;

3991

split(idx, &lo, &hi);

3992

3993

fr = join<F>(_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[0]), lo),

3994

_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[0]), hi));

3995

br = join<F>(_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[0]), lo),

3996

_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[0]), hi));

3997

fg = join<F>(_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[1]), lo),

3998

_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[1]), hi));

3999

bg = join<F>(_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[1]), lo),

4000

_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[1]), hi));

4001

fb = join<F>(_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[2]), lo),

4002

_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[2]), hi));

4003

bb = join<F>(_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[2]), lo),

4004

_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[2]), hi));

4005

fa = join<F>(_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[3]), lo),

4006

_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->fs[3]), hi));

4007

ba = join<F>(_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[3]), lo),

4008

_mm256_permutevar8x32_ps(_mm256_loadu_ps(c->bs[3]), hi));

} else

#endif

{

fr = gather<F>(c->fs[0], idx);

4013

fg = gather<F>(c->fs[1], idx);

4014

fb = gather<F>(c->fs[2], idx);

4015

fa = gather<F>(c->fs[3], idx);

4016

br = gather<F>(c->bs[0], idx);

4017

bg = gather<F>(c->bs[1], idx);

4018

bb = gather<F>(c->bs[2], idx);

4019

ba = gather<F>(c->bs[3], idx);

4020

}

Mike Klein

24de648

2018-09-07 12:05:29 -0400

[diff] [blame]

4021

round_F_to_U16(mad(t, fr, br),

mad(t, fg, bg),

mad(t, fb, bb),

mad(t, fa, ba),

c->interpolatedInPremul,

4026

r,g,b,a);

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

4027

}

4028

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

4029

STAGE_GP(gradient, const SkRasterPipeline_GradientCtx* c) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

auto t = x;

U32 idx = 0;

// N.B. The loop starts at 1 because idx 0 is the color to use before the first stop.

4034

for (size_t i = 1; i < c->stopCount; i++) {

4035

idx += if_then_else(t >= c->ts[i], U32(1), U32(0));

4036

}

4037

4038

gradient_lookup(c, idx, t, &r, &g, &b, &a);

4039

}

4040

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

4041

STAGE_GP(evenly_spaced_gradient, const SkRasterPipeline_GradientCtx* c) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

4042

auto t = x;

4043

auto idx = trunc_(t * (c->stopCount-1));

4044

gradient_lookup(c, idx, t, &r, &g, &b, &a);

4045

}

4046

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

4047

STAGE_GP(evenly_spaced_2_stop_gradient, const SkRasterPipeline_EvenlySpaced2StopGradientCtx* c) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

4048

auto t = x;

Mike Klein

24de648

2018-09-07 12:05:29 -0400

[diff] [blame]

4049

round_F_to_U16(mad(t, c->f[0], c->b[0]),

4050

mad(t, c->f[1], c->b[1]),

4051

mad(t, c->f[2], c->b[2]),

4052

mad(t, c->f[3], c->b[3]),

4053

c->interpolatedInPremul,

4054

&r,&g,&b,&a);

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

4055

}

4056

Herb Derby

2021-08-27 18:21:02 -0400

[diff] [blame]

4057

SI F cast (U32 v) { return __builtin_convertvector((I32)v, F); }

Herb Derby

2021-08-27 18:21:02 -0400

[diff] [blame]

4058

#if !defined(SK_SUPPORT_LEGACY_BILERP_HIGHP)

4059

STAGE_GP(bilerp_clamp_8888, const SkRasterPipeline_GatherCtx* ctx) {

4060

// Quantize sample point and transform into lerp coordinates converting them to 16.16 fixed

4061

// point number.

4062

I32 qx = cast<I32>(floor_(65536.0f * x + 0.5f)) - 32768,

4063

qy = cast<I32>(floor_(65536.0f * y + 0.5f)) - 32768;

4064

4065

// Calculate screen coordinates sx & sy by flooring qx and qy.

I32 sx = qx >> 16,

sy = qy >> 16;

// We are going to perform a change of parameters for qx on [0, 1) to tx on [-1, 1).

4070

// This will put tx in Q15 format for use with q_mult.

4071

// Calculate tx and ty on the interval of [-1, 1). Give {qx} and {qy} are on the interval

4072

// [0, 1), where {v} is fract(v), we can transform to tx in the following manner ty follows

4073

// the same math:

4074

// tx = 2 * {qx} - 1, so

4075

// {qx} = (tx + 1) / 2.

4076

// Calculate {qx} - 1 and {qy} - 1 where the {} operation is handled by the cast, and the - 1

4077

// is handled by the ^ 0x8000, dividing by 2 is deferred and handled in lerpX and lerpY in

4078

// order to use the full 16-bit resolution.

4079

I16 tx = cast<I16>(qx ^ 0x8000),

4080

ty = cast<I16>(qy ^ 0x8000);

4081

4082

// Substituting the {qx} by the equation for tx from above into the lerp equation where v is

4083

// the lerped value:

4084

// v = {qx}*(R - L) + L,

4085

// v = 1/2*(tx + 1)*(R - L) + L

4086

// 2 * v = (tx + 1)*(R - L) + 2*L

4087

// = tx*R - tx*L + R - L + 2*L

4088

// = tx*(R - L) + (R + L).

4089

// Since R and L are on [0, 255] we need them on the interval [0, 1/2] to get them into form

4090

// for Q15_mult. If L and R where in 16.16 format, this would be done by dividing by 2^9. In

4091

// code, we can multiply by 2^7 to get the value directly.

4092

// 2 * v = tx*(R - L) + (R + L)

4093

// 2^-9 * 2 * v = tx*(R - L)*2^-9 + (R + L)*2^-9

4094

// 2^-8 * v = 2^-9 * (tx*(R - L) + (R + L))

4095

// v = 1/2 * (tx*(R - L) + (R + L))

Herb Derby

2021-09-28 17:37:00 -0400

[diff] [blame]

4096

auto lerpX = [&](U16 left, U16 right) -> U16 {

4097

I16 width = (I16)(right - left) << 7;

4098

U16 middle = (right + left) << 7;

Herb Derby

2021-08-27 18:21:02 -0400

[diff] [blame]

4099

// The constrained_add is the most subtle part of lerp. The first term is on the interval

4100

// [-1, 1), and the second term is on the interval is on the interval [0, 1) because

4101

// both terms are too high by a factor of 2 which will be handled below. (Both R and L are

4102

// on [0, 1/2), but the sum R + L is on the interval [0, 1).) Generally, the sum below

4103

// should overflow, but because we know that sum produces an output on the

4104

// interval [0, 1) we know that the extra bit that would be needed will always be 0. So

4105

// we need to be careful to treat this sum as an unsigned positive number in the divide

Herb Derby

2021-09-28 17:37:00 -0400

[diff] [blame]

4106

// by 2 below. Add +1 for rounding.

4107

U16 v2 = constrained_add(scaled_mult(tx, width), middle) + 1;

Herb Derby

2021-08-27 18:21:02 -0400

[diff] [blame]

4108

// Divide by 2 to calculate v and at the same time bring the intermediate value onto the

4109

// interval [0, 1/2] to set up for the lerpY.

Herb Derby

2021-09-28 17:37:00 -0400

[diff] [blame]

4110

return v2 >> 1;

Herb Derby

2021-08-27 18:21:02 -0400

[diff] [blame]

};

const uint32_t* ptr;

U32 ix = ix_and_ptr(&ptr, ctx, sx, sy);

Herb Derby

2021-09-28 17:37:00 -0400

[diff] [blame]

4115

U16 leftR, leftG, leftB, leftA;

Herb Derby

2021-08-27 18:21:02 -0400

[diff] [blame]

4116

from_8888(gather<U32>(ptr, ix), &leftR,&leftG,&leftB,&leftA);

4117

4118

ix = ix_and_ptr(&ptr, ctx, sx+1, sy);

Herb Derby

2021-09-28 17:37:00 -0400

[diff] [blame]

4119

U16 rightR, rightG, rightB, rightA;

Herb Derby

2021-08-27 18:21:02 -0400

[diff] [blame]

4120

from_8888(gather<U32>(ptr, ix), &rightR,&rightG,&rightB,&rightA);

4121

Herb Derby

2021-09-28 17:37:00 -0400

[diff] [blame]

4122

U16 topR = lerpX(leftR, rightR),

Herb Derby

2021-08-27 18:21:02 -0400

[diff] [blame]

4123

topG = lerpX(leftG, rightG),

4124

topB = lerpX(leftB, rightB),

4125

topA = lerpX(leftA, rightA);

4126

4127

ix = ix_and_ptr(&ptr, ctx, sx, sy+1);

4128

from_8888(gather<U32>(ptr, ix), &leftR,&leftG,&leftB,&leftA);

4129

4130

ix = ix_and_ptr(&ptr, ctx, sx+1, sy+1);

4131

from_8888(gather<U32>(ptr, ix), &rightR,&rightG,&rightB,&rightA);

4132

Herb Derby

2021-09-28 17:37:00 -0400

[diff] [blame]

4133

U16 bottomR = lerpX(leftR, rightR),

Herb Derby

2021-08-27 18:21:02 -0400

[diff] [blame]

4134

bottomG = lerpX(leftG, rightG),

4135

bottomB = lerpX(leftB, rightB),

4136

bottomA = lerpX(leftA, rightA);

4137

4138

// lerpY plays the same mathematical tricks as lerpX, but the final divide is by 256 resulting

4139

// in a value on [0, 255].

Herb Derby

2021-09-28 17:37:00 -0400

[diff] [blame]

4140

auto lerpY = [&](U16 top, U16 bottom) -> U16 {

4141

I16 width = (I16)bottom - top;

4142

U16 middle = bottom + top;

4143

// Add + 0x80 for rounding.

4144

U16 blend = constrained_add(scaled_mult(ty, width), middle) + 0x80;

Herb Derby

2021-08-27 18:21:02 -0400

[diff] [blame]

4145

Herb Derby

2021-09-28 17:37:00 -0400

[diff] [blame]

4146

return blend >> 8;

Herb Derby

2021-08-27 18:21:02 -0400

[diff] [blame]

4147

};

4148

4149

r = lerpY(topR, bottomR);

4150

g = lerpY(topG, bottomG);

4151

b = lerpY(topB, bottomB);

4152

a = lerpY(topA, bottomA);

4153

}

4154

#endif // SK_SUPPORT_LEGACY_BILERP_HIGHP

4155

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

4156

STAGE_GG(xy_to_unit_angle, Ctx::None) {

F xabs = abs_(x),

yabs = abs_(y);

F slope = min(xabs, yabs)/max(xabs, yabs);

4161

F s = slope * slope;

4162

4163

// Use a 7th degree polynomial to approximate atan.

4164

// This was generated using sollya.gforge.inria.fr.

4165

// A float optimized polynomial was generated using the following command.

4166

// P1 = fpminimax((1/(2*Pi))*atan(x),[|1,3,5,7|],[|24...|],[2^(-40),1],relative);

4167

F phi = slope

4168

* (0.15912117063999176025390625f + s

4169

* (-5.185396969318389892578125e-2f + s

4170

* (2.476101927459239959716796875e-2f + s

4171

* (-7.0547382347285747528076171875e-3f))));

4172

4173

phi = if_then_else(xabs < yabs, 1.0f/4.0f - phi, phi);

4174

phi = if_then_else(x < 0.0f , 1.0f/2.0f - phi, phi);

4175

phi = if_then_else(y < 0.0f , 1.0f - phi , phi);

4176

phi = if_then_else(phi != phi , 0 , phi); // Check for NaN.

4177

x = phi;

4178

}

4179

STAGE_GG(xy_to_radius, Ctx::None) {

4180

x = sqrt_(x*x + y*y);

4181

}

4182

4183

// ~~~~~~ Compound stages ~~~~~~ //

4184

Mike Klein

2018-10-24 06:42:14 -0400

[diff] [blame]

4185

STAGE_PP(srcover_rgba_8888, const SkRasterPipeline_MemoryCtx* ctx) {

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

4186

auto ptr = ptr_at_xy<uint32_t>(ctx, dx,dy);

4187

4188

load_8888_(ptr, tail, &dr,&dg,&db,&da);

4189

r = r + div255( dr*inv(a) );

4190

g = g + div255( dg*inv(a) );

4191

b = b + div255( db*inv(a) );

4192

a = a + div255( da*inv(a) );

4193

store_8888_(ptr, tail, r,g,b,a);

4194

}

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4195

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

4196

// ~~~~~~ GrSwizzle stage ~~~~~~ //

4197

4198

STAGE_PP(swizzle, void* ctx) {

4199

auto ir = r, ig = g, ib = b, ia = a;

4200

U16* o[] = {&r, &g, &b, &a};

4201

char swiz[4];

4202

memcpy(swiz, &ctx, sizeof(swiz));

4203

4204

for (int i = 0; i < 4; ++i) {

4205

switch (swiz[i]) {

4206

case 'r': *o[i] = ir; break;

4207

case 'g': *o[i] = ig; break;

4208

case 'b': *o[i] = ib; break;

4209

case 'a': *o[i] = ia; break;

Brian Salomon

f30b1c1

2019-06-20 12:25:02 -0400

[diff] [blame]

4210

case '0': *o[i] = U16(0); break;

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

4211

case '1': *o[i] = U16(255); break;

default: break;

}

}

}

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

4217

// Now we'll add null stand-ins for stages we haven't implemented in lowp.

4218

// If a pipeline uses these stages, it'll boot it out of lowp into highp.

Mike Klein

8b0f9d1

2019-01-03 11:26:57 -0500

[diff] [blame]

4219

#define NOT_IMPLEMENTED(st) static void (*st)(void) = nullptr;

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4220

NOT_IMPLEMENTED(callback)

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4221

NOT_IMPLEMENTED(unbounded_set_rgb)

4222

NOT_IMPLEMENTED(unbounded_uniform_color)

4223

NOT_IMPLEMENTED(unpremul)

Mike Klein

2021-02-08 15:17:45 -0600

[diff] [blame]

4224

NOT_IMPLEMENTED(dither)

Brian Salomon

2019-06-12 17:42:58 -0400

[diff] [blame]

4225

NOT_IMPLEMENTED(load_16161616)

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

4226

NOT_IMPLEMENTED(load_16161616_dst)

Brian Salomon

2019-06-12 17:42:58 -0400

[diff] [blame]

4227

NOT_IMPLEMENTED(store_16161616)

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

4228

NOT_IMPLEMENTED(gather_16161616)

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

4229

NOT_IMPLEMENTED(load_a16)

Robert Phillips

2019-09-11 17:03:28 -0400

[diff] [blame]

4230

NOT_IMPLEMENTED(load_a16_dst)

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

4231

NOT_IMPLEMENTED(store_a16)

Robert Phillips

2019-09-11 17:03:28 -0400

[diff] [blame]

4232

NOT_IMPLEMENTED(gather_a16)

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

4233

NOT_IMPLEMENTED(load_rg1616)

Robert Phillips

2019-09-11 17:03:28 -0400

[diff] [blame]

4234

NOT_IMPLEMENTED(load_rg1616_dst)

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

4235

NOT_IMPLEMENTED(store_rg1616)

Robert Phillips

2019-09-11 17:03:28 -0400

[diff] [blame]

4236

NOT_IMPLEMENTED(gather_rg1616)

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4237

NOT_IMPLEMENTED(load_f16)

4238

NOT_IMPLEMENTED(load_f16_dst)

4239

NOT_IMPLEMENTED(store_f16)

4240

NOT_IMPLEMENTED(gather_f16)

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

4241

NOT_IMPLEMENTED(load_af16)

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

4242

NOT_IMPLEMENTED(load_af16_dst)

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

4243

NOT_IMPLEMENTED(store_af16)

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

4244

NOT_IMPLEMENTED(gather_af16)

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

4245

NOT_IMPLEMENTED(load_rgf16)

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

4246

NOT_IMPLEMENTED(load_rgf16_dst)

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

4247

NOT_IMPLEMENTED(store_rgf16)

Robert Phillips

2019-09-18 13:56:54 -0400

[diff] [blame]

4248

NOT_IMPLEMENTED(gather_rgf16)

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4249

NOT_IMPLEMENTED(load_f32)

4250

NOT_IMPLEMENTED(load_f32_dst)

4251

NOT_IMPLEMENTED(store_f32)

4252

NOT_IMPLEMENTED(gather_f32)

Brian Salomon

2019-06-11 15:55:30 -0400

[diff] [blame]

4253

NOT_IMPLEMENTED(load_rgf32)

4254

NOT_IMPLEMENTED(store_rgf32)

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4255

NOT_IMPLEMENTED(load_1010102)

4256

NOT_IMPLEMENTED(load_1010102_dst)

4257

NOT_IMPLEMENTED(store_1010102)

4258

NOT_IMPLEMENTED(gather_1010102)

4259

NOT_IMPLEMENTED(store_u16_be)

Mike Klein

2021-02-08 15:17:45 -0600

[diff] [blame]

4260

NOT_IMPLEMENTED(byte_tables)

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4261

NOT_IMPLEMENTED(colorburn)

4262

NOT_IMPLEMENTED(colordodge)

4263

NOT_IMPLEMENTED(softlight)

4264

NOT_IMPLEMENTED(hue)

4265

NOT_IMPLEMENTED(saturation)

4266

NOT_IMPLEMENTED(color)

4267

NOT_IMPLEMENTED(luminosity)

4268

NOT_IMPLEMENTED(matrix_3x3)

4269

NOT_IMPLEMENTED(matrix_3x4)

Mike Klein

2021-02-08 15:17:45 -0600

[diff] [blame]

4270

NOT_IMPLEMENTED(matrix_4x5)

4271

NOT_IMPLEMENTED(matrix_4x3)

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4272

NOT_IMPLEMENTED(parametric)

Mike Klein

1ce03a6

2019-04-23 08:00:35 -0500

[diff] [blame]

4273

NOT_IMPLEMENTED(gamma_)

Brian Osman

2019-10-16 13:58:42 -0400

[diff] [blame]

4274

NOT_IMPLEMENTED(PQish)

4275

NOT_IMPLEMENTED(HLGish)

4276

NOT_IMPLEMENTED(HLGinvish)

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4277

NOT_IMPLEMENTED(rgb_to_hsl)

4278

NOT_IMPLEMENTED(hsl_to_rgb)

Mike Klein

2021-02-08 15:17:45 -0600

[diff] [blame]

4279

NOT_IMPLEMENTED(gauss_a_to_rgba)

4280

NOT_IMPLEMENTED(mirror_x)

4281

NOT_IMPLEMENTED(repeat_x)

4282

NOT_IMPLEMENTED(mirror_y)

4283

NOT_IMPLEMENTED(repeat_y)

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4284

NOT_IMPLEMENTED(negate_x)

Mike Klein

2021-02-08 15:17:45 -0600

[diff] [blame]

4285

NOT_IMPLEMENTED(bilinear)

Herb Derby

2021-08-27 18:21:02 -0400

[diff] [blame]

4286

#if defined(SK_SUPPORT_LEGACY_BILERP_HIGHP)

Herb Derby

907c593

2021-09-27 21:09:55 +0000

[diff] [blame]

4287

NOT_IMPLEMENTED(bilerp_clamp_8888)

Herb Derby

2021-08-27 18:21:02 -0400

[diff] [blame]

4288

#endif

Mike Klein

2021-02-08 15:17:45 -0600

[diff] [blame]

4289

NOT_IMPLEMENTED(bicubic)

Mike Reed

78eedba

2019-07-31 16:39:15 -0400

[diff] [blame]

4290

NOT_IMPLEMENTED(bicubic_clamp_8888)

Mike Klein

2021-02-08 15:17:45 -0600

[diff] [blame]

4291

NOT_IMPLEMENTED(bilinear_nx)

4292

NOT_IMPLEMENTED(bilinear_ny)

4293

NOT_IMPLEMENTED(bilinear_px)

4294

NOT_IMPLEMENTED(bilinear_py)

4295

NOT_IMPLEMENTED(bicubic_n3x)

4296

NOT_IMPLEMENTED(bicubic_n1x)

4297

NOT_IMPLEMENTED(bicubic_p1x)

4298

NOT_IMPLEMENTED(bicubic_p3x)

4299

NOT_IMPLEMENTED(bicubic_n3y)

4300

NOT_IMPLEMENTED(bicubic_n1y)

4301

NOT_IMPLEMENTED(bicubic_p1y)

4302

NOT_IMPLEMENTED(bicubic_p3y)

4303

NOT_IMPLEMENTED(save_xy)

4304

NOT_IMPLEMENTED(accumulate)

Mike Klein

2018-12-19 10:05:03 -0500

[diff] [blame]

4305

NOT_IMPLEMENTED(xy_to_2pt_conical_well_behaved)

4306

NOT_IMPLEMENTED(xy_to_2pt_conical_strip)

4307

NOT_IMPLEMENTED(xy_to_2pt_conical_focal_on_circle)

4308

NOT_IMPLEMENTED(xy_to_2pt_conical_smaller)

4309

NOT_IMPLEMENTED(xy_to_2pt_conical_greater)

4310

NOT_IMPLEMENTED(alter_2pt_conical_compensate_focal)

4311

NOT_IMPLEMENTED(alter_2pt_conical_unswap)

4312

NOT_IMPLEMENTED(mask_2pt_conical_nan)

4313

NOT_IMPLEMENTED(mask_2pt_conical_degenerates)

4314

NOT_IMPLEMENTED(apply_vector_mask)

4315

#undef NOT_IMPLEMENTED

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

4316

Mike Klein

2018-02-27 10:37:40 -0500

[diff] [blame]

4317

#endif//defined(JUMPER_IS_SCALAR) controlling whether we build lowp stages

4318

} // namespace lowp

4319

4320

} // namespace SK_OPTS_NS

4321

Mike Klein

b296d92

2021-01-14 09:24:46 -0600

[diff] [blame]

4322

#undef SI

4323

Mike Klein