Blame - source/rotate_neon.cc - fp2-dev/platform/external/chromium_org/third_party/libyuv

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

/*

*

* Use of this source code is governed by a BSD-style license

5

* that can be found in the LICENSE file in the root of the source

6

* tree. An additional intellectual property rights grant can be found

7

* in the file PATENTS. All contributing project authors may

8

* be found in the AUTHORS file in the root of the source tree.

9

*/

10

11

#include "libyuv/basic_types.h"

fbarchard@google.com

15c3d45

2011-11-17 22:13:17 +0000

[diff] [blame]

12

#include "row.h"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

13

fbarchard@google.com

fe5ff7e

2011-12-10 07:45:58 +0000

[diff] [blame^]

14

#ifdef __cplusplus

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

15

namespace libyuv {

fbarchard@google.com

fe5ff7e

2011-12-10 07:45:58 +0000

[diff] [blame^]

16

extern "C" {

17

#endif

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

18

fbarchard@google.com

15c3d45

2011-11-17 22:13:17 +0000

[diff] [blame]

19

#if defined(__ARM_NEON__) && !defined(YUV_DISABLE_ASM)

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

20

fbarchard@google.com

2430e04

2011-11-11 21:57:06 +0000

[diff] [blame]

21

void ReverseRow_NEON(const uint8* src, uint8* dst, int width) {

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

22

asm volatile (

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

23

// compute where to start writing destination

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

24

"add %1, %2 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

25

26

// work on segments that are multiples of 16

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

27

"lsrs r3, %2, #4 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

28

29

// the output is written in two block. 8 bytes followed

30

// by another 8. reading is done sequentially, from left to

31

// right. writing is done from right to left in block sizes

32

// %1, the destination pointer is incremented after writing

33

// the first of the two blocks. need to subtract that 8 off

34

// along with 16 to get the next location.

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

35

"mov r3, #-24 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

36

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

37

"beq 2f \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

38

39

// back of destination by the size of the register that is

40

// going to be reversed

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

41

"sub %1, #16 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

42

43

// the loop needs to run on blocks of 16. what will be left

44

// over is either a negative number, the residuals that need

45

// to be done, or 0. if this isn't subtracted off here the

46

// loop will run one extra time.

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

47

"sub %2, #16 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

48

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

49

"1: \n"

50

"vld1.8 {q0}, [%0]! \n" // src += 16

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

51

52

// reverse the bytes in the 64 bit segments. unable to reverse

53

// the bytes in the entire 128 bits in one go.

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

54

"vrev64.8 q0, q0 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

55

56

// because of the inability to reverse the entire 128 bits

57

// reverse the writing out of the two 64 bit segments.

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

58

"vst1.8 {d1}, [%1]! \n"

59

"vst1.8 {d0}, [%1], r3 \n" // dst -= 16

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

60

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

61

"subs %2, #16 \n"

62

"bge 1b \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

63

64

// add 16 back to the counter. if the result is 0 there is no

65

// residuals so jump past

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

66

"adds %2, #16 \n"

67

"beq 5f \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

68

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

69

"add %1, #16 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

70

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

71

"2: \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

72

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

73

"mov r3, #-3 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

74

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

75

"sub %1, #2 \n"

76

"subs %2, #2 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

77

// check for 16*n+1 scenarios where segments_of_2 should not

78

// be run, but there is something left over.

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

79

"blt 4f \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

80

81

// do this in neon registers as per

82

// http://blogs.arm.com/software-enablement/196-coding-for-neon-part-2-dealing-with-leftovers/

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

83

"3: \n"

84

"vld2.8 {d0[0], d1[0]}, [%0]! \n" // src += 2

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

85

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

86

"vst1.8 {d1[0]}, [%1]! \n"

87

"vst1.8 {d0[0]}, [%1], r3 \n" // dst -= 2

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

88

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

89

"subs %2, #2 \n"

90

"bge 3b \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

91

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

92

"adds %2, #2 \n"

93

"beq 5f \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

94

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

95

"4: \n"

96

"add %1, #1 \n"

97

"vld1.8 {d0[0]}, [%0] \n"

98

"vst1.8 {d0[0]}, [%1] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

99

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

100

"5: \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

: "+r"(src), // %0

"+r"(dst), // %1

"+r"(width) // %2

:

: "memory", "cc", "r3", "q0"

);

}

static const uint8 vtbl_4x4_transpose[16] __attribute__((vector_size(16))) =

110

{ 0, 4, 8, 12, 1, 5, 9, 13, 2, 6, 10, 14, 3, 7, 11, 15 };

111

112

void TransposeWx8_NEON(const uint8* src, int src_stride,

113

uint8* dst, int dst_stride,

114

int width) {

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

115

asm volatile (

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

116

// loops are on blocks of 8. loop will stop when

117

// counter gets to or below 0. starting the counter

118

// at w-8 allow for this

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

119

"sub %4, #8 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

120

121

// handle 8x8 blocks. this should be the majority of the plane

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

122

"1: \n"

123

"mov r9, %0 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

124

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

125

"vld1.8 {d0}, [r9], %1 \n"

126

"vld1.8 {d1}, [r9], %1 \n"

127

"vld1.8 {d2}, [r9], %1 \n"

128

"vld1.8 {d3}, [r9], %1 \n"

129

"vld1.8 {d4}, [r9], %1 \n"

130

"vld1.8 {d5}, [r9], %1 \n"

131

"vld1.8 {d6}, [r9], %1 \n"

132

"vld1.8 {d7}, [r9] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

133

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

"vtrn.8 d1, d0 \n"

"vtrn.8 d3, d2 \n"

"vtrn.8 d5, d4 \n"

"vtrn.8 d7, d6 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

138

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

"vtrn.16 d1, d3 \n"

"vtrn.16 d0, d2 \n"

"vtrn.16 d5, d7 \n"

"vtrn.16 d4, d6 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

143

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

"vtrn.32 d1, d5 \n"

"vtrn.32 d0, d4 \n"

"vtrn.32 d3, d7 \n"

"vtrn.32 d2, d6 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

148

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

"vrev16.8 q0, q0 \n"

"vrev16.8 q1, q1 \n"

"vrev16.8 q2, q2 \n"

"vrev16.8 q3, q3 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

153

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

154

"mov r9, %2 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

155

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

156

"vst1.8 {d1}, [r9], %3 \n"

157

"vst1.8 {d0}, [r9], %3 \n"

158

"vst1.8 {d3}, [r9], %3 \n"

159

"vst1.8 {d2}, [r9], %3 \n"

160

"vst1.8 {d5}, [r9], %3 \n"

161

"vst1.8 {d4}, [r9], %3 \n"

162

"vst1.8 {d7}, [r9], %3 \n"

163

"vst1.8 {d6}, [r9] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

164

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

165

"add %0, #8 \n" // src += 8

166

"add %2, %2, %3, lsl #3 \n" // dst += 8 * dst_stride

167

"subs %4, #8 \n" // w -= 8

168

"bge 1b \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

169

170

// add 8 back to counter. if the result is 0 there are

171

// no residuals.

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

172

"adds %4, #8 \n"

173

"beq 4f \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

174

175

// some residual, so between 1 and 7 lines left to transpose

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

176

"cmp %4, #2 \n"

177

"blt 3f \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

178

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

179

"cmp %4, #4 \n"

180

"blt 2f \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

181

182

// 4x8 block

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

183

"mov r9, %0 \n"

184

"vld1.32 {d0[0]}, [r9], %1 \n"

185

"vld1.32 {d0[1]}, [r9], %1 \n"

186

"vld1.32 {d1[0]}, [r9], %1 \n"

187

"vld1.32 {d1[1]}, [r9], %1 \n"

188

"vld1.32 {d2[0]}, [r9], %1 \n"

189

"vld1.32 {d2[1]}, [r9], %1 \n"

190

"vld1.32 {d3[0]}, [r9], %1 \n"

191

"vld1.32 {d3[1]}, [r9] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

192

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

193

"mov r9, %2 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

194

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

195

"vld1.8 {q3}, [%5] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

196

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

197

"vtbl.8 d4, {d0, d1}, d6 \n"

198

"vtbl.8 d5, {d0, d1}, d7 \n"

199

"vtbl.8 d0, {d2, d3}, d6 \n"

200

"vtbl.8 d1, {d2, d3}, d7 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

201

202

// TODO: rework shuffle above to write

203

// out with 4 instead of 8 writes

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

204

"vst1.32 {d4[0]}, [r9], %3 \n"

205

"vst1.32 {d4[1]}, [r9], %3 \n"

206

"vst1.32 {d5[0]}, [r9], %3 \n"

207

"vst1.32 {d5[1]}, [r9] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

208

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

209

"add r9, %2, #4 \n"

210

"vst1.32 {d0[0]}, [r9], %3 \n"

211

"vst1.32 {d0[1]}, [r9], %3 \n"

212

"vst1.32 {d1[0]}, [r9], %3 \n"

213

"vst1.32 {d1[1]}, [r9] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

214

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

215

"add %0, #4 \n" // src += 4

216

"add %2, %2, %3, lsl #2 \n" // dst += 4 * dst_stride

217

"subs %4, #4 \n" // w -= 4

218

"beq 4f \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

219

220

// some residual, check to see if it includes a 2x8 block,

221

// or less

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

222

"cmp %4, #2 \n"

223

"blt 3f \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

224

225

// 2x8 block

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

226

"2: \n"

227

"mov r9, %0 \n"

228

"vld1.16 {d0[0]}, [r9], %1 \n"

229

"vld1.16 {d1[0]}, [r9], %1 \n"

230

"vld1.16 {d0[1]}, [r9], %1 \n"

231

"vld1.16 {d1[1]}, [r9], %1 \n"

232

"vld1.16 {d0[2]}, [r9], %1 \n"

233

"vld1.16 {d1[2]}, [r9], %1 \n"

234

"vld1.16 {d0[3]}, [r9], %1 \n"

235

"vld1.16 {d1[3]}, [r9] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

236

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

237

"vtrn.8 d0, d1 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

238

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

239

"mov r9, %2 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

240

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

241

"vst1.64 {d0}, [r9], %3 \n"

242

"vst1.64 {d1}, [r9] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

243

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

244

"add %0, #2 \n" // src += 2

245

"add %2, %2, %3, lsl #1 \n" // dst += 2 * dst_stride

246

"subs %4, #2 \n" // w -= 2

247

"beq 4f \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

248

249

// 1x8 block

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

250

"3: \n"

251

"vld1.8 {d0[0]}, [%0], %1 \n"

252

"vld1.8 {d0[1]}, [%0], %1 \n"

253

"vld1.8 {d0[2]}, [%0], %1 \n"

254

"vld1.8 {d0[3]}, [%0], %1 \n"

255

"vld1.8 {d0[4]}, [%0], %1 \n"

256

"vld1.8 {d0[5]}, [%0], %1 \n"

257

"vld1.8 {d0[6]}, [%0], %1 \n"

258

"vld1.8 {d0[7]}, [%0] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

259

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

260

"vst1.64 {d0}, [%2] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

261

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

262

"4: \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

263

264

: "+r"(src), // %0

265

"+r"(src_stride), // %1

266

"+r"(dst), // %2

267

"+r"(dst_stride), // %3

268

"+r"(width) // %4

269

: "r"(vtbl_4x4_transpose) // %5

270

: "memory", "cc", "r9", "q0", "q1", "q2", "q3"

);

}

fbarchard@google.com

2011-11-11 21:57:06 +0000

[diff] [blame]

274

void ReverseRowUV_NEON(const uint8* src,

275

uint8* dst_a, uint8* dst_b,

276

int width) {

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

277

asm volatile (

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

278

// compute where to start writing destination

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

279

"add %1, %3 \n" // dst_a + width

280

"add %2, %3 \n" // dst_b + width

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

281

282

// work on input segments that are multiples of 16, but

283

// width that has been passed is output segments, half

284

// the size of input.

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

285

"lsrs r12, %3, #3 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

286

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

287

"beq 2f \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

288

289

// the output is written in to two blocks.

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

290

"mov r12, #-8 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

291

292

// back of destination by the size of the register that is

293

// going to be reversed

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

294

"sub %1, #8 \n"

295

"sub %2, #8 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

296

297

// the loop needs to run on blocks of 8. what will be left

298

// over is either a negative number, the residuals that need

299

// to be done, or 0. if this isn't subtracted off here the

300

// loop will run one extra time.

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

301

"sub %3, #8 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

302

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

303

"1: \n"

304

"vld2.8 {d0, d1}, [%0]! \n" // src += 16

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

305

306

// reverse the bytes in the 64 bit segments

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

307

"vrev64.8 q0, q0 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

308

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

309

"vst1.8 {d0}, [%1], r12 \n" // dst_a -= 8

310

"vst1.8 {d1}, [%2], r12 \n" // dst_b -= 8

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

311

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

312

"subs %3, #8 \n"

313

"bge 1b \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

314

315

// add 8 back to the counter. if the result is 0 there is no

316

// residuals so return

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

317

"adds %3, #8 \n"

318

"beq 4f \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

319

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

320

"add %1, #8 \n"

321

"add %2, #8 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

322

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

323

"2: \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

324

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

325

"mov r12, #-1 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

326

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

327

"sub %1, #1 \n"

328

"sub %2, #1 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

329

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

330

"3: \n"

331

"vld2.8 {d0[0], d1[0]}, [%0]! \n" // src += 2

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

332

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

333

"vst1.8 {d0[0]}, [%1], r12 \n" // dst_a -= 1

334

"vst1.8 {d1[0]}, [%2], r12 \n" // dst_b -= 1

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

335

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

336

"subs %3, %3, #1 \n"

337

"bgt 3b \n"

338

"4: \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

: "+r"(src), // %0

"+r"(dst_a), // %1

"+r"(dst_b), // %2

"+r"(width) // %3

:

: "memory", "cc", "r12", "q0"

);

}

static const uint8 vtbl_4x4_transpose_di[16] __attribute__((vector_size(16))) =

349

{ 0, 8, 1, 9, 2, 10, 3, 11, 4, 12, 5, 13, 6, 14, 7, 15 };

350

351

void TransposeUVWx8_NEON(const uint8* src, int src_stride,

352

uint8* dst_a, int dst_stride_a,

353

uint8* dst_b, int dst_stride_b,

354

int width) {

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

355

asm volatile (

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

356

// loops are on blocks of 8. loop will stop when

357

// counter gets to or below 0. starting the counter

358

// at w-8 allow for this

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

359

"sub %6, #8 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

360

361

// handle 8x8 blocks. this should be the majority of the plane

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

362

"1: \n"

363

"mov r9, %0 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

364

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

365

"vld2.8 {d0, d1}, [r9], %1 \n"

366

"vld2.8 {d2, d3}, [r9], %1 \n"

367

"vld2.8 {d4, d5}, [r9], %1 \n"

368

"vld2.8 {d6, d7}, [r9], %1 \n"

369

"vld2.8 {d16, d17}, [r9], %1 \n"

370

"vld2.8 {d18, d19}, [r9], %1 \n"

371

"vld2.8 {d20, d21}, [r9], %1 \n"

372

"vld2.8 {d22, d23}, [r9] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

373

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

"vtrn.8 q1, q0 \n"

"vtrn.8 q3, q2 \n"

"vtrn.8 q9, q8 \n"

"vtrn.8 q11, q10 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

378

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

"vtrn.16 q1, q3 \n"

"vtrn.16 q0, q2 \n"

"vtrn.16 q9, q11 \n"

"vtrn.16 q8, q10 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

383

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

"vtrn.32 q1, q9 \n"

"vtrn.32 q0, q8 \n"

"vtrn.32 q3, q11 \n"

"vtrn.32 q2, q10 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

388

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

"vrev16.8 q0, q0 \n"

"vrev16.8 q1, q1 \n"

"vrev16.8 q2, q2 \n"

"vrev16.8 q3, q3 \n"

"vrev16.8 q8, q8 \n"

"vrev16.8 q9, q9 \n"

"vrev16.8 q10, q10 \n"

396

"vrev16.8 q11, q11 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

397

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

398

"mov r9, %2 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

399

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

400

"vst1.8 {d2}, [r9], %3 \n"

401

"vst1.8 {d0}, [r9], %3 \n"

402

"vst1.8 {d6}, [r9], %3 \n"

403

"vst1.8 {d4}, [r9], %3 \n"

404

"vst1.8 {d18}, [r9], %3 \n"

405

"vst1.8 {d16}, [r9], %3 \n"

406

"vst1.8 {d22}, [r9], %3 \n"

407

"vst1.8 {d20}, [r9] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

408

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

409

"mov r9, %4 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

410

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

411

"vst1.8 {d3}, [r9], %5 \n"

412

"vst1.8 {d1}, [r9], %5 \n"

413

"vst1.8 {d7}, [r9], %5 \n"

414

"vst1.8 {d5}, [r9], %5 \n"

415

"vst1.8 {d19}, [r9], %5 \n"

416

"vst1.8 {d17}, [r9], %5 \n"

417

"vst1.8 {d23}, [r9], %5 \n"

418

"vst1.8 {d21}, [r9] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

419

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

420

"add %0, #8*2 \n" // src += 8*2

421

"add %2, %2, %3, lsl #3 \n" // dst_a += 8 * dst_stride_a

422

"add %4, %4, %5, lsl #3 \n" // dst_b += 8 * dst_stride_b

423

"subs %6, #8 \n" // w -= 8

424

"bge 1b \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

425

426

// add 8 back to counter. if the result is 0 there are

427

// no residuals.

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

428

"adds %6, #8 \n"

429

"beq 4f \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

430

431

// some residual, so between 1 and 7 lines left to transpose

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

432

"cmp %6, #2 \n"

433

"blt 3f \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

434

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

435

"cmp %6, #4 \n"

436

"blt 2f \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

437

438

//TODO(frkoenig) : clean this up

439

// 4x8 block

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

440

"mov r9, %0 \n"

441

"vld1.64 {d0}, [r9], %1 \n"

442

"vld1.64 {d1}, [r9], %1 \n"

443

"vld1.64 {d2}, [r9], %1 \n"

444

"vld1.64 {d3}, [r9], %1 \n"

445

"vld1.64 {d4}, [r9], %1 \n"

446

"vld1.64 {d5}, [r9], %1 \n"

447

"vld1.64 {d6}, [r9], %1 \n"

448

"vld1.64 {d7}, [r9] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

449

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

450

"vld1.8 {q15}, [%7] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

451

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

452

"vtrn.8 q0, q1 \n"

453

"vtrn.8 q2, q3 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

454

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

455

"vtbl.8 d16, {d0, d1}, d30 \n"

456

"vtbl.8 d17, {d0, d1}, d31 \n"

457

"vtbl.8 d18, {d2, d3}, d30 \n"

458

"vtbl.8 d19, {d2, d3}, d31 \n"

459

"vtbl.8 d20, {d4, d5}, d30 \n"

460

"vtbl.8 d21, {d4, d5}, d31 \n"

461

"vtbl.8 d22, {d6, d7}, d30 \n"

462

"vtbl.8 d23, {d6, d7}, d31 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

463

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

464

"mov r9, %2 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

465

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

466

"vst1.32 {d16[0]}, [r9], %3 \n"

467

"vst1.32 {d16[1]}, [r9], %3 \n"

468

"vst1.32 {d17[0]}, [r9], %3 \n"

469

"vst1.32 {d17[1]}, [r9], %3 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

470

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

471

"add r9, %2, #4 \n"

472

"vst1.32 {d20[0]}, [r9], %3 \n"

473

"vst1.32 {d20[1]}, [r9], %3 \n"

474

"vst1.32 {d21[0]}, [r9], %3 \n"

475

"vst1.32 {d21[1]}, [r9] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

476

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

477

"mov r9, %4 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

478

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

479

"vst1.32 {d18[0]}, [r9], %5 \n"

480

"vst1.32 {d18[1]}, [r9], %5 \n"

481

"vst1.32 {d19[0]}, [r9], %5 \n"

482

"vst1.32 {d19[1]}, [r9], %5 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

483

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

484

"add r9, %4, #4 \n"

485

"vst1.32 {d22[0]}, [r9], %5 \n"

486

"vst1.32 {d22[1]}, [r9], %5 \n"

487

"vst1.32 {d23[0]}, [r9], %5 \n"

488

"vst1.32 {d23[1]}, [r9] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

489

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

490

"add %0, #4*2 \n" // src += 4 * 2

491

"add %2, %2, %3, lsl #2 \n" // dst_a += 4 * dst_stride_a

492

"add %4, %4, %5, lsl #2 \n" // dst_b += 4 * dst_stride_b

493

"subs %6, #4 \n" // w -= 4

494

"beq 4f \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

495

496

// some residual, check to see if it includes a 2x8 block,

497

// or less

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

498

"cmp %6, #2 \n"

499

"blt 3f \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

500

501

// 2x8 block

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

502

"2: \n"

503

"mov r9, %0 \n"

504

"vld2.16 {d0[0], d2[0]}, [r9], %1 \n"

505

"vld2.16 {d1[0], d3[0]}, [r9], %1 \n"

506

"vld2.16 {d0[1], d2[1]}, [r9], %1 \n"

507

"vld2.16 {d1[1], d3[1]}, [r9], %1 \n"

508

"vld2.16 {d0[2], d2[2]}, [r9], %1 \n"

509

"vld2.16 {d1[2], d3[2]}, [r9], %1 \n"

510

"vld2.16 {d0[3], d2[3]}, [r9], %1 \n"

511

"vld2.16 {d1[3], d3[3]}, [r9] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

512

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

513

"vtrn.8 d0, d1 \n"

514

"vtrn.8 d2, d3 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

515

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

516

"mov r9, %2 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

517

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

518

"vst1.64 {d0}, [r9], %3 \n"

519

"vst1.64 {d2}, [r9] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

520

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

521

"mov r9, %4 \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

522

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

523

"vst1.64 {d1}, [r9], %5 \n"

524

"vst1.64 {d3}, [r9] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

525

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

526

"add %0, #2*2 \n" // src += 2 * 2

527

"add %2, %2, %3, lsl #1 \n" // dst_a += 2 * dst_stride_a

528

"add %4, %4, %5, lsl #1 \n" // dst_b += 2 * dst_stride_b

529

"subs %6, #2 \n" // w -= 2

530

"beq 4f \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

531

532

// 1x8 block

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

533

"3: \n"

534

"vld2.8 {d0[0], d1[0]}, [%0], %1 \n"

535

"vld2.8 {d0[1], d1[1]}, [%0], %1 \n"

536

"vld2.8 {d0[2], d1[2]}, [%0], %1 \n"

537

"vld2.8 {d0[3], d1[3]}, [%0], %1 \n"

538

"vld2.8 {d0[4], d1[4]}, [%0], %1 \n"

539

"vld2.8 {d0[5], d1[5]}, [%0], %1 \n"

540

"vld2.8 {d0[6], d1[6]}, [%0], %1 \n"

541

"vld2.8 {d0[7], d1[7]}, [%0] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

542

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

543

"vst1.64 {d0}, [%2] \n"

544

"vst1.64 {d1}, [%4] \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

545

fbarchard@google.com

f7a5048

2011-11-10 22:41:20 +0000

[diff] [blame]

546

"4: \n"

frkoenig@google.com

f7e74a1

2011-11-03 22:41:59 +0000

[diff] [blame]

547

548

: "+r"(src), // %0

549

"+r"(src_stride), // %1

550

"+r"(dst_a), // %2

551

"+r"(dst_stride_a), // %3

552

"+r"(dst_b), // %4

553

"+r"(dst_stride_b), // %5

554

"+r"(width) // %6

555

: "r"(vtbl_4x4_transpose_di)// %7

556

: "memory", "cc", "r9",

557

"q0", "q1", "q2", "q3", "q8", "q9", "q10", "q11"

558

);

559

}

560

#endif

fbarchard@google.com

fe5ff7e

2011-12-10 07:45:58 +0000

[diff] [blame^]

#ifdef __cplusplus

} // extern "C"

} // namespace libyuv

565

#endif