Blame - lib/Target/ARM/ARMInstrNEON.td - platform/external/llvm

2009-06-22 23:27:02 +0000

[diff] [blame]

1

//===- ARMInstrNEON.td - NEON support for ARM -----------------------------===//

2

//

3

// The LLVM Compiler Infrastructure

4

//

5

// This file is distributed under the University of Illinois Open Source

6

// License. See LICENSE.TXT for details.

7

//

8

//===----------------------------------------------------------------------===//

9

//

10

// This file describes the ARM NEON instruction set.

11

//

12

//===----------------------------------------------------------------------===//

13

14

//===----------------------------------------------------------------------===//

15

// NEON-specific DAG Nodes.

16

//===----------------------------------------------------------------------===//

17

18

def SDTARMVCMP : SDTypeProfile<1, 2, [SDTCisInt<0>, SDTCisSameAs<1, 2>]>;

19

20

def NEONvceq : SDNode<"ARMISD::VCEQ", SDTARMVCMP>;

21

def NEONvcge : SDNode<"ARMISD::VCGE", SDTARMVCMP>;

22

def NEONvcgeu : SDNode<"ARMISD::VCGEU", SDTARMVCMP>;

23

def NEONvcgt : SDNode<"ARMISD::VCGT", SDTARMVCMP>;

24

def NEONvcgtu : SDNode<"ARMISD::VCGTU", SDTARMVCMP>;

25

def NEONvtst : SDNode<"ARMISD::VTST", SDTARMVCMP>;

26

27

// Types for vector shift by immediates. The "SHX" version is for long and

28

// narrow operations where the source and destination vectors have different

29

// types. The "SHINS" version is for shift and insert operations.

30

def SDTARMVSH : SDTypeProfile<1, 2, [SDTCisInt<0>, SDTCisSameAs<0, 1>,

31

SDTCisVT<2, i32>]>;

32

def SDTARMVSHX : SDTypeProfile<1, 2, [SDTCisInt<0>, SDTCisInt<1>,

33

SDTCisVT<2, i32>]>;

34

def SDTARMVSHINS : SDTypeProfile<1, 3, [SDTCisInt<0>, SDTCisSameAs<0, 1>,

35

SDTCisSameAs<0, 2>, SDTCisVT<3, i32>]>;

36

37

def NEONvshl : SDNode<"ARMISD::VSHL", SDTARMVSH>;

38

def NEONvshrs : SDNode<"ARMISD::VSHRs", SDTARMVSH>;

39

def NEONvshru : SDNode<"ARMISD::VSHRu", SDTARMVSH>;

40

def NEONvshlls : SDNode<"ARMISD::VSHLLs", SDTARMVSHX>;

41

def NEONvshllu : SDNode<"ARMISD::VSHLLu", SDTARMVSHX>;

42

def NEONvshlli : SDNode<"ARMISD::VSHLLi", SDTARMVSHX>;

43

def NEONvshrn : SDNode<"ARMISD::VSHRN", SDTARMVSHX>;

44

45

def NEONvrshrs : SDNode<"ARMISD::VRSHRs", SDTARMVSH>;

46

def NEONvrshru : SDNode<"ARMISD::VRSHRu", SDTARMVSH>;

47

def NEONvrshrn : SDNode<"ARMISD::VRSHRN", SDTARMVSHX>;

48

49

def NEONvqshls : SDNode<"ARMISD::VQSHLs", SDTARMVSH>;

50

def NEONvqshlu : SDNode<"ARMISD::VQSHLu", SDTARMVSH>;

51

def NEONvqshlsu : SDNode<"ARMISD::VQSHLsu", SDTARMVSH>;

52

def NEONvqshrns : SDNode<"ARMISD::VQSHRNs", SDTARMVSHX>;

53

def NEONvqshrnu : SDNode<"ARMISD::VQSHRNu", SDTARMVSHX>;

54

def NEONvqshrnsu : SDNode<"ARMISD::VQSHRNsu", SDTARMVSHX>;

55

56

def NEONvqrshrns : SDNode<"ARMISD::VQRSHRNs", SDTARMVSHX>;

57

def NEONvqrshrnu : SDNode<"ARMISD::VQRSHRNu", SDTARMVSHX>;

58

def NEONvqrshrnsu : SDNode<"ARMISD::VQRSHRNsu", SDTARMVSHX>;

59

60

def NEONvsli : SDNode<"ARMISD::VSLI", SDTARMVSHINS>;

61

def NEONvsri : SDNode<"ARMISD::VSRI", SDTARMVSHINS>;

62

63

def SDTARMVGETLN : SDTypeProfile<1, 2, [SDTCisVT<0, i32>, SDTCisInt<1>,

64

SDTCisVT<2, i32>]>;

65

def NEONvgetlaneu : SDNode<"ARMISD::VGETLANEu", SDTARMVGETLN>;

66

def NEONvgetlanes : SDNode<"ARMISD::VGETLANEs", SDTARMVGETLN>;

67

68

def NEONvduplaneq : SDNode<"ARMISD::VDUPLANEQ",

69

SDTypeProfile<1, 2, [SDTCisVT<2, i32>]>>;

70

Bob Wilson

055a90d

2009-08-05 00:49:09 +0000

[diff] [blame^]

71

def SDTARMVLD2 : SDTypeProfile<2, 1, [SDTCisSameAs<0, 1>, SDTCisPtrTy<2>]>;

72

def SDTARMVLD3 : SDTypeProfile<3, 1, [SDTCisSameAs<0, 1>,

73

SDTCisSameAs<0, 2>, SDTCisPtrTy<3>]>;

74

def SDTARMVLD4 : SDTypeProfile<4, 1, [SDTCisSameAs<0, 1>,

75

SDTCisSameAs<0, 2>,

76

SDTCisSameAs<0, 3>, SDTCisPtrTy<4>]>;

77

def NEONvld2d : SDNode<"ARMISD::VLD2D", SDTARMVLD2,

78

[SDNPHasChain, SDNPMayLoad]>;

79

def NEONvld3d : SDNode<"ARMISD::VLD3D", SDTARMVLD3,

80

[SDNPHasChain, SDNPMayLoad]>;

81

def NEONvld4d : SDNode<"ARMISD::VLD4D", SDTARMVLD4,

82

[SDNPHasChain, SDNPMayLoad]>;

Bob Wilson

d2a2e00

2009-08-04 00:36:16 +0000

[diff] [blame]

83

Bob Wilson

2009-06-22 23:27:02 +0000

[diff] [blame]

84

//===----------------------------------------------------------------------===//

85

// NEON operand definitions

86

//===----------------------------------------------------------------------===//

87

88

// addrmode_neonldstm := reg

89

//

90

/* TODO: Take advantage of vldm.

91

def addrmode_neonldstm : Operand<i32>,

92

ComplexPattern<i32, 2, "SelectAddrModeNeonLdStM", []> {

93

let PrintMethod = "printAddrNeonLdStMOperand";

94

let MIOperandInfo = (ops GPR, i32imm);

}

*/

//===----------------------------------------------------------------------===//

99

// NEON load / store instructions

100

//===----------------------------------------------------------------------===//

101

102

/* TODO: Take advantage of vldm.

103

let mayLoad = 1 in {

104

def VLDMD : NI<(outs),

105

(ins addrmode_neonldstm:$addr, reglist:$dst1, variable_ops),

106

"vldm${addr:submode} ${addr:base}, $dst1",

Evan Cheng

2009-07-08 22:51:32 +0000

[diff] [blame]

107

[]> {

108

let Inst{27-25} = 0b110;

109

let Inst{20} = 1;

110

let Inst{11-9} = 0b101;

111

}

Bob Wilson

2009-06-22 23:27:02 +0000

[diff] [blame]

112

113

def VLDMS : NI<(outs),

114

(ins addrmode_neonldstm:$addr, reglist:$dst1, variable_ops),

115

"vldm${addr:submode} ${addr:base}, $dst1",

Evan Cheng

2009-07-08 22:51:32 +0000

[diff] [blame]

116

[]> {

117

let Inst{27-25} = 0b110;

118

let Inst{20} = 1;

119

let Inst{11-9} = 0b101;

120

}

Bob Wilson

2009-06-22 23:27:02 +0000

[diff] [blame]

}

*/

// Use vldmia to load a Q register as a D register pair.

125

def VLDRQ : NI<(outs QPR:$dst), (ins GPR:$addr),

126

"vldmia $addr, ${dst:dregpair}",

Evan Cheng

2009-07-08 22:51:32 +0000

[diff] [blame]

127

[(set QPR:$dst, (v2f64 (load GPR:$addr)))]> {

128

let Inst{27-25} = 0b110;

129

let Inst{24} = 0; // P bit

130

let Inst{23} = 1; // U bit

131

let Inst{20} = 1;

132

let Inst{11-9} = 0b101;

133

}

Bob Wilson

2009-06-22 23:27:02 +0000

[diff] [blame]

134

135

// Use vstmia to store a Q register as a D register pair.

136

def VSTRQ : NI<(outs), (ins QPR:$src, GPR:$addr),

137

"vstmia $addr, ${src:dregpair}",

Evan Cheng

2009-07-08 22:51:32 +0000

[diff] [blame]

138

[(store (v2f64 QPR:$src), GPR:$addr)]> {

139

let Inst{27-25} = 0b110;

140

let Inst{24} = 0; // P bit

141

let Inst{23} = 1; // U bit

142

let Inst{20} = 0;

143

let Inst{11-9} = 0b101;

144

}

Bob Wilson

2009-06-22 23:27:02 +0000

[diff] [blame]

145

146

Bob Wilson

2009-07-08 18:11:30 +0000

[diff] [blame]

147

// VLD1 : Vector Load (multiple single elements)

148

class VLD1D<string OpcodeStr, ValueType Ty, Intrinsic IntOp>

149

: NLdSt<(outs DPR:$dst), (ins addrmode6:$addr),

Bob Wilson

560d2d0

2009-08-04 21:39:33 +0000

[diff] [blame]

150

!strconcat(OpcodeStr, "\t\\{$dst\\}, $addr"),

Bob Wilson

2009-07-29 16:39:22 +0000

[diff] [blame]

151

[(set DPR:$dst, (Ty (IntOp addrmode6:$addr)))]>;

Bob Wilson

2009-07-08 18:11:30 +0000

[diff] [blame]

152

class VLD1Q<string OpcodeStr, ValueType Ty, Intrinsic IntOp>

153

: NLdSt<(outs QPR:$dst), (ins addrmode6:$addr),

154

!strconcat(OpcodeStr, "\t${dst:dregpair}, $addr"),

Bob Wilson

2009-07-29 16:39:22 +0000

[diff] [blame]

155

[(set QPR:$dst, (Ty (IntOp addrmode6:$addr)))]>;

Bob Wilson

2009-07-08 18:11:30 +0000

[diff] [blame]

156

Bob Wilson

2009-07-29 16:39:22 +0000

[diff] [blame]

157

def VLD1d8 : VLD1D<"vld1.8", v8i8, int_arm_neon_vld1i>;

158

def VLD1d16 : VLD1D<"vld1.16", v4i16, int_arm_neon_vld1i>;

159

def VLD1d32 : VLD1D<"vld1.32", v2i32, int_arm_neon_vld1i>;

160

def VLD1df : VLD1D<"vld1.32", v2f32, int_arm_neon_vld1f>;

161

def VLD1d64 : VLD1D<"vld1.64", v1i64, int_arm_neon_vld1i>;

Bob Wilson

2009-07-08 18:11:30 +0000

[diff] [blame]

162

Bob Wilson

2009-07-29 16:39:22 +0000

[diff] [blame]

163

def VLD1q8 : VLD1Q<"vld1.8", v16i8, int_arm_neon_vld1i>;

164

def VLD1q16 : VLD1Q<"vld1.16", v8i16, int_arm_neon_vld1i>;

165

def VLD1q32 : VLD1Q<"vld1.32", v4i32, int_arm_neon_vld1i>;

166

def VLD1qf : VLD1Q<"vld1.32", v4f32, int_arm_neon_vld1f>;

167

def VLD1q64 : VLD1Q<"vld1.64", v2i64, int_arm_neon_vld1i>;

Bob Wilson

2009-07-08 18:11:30 +0000

[diff] [blame]

168

Bob Wilson

2009-07-08 20:32:02 +0000

[diff] [blame]

169

// VST1 : Vector Store (multiple single elements)

170

class VST1D<string OpcodeStr, ValueType Ty, Intrinsic IntOp>

171

: NLdSt<(outs), (ins addrmode6:$addr, DPR:$src),

Bob Wilson

560d2d0

2009-08-04 21:39:33 +0000

[diff] [blame]

172

!strconcat(OpcodeStr, "\t\\{$src\\}, $addr"),

Bob Wilson

2009-07-29 16:39:22 +0000

[diff] [blame]

173

[(IntOp addrmode6:$addr, (Ty DPR:$src))]>;

Bob Wilson

2009-07-08 20:32:02 +0000

[diff] [blame]

174

class VST1Q<string OpcodeStr, ValueType Ty, Intrinsic IntOp>

175

: NLdSt<(outs), (ins addrmode6:$addr, QPR:$src),

176

!strconcat(OpcodeStr, "\t${src:dregpair}, $addr"),

Bob Wilson

2009-07-29 16:39:22 +0000

[diff] [blame]

177

[(IntOp addrmode6:$addr, (Ty QPR:$src))]>;

Bob Wilson

2009-07-08 20:32:02 +0000

[diff] [blame]

178

Bob Wilson

2009-07-29 16:39:22 +0000

[diff] [blame]

179

def VST1d8 : VST1D<"vst1.8", v8i8, int_arm_neon_vst1i>;

180

def VST1d16 : VST1D<"vst1.16", v4i16, int_arm_neon_vst1i>;

181

def VST1d32 : VST1D<"vst1.32", v2i32, int_arm_neon_vst1i>;

182

def VST1df : VST1D<"vst1.32", v2f32, int_arm_neon_vst1f>;

183

def VST1d64 : VST1D<"vst1.64", v1i64, int_arm_neon_vst1i>;

Bob Wilson

2009-07-08 20:32:02 +0000

[diff] [blame]

184

Bob Wilson

2009-07-29 16:39:22 +0000

[diff] [blame]

185

def VST1q8 : VST1Q<"vst1.8", v16i8, int_arm_neon_vst1i>;

186

def VST1q16 : VST1Q<"vst1.16", v8i16, int_arm_neon_vst1i>;

187

def VST1q32 : VST1Q<"vst1.32", v4i32, int_arm_neon_vst1i>;

188

def VST1qf : VST1Q<"vst1.32", v4f32, int_arm_neon_vst1f>;

189

def VST1q64 : VST1Q<"vst1.64", v2i64, int_arm_neon_vst1i>;

Bob Wilson

2009-07-08 20:32:02 +0000

[diff] [blame]

190

Bob Wilson

055a90d

2009-08-05 00:49:09 +0000

[diff] [blame^]

191

// VLD2 : Vector Load (multiple 2-element structures)

192

class VLD2D<string OpcodeStr>

193

: NLdSt<(outs DPR:$dst1, DPR:$dst2), (ins addrmode6:$addr),

194

!strconcat(OpcodeStr, "\t\\{$dst1,$dst2\\}, $addr"), []>;

195

196

def VLD2d8 : VLD2D<"vld2.8">;

197

def VLD2d16 : VLD2D<"vld2.16">;

198

def VLD2d32 : VLD2D<"vld2.32">;

199

def VLD2d64 : VLD2D<"vld2.64">;

200

201

// VLD3 : Vector Load (multiple 3-element structures)

202

class VLD3D<string OpcodeStr>

203

: NLdSt<(outs DPR:$dst1, DPR:$dst2, DPR:$dst3), (ins addrmode6:$addr),

204

!strconcat(OpcodeStr, "\t\\{$dst1,$dst2,$dst3\\}, $addr"), []>;

205

206

def VLD3d8 : VLD3D<"vld3.8">;

207

def VLD3d16 : VLD3D<"vld3.16">;

208

def VLD3d32 : VLD3D<"vld3.32">;

209

def VLD3d64 : VLD3D<"vld3.64">;

210

211

// VLD4 : Vector Load (multiple 4-element structures)

212

class VLD4D<string OpcodeStr>

213

: NLdSt<(outs DPR:$dst1, DPR:$dst2, DPR:$dst3, DPR:$dst4),

214

(ins addrmode6:$addr),

215

!strconcat(OpcodeStr, "\t\\{$dst1,$dst2,$dst3,$dst4\\}, $addr"), []>;

216

217

def VLD4d8 : VLD4D<"vld4.8">;

218

def VLD4d16 : VLD4D<"vld4.16">;

219

def VLD4d32 : VLD4D<"vld4.32">;

220

def VLD4d64 : VLD4D<"vld4.64">;

221

Bob Wilson

2009-07-08 18:11:30 +0000

[diff] [blame]

222

Bob Wilson

2009-06-22 23:27:02 +0000

[diff] [blame]

223

//===----------------------------------------------------------------------===//

224

// NEON pattern fragments

225

//===----------------------------------------------------------------------===//

226

227

// Extract D sub-registers of Q registers.

228

// (arm_dsubreg_0 is 5; arm_dsubreg_1 is 6)

229

def SubReg_i8_reg : SDNodeXForm<imm, [{

230

return CurDAG->getTargetConstant(5 + N->getZExtValue() / 8, MVT::i32);

231

}]>;

232

def SubReg_i16_reg : SDNodeXForm<imm, [{

233

return CurDAG->getTargetConstant(5 + N->getZExtValue() / 4, MVT::i32);

234

}]>;

235

def SubReg_i32_reg : SDNodeXForm<imm, [{

236

return CurDAG->getTargetConstant(5 + N->getZExtValue() / 2, MVT::i32);

237

}]>;

238

def SubReg_f64_reg : SDNodeXForm<imm, [{

239

return CurDAG->getTargetConstant(5 + N->getZExtValue(), MVT::i32);

240

}]>;

241

242

// Translate lane numbers from Q registers to D subregs.

243

def SubReg_i8_lane : SDNodeXForm<imm, [{

244

return CurDAG->getTargetConstant(N->getZExtValue() & 7, MVT::i32);

245

}]>;

246

def SubReg_i16_lane : SDNodeXForm<imm, [{

247

return CurDAG->getTargetConstant(N->getZExtValue() & 3, MVT::i32);

248

}]>;

249

def SubReg_i32_lane : SDNodeXForm<imm, [{

250

return CurDAG->getTargetConstant(N->getZExtValue() & 1, MVT::i32);

251

}]>;

252

253

//===----------------------------------------------------------------------===//

254

// Instruction Classes

255

//===----------------------------------------------------------------------===//

256

257

// Basic 2-register operations, both double- and quad-register.

258

class N2VD<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,

259

bits<2> op17_16, bits<5> op11_7, bit op4, string OpcodeStr,

260

ValueType ResTy, ValueType OpTy, SDNode OpNode>

261

: N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 0, op4, (outs DPR:$dst),

262

(ins DPR:$src), !strconcat(OpcodeStr, "\t$dst, $src"), "",

263

[(set DPR:$dst, (ResTy (OpNode (OpTy DPR:$src))))]>;

264

class N2VQ<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,

265

bits<2> op17_16, bits<5> op11_7, bit op4, string OpcodeStr,

266

ValueType ResTy, ValueType OpTy, SDNode OpNode>

267

: N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 1, op4, (outs QPR:$dst),

268

(ins QPR:$src), !strconcat(OpcodeStr, "\t$dst, $src"), "",

269

[(set QPR:$dst, (ResTy (OpNode (OpTy QPR:$src))))]>;

270

271

// Basic 2-register intrinsics, both double- and quad-register.

272

class N2VDInt<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,

273

bits<2> op17_16, bits<5> op11_7, bit op4, string OpcodeStr,

274

ValueType ResTy, ValueType OpTy, Intrinsic IntOp>

275

: N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 0, op4, (outs DPR:$dst),

276

(ins DPR:$src), !strconcat(OpcodeStr, "\t$dst, $src"), "",

277

[(set DPR:$dst, (ResTy (IntOp (OpTy DPR:$src))))]>;

278

class N2VQInt<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,

279

bits<2> op17_16, bits<5> op11_7, bit op4, string OpcodeStr,

280

ValueType ResTy, ValueType OpTy, Intrinsic IntOp>

281

: N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 1, op4, (outs QPR:$dst),

282

(ins QPR:$src), !strconcat(OpcodeStr, "\t$dst, $src"), "",

283

[(set QPR:$dst, (ResTy (IntOp (OpTy QPR:$src))))]>;

284

David Goodwin

bc7c05e

2009-08-04 20:39:05 +0000

[diff] [blame]

285

// Basic 2-register operations, scalar single-precision

286

class N2VDInts<SDNode OpNode, NeonI Inst>

287

: NEONFPPat<(f32 (OpNode SPR:$a)),

288

(EXTRACT_SUBREG (Inst (INSERT_SUBREG (v2f32 (IMPLICIT_DEF)), SPR:$a, arm_ssubreg_0)),

289

arm_ssubreg_0)>;

290

Bob Wilson

2009-06-22 23:27:02 +0000

[diff] [blame]

291

// Narrow 2-register intrinsics.

292

class N2VNInt<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,

293

bits<2> op17_16, bits<5> op11_7, bit op6, bit op4,

294

string OpcodeStr, ValueType TyD, ValueType TyQ, Intrinsic IntOp>

295

: N2V<op24_23, op21_20, op19_18, op17_16, op11_7, op6, op4, (outs DPR:$dst),

296

(ins QPR:$src), !strconcat(OpcodeStr, "\t$dst, $src"), "",

297

[(set DPR:$dst, (TyD (IntOp (TyQ QPR:$src))))]>;

298

299

// Long 2-register intrinsics. (This is currently only used for VMOVL and is

300

// derived from N2VImm instead of N2V because of the way the size is encoded.)

301

class N2VLInt<bit op24, bit op23, bits<6> op21_16, bits<4> op11_8, bit op7,

302

bit op6, bit op4, string OpcodeStr, ValueType TyQ, ValueType TyD,

303

Intrinsic IntOp>

304

: N2VImm<op24, op23, op21_16, op11_8, op7, op6, op4, (outs QPR:$dst),

305

(ins DPR:$src), !strconcat(OpcodeStr, "\t$dst, $src"), "",

306

[(set QPR:$dst, (TyQ (IntOp (TyD DPR:$src))))]>;

307

308

// Basic 3-register operations, both double- and quad-register.

309

class N3VD<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,

310

string OpcodeStr, ValueType ResTy, ValueType OpTy,

311

SDNode OpNode, bit Commutable>

312

: N3V<op24, op23, op21_20, op11_8, 0, op4,

313

(outs DPR:$dst), (ins DPR:$src1, DPR:$src2),

314

!strconcat(OpcodeStr, "\t$dst, $src1, $src2"), "",

315

[(set DPR:$dst, (ResTy (OpNode (OpTy DPR:$src1), (OpTy DPR:$src2))))]> {

316

let isCommutable = Commutable;

317

}

318

class N3VQ<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,

319

string OpcodeStr, ValueType ResTy, ValueType OpTy,

320

SDNode OpNode, bit Commutable>

321

: N3V<op24, op23, op21_20, op11_8, 1, op4,

322

(outs QPR:$dst), (ins QPR:$src1, QPR:$src2),

323

!strconcat(OpcodeStr, "\t$dst, $src1, $src2"), "",

324

[(set QPR:$dst, (ResTy (OpNode (OpTy QPR:$src1), (OpTy QPR:$src2))))]> {

325

let isCommutable = Commutable;

326

}

327

David Goodwin

2009-08-04 17:53:06 +0000

[diff] [blame]

328

// Basic 3-register operations, scalar single-precision

329

class N3VDs<SDNode OpNode, NeonI Inst>

330

: NEONFPPat<(f32 (OpNode SPR:$a, SPR:$b)),

331

(EXTRACT_SUBREG (Inst (INSERT_SUBREG (v2f32 (IMPLICIT_DEF)), SPR:$a, arm_ssubreg_0),

332

(INSERT_SUBREG (v2f32 (IMPLICIT_DEF)), SPR:$b, arm_ssubreg_0)),

333

arm_ssubreg_0)>;

334

Bob Wilson

2009-06-22 23:27:02 +0000

[diff] [blame]

335

// Basic 3-register intrinsics, both double- and quad-register.

336

class N3VDInt<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,

337

string OpcodeStr, ValueType ResTy, ValueType OpTy,

338

Intrinsic IntOp, bit Commutable>

339

: N3V<op24, op23, op21_20, op11_8, 0, op4,

340

(outs DPR:$dst), (ins DPR:$src1, DPR:$src2),

341

!strconcat(OpcodeStr, "\t$dst, $src1, $src2"), "",

342

[(set DPR:$dst, (ResTy (IntOp (OpTy DPR:$src1), (OpTy DPR:$src2))))]> {

343

let isCommutable = Commutable;

344

}

345

class N3VQInt<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,

346

string OpcodeStr, ValueType ResTy, ValueType OpTy,

347

Intrinsic IntOp, bit Commutable>

348

: N3V<op24, op23, op21_20, op11_8, 1, op4,

349

(outs QPR:$dst), (ins QPR:$src1, QPR:$src2),

350

!strconcat(OpcodeStr, "\t$dst, $src1, $src2"), "",

351

[(set QPR:$dst, (ResTy (IntOp (OpTy QPR:$src1), (OpTy QPR:$src2))))]> {

352

let isCommutable = Commutable;

353

}

354

355

// Multiply-Add/Sub operations, both double- and quad-register.

356

class N3VDMulOp<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,

357

string OpcodeStr, ValueType Ty, SDNode MulOp, SDNode OpNode>

358

: N3V<op24, op23, op21_20, op11_8, 0, op4,

359

(outs DPR:$dst), (ins DPR:$src1, DPR:$src2, DPR:$src3),

360

!strconcat(OpcodeStr, "\t$dst, $src2, $src3"), "$src1 = $dst",

361

[(set DPR:$dst, (Ty (OpNode DPR:$src1,

362

(Ty (MulOp DPR:$src2, DPR:$src3)))))]>;

363

class N3VQMulOp<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,

364

string OpcodeStr, ValueType Ty, SDNode MulOp, SDNode OpNode>

365

: N3V<op24, op23, op21_20, op11_8, 1, op4,

366

(outs QPR:$dst), (ins QPR:$src1, QPR:$src2, QPR:$src3),

367

!strconcat(OpcodeStr, "\t$dst, $src2, $src3"), "$src1 = $dst",

368

[(set QPR:$dst, (Ty (OpNode QPR:$src1,

369

(Ty (MulOp QPR:$src2, QPR:$src3)))))]>;

370

David Goodwin

2009-08-04 17:53:06 +0000

[diff] [blame]

371

// Multiply-Add/Sub operations, scalar single-precision

372

class N3VDMulOps<SDNode MulNode, SDNode OpNode, NeonI Inst>

373

: NEONFPPat<(f32 (OpNode SPR:$acc,

374

(f32 (MulNode SPR:$a, SPR:$b)))),

375

(EXTRACT_SUBREG (Inst (INSERT_SUBREG (v2f32 (IMPLICIT_DEF)), SPR:$acc, arm_ssubreg_0),

376

(INSERT_SUBREG (v2f32 (IMPLICIT_DEF)), SPR:$a, arm_ssubreg_0),

377

(INSERT_SUBREG (v2f32 (IMPLICIT_DEF)), SPR:$b, arm_ssubreg_0)),

378

arm_ssubreg_0)>;

379

Bob Wilson

2009-06-22 23:27:02 +0000

[diff] [blame]

380

// Neon 3-argument intrinsics, both double- and quad-register.

381

// The destination register is also used as the first source operand register.

382

class N3VDInt3<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,

383

string OpcodeStr, ValueType ResTy, ValueType OpTy,

384

Intrinsic IntOp>

385

: N3V<op24, op23, op21_20, op11_8, 0, op4,

386

(outs DPR:$dst), (ins DPR:$src1, DPR:$src2, DPR:$src3),

387

!strconcat(OpcodeStr, "\t$dst, $src2, $src3"), "$src1 = $dst",

388

[(set DPR:$dst, (ResTy (IntOp (OpTy DPR:$src1),

389

(OpTy DPR:$src2), (OpTy DPR:$src3))))]>;

390

class N3VQInt3<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,

391

string OpcodeStr, ValueType ResTy, ValueType OpTy,

392

Intrinsic IntOp>

393

: N3V<op24, op23, op21_20, op11_8, 1, op4,

394

(outs QPR:$dst), (ins QPR:$src1, QPR:$src2, QPR:$src3),

395

!strconcat(OpcodeStr, "\t$dst, $src2, $src3"), "$src1 = $dst",

396

[(set QPR:$dst, (ResTy (IntOp (OpTy QPR:$src1),

397

(OpTy QPR:$src2), (OpTy QPR:$src3))))]>;

398

399

// Neon Long 3-argument intrinsic. The destination register is

400

// a quad-register and is also used as the first source operand register.

401

class N3VLInt3<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,

402

string OpcodeStr, ValueType TyQ, ValueType TyD, Intrinsic IntOp>

403

: N3V<op24, op23, op21_20, op11_8, 0, op4,

404

(outs QPR:$dst), (ins QPR:$src1, DPR:$src2, DPR:$src3),

405

!strconcat(OpcodeStr, "\t$dst, $src2, $src3"), "$src1 = $dst",

406

[(set QPR:$dst,

407

(TyQ (IntOp (TyQ QPR:$src1), (TyD DPR:$src2), (TyD DPR:$src3))))]>;

408

409

// Narrowing 3-register intrinsics.

410

class N3VNInt<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,

411

string OpcodeStr, ValueType TyD, ValueType TyQ,

412

Intrinsic IntOp, bit Commutable>

413

: N3V<op24, op23, op21_20, op11_8, 0, op4,

414

(outs DPR:$dst), (ins QPR:$src1, QPR:$src2),

415

!strconcat(OpcodeStr, "\t$dst, $src1, $src2"), "",

416

[(set DPR:$dst, (TyD (IntOp (TyQ QPR:$src1), (TyQ QPR:$src2))))]> {

417

let isCommutable = Commutable;

418

}

419

420

// Long 3-register intrinsics.

421

class N3VLInt<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,

422

string OpcodeStr, ValueType TyQ, ValueType TyD,

423

Intrinsic IntOp, bit Commutable>

424

: N3V<op24, op23, op21_20, op11_8, 0, op4,

425

(outs QPR:$dst), (ins DPR:$src1, DPR:$src2),

426

!strconcat(OpcodeStr, "\t$dst, $src1, $src2"), "",

427

[(set QPR:$dst, (TyQ (IntOp (TyD DPR:$src1), (TyD DPR:$src2))))]> {

428

let isCommutable = Commutable;

429

}

430

431

// Wide 3-register intrinsics.

432

class N3VWInt<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,

433

string OpcodeStr, ValueType TyQ, ValueType TyD,

434

Intrinsic IntOp, bit Commutable>

435

: N3V<op24, op23, op21_20, op11_8, 0, op4,

436

(outs QPR:$dst), (ins QPR:$src1, DPR:$src2),

437

!strconcat(OpcodeStr, "\t$dst, $src1, $src2"), "",

438

[(set QPR:$dst, (TyQ (IntOp (TyQ QPR:$src1), (TyD DPR:$src2))))]> {

439

let isCommutable = Commutable;

440

}

441

442

// Pairwise long 2-register intrinsics, both double- and quad-register.

443

class N2VDPLInt<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,

444

bits<2> op17_16, bits<5> op11_7, bit op4, string OpcodeStr,

445

ValueType ResTy, ValueType OpTy, Intrinsic IntOp>

446

: N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 0, op4, (outs DPR:$dst),

447

(ins DPR:$src), !strconcat(OpcodeStr, "\t$dst, $src"), "",

448

[(set DPR:$dst, (ResTy (IntOp (OpTy DPR:$src))))]>;

449

class N2VQPLInt<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,

450

bits<2> op17_16, bits<5> op11_7, bit op4, string OpcodeStr,

451

ValueType ResTy, ValueType OpTy, Intrinsic IntOp>

452

: N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 1, op4, (outs QPR:$dst),

453

(ins QPR:$src), !strconcat(OpcodeStr, "\t$dst, $src"), "",

454

[(set QPR:$dst, (ResTy (IntOp (OpTy QPR:$src))))]>;

455

456

// Pairwise long 2-register accumulate intrinsics,

457

// both double- and quad-register.

458

// The destination register is also used as the first source operand register.

459

class N2VDPLInt2<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,

460

bits<2> op17_16, bits<5> op11_7, bit op4, string OpcodeStr,

461

ValueType ResTy, ValueType OpTy, Intrinsic IntOp>

462

: N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 0, op4,

463

(outs DPR:$dst), (ins DPR:$src1, DPR:$src2),

464

!strconcat(OpcodeStr, "\t$dst, $src2"), "$src1 = $dst",

465

[(set DPR:$dst, (ResTy (IntOp (ResTy DPR:$src1), (OpTy DPR:$src2))))]>;

466

class N2VQPLInt2<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,

467

bits<2> op17_16, bits<5> op11_7, bit op4, string OpcodeStr,

468

ValueType ResTy, ValueType OpTy, Intrinsic IntOp>

469

: N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 1, op4,

470

(outs QPR:$dst), (ins QPR:$src1, QPR:$src2),

471

!strconcat(OpcodeStr, "\t$dst, $src2"), "$src1 = $dst",

472

[(set QPR:$dst, (ResTy (IntOp (ResTy QPR:$src1), (OpTy QPR:$src2))))]>;

473

474

// Shift by immediate,

475

// both double- and quad-register.

476

class N2VDSh<bit op24, bit op23, bits<6> op21_16, bits<4> op11_8, bit op7,

477

bit op4, string OpcodeStr, ValueType Ty, SDNode OpNode>

478

: N2VImm<op24, op23, op21_16, op11_8, op7, 0, op4,

479

(outs DPR:$dst), (ins DPR:$src, i32imm:$SIMM),

480

!strconcat(OpcodeStr, "\t$dst, $src, $SIMM"), "",

481

[(set DPR:$dst, (Ty (OpNode (Ty DPR:$src), (i32 imm:$SIMM))))]>;

482

class N2VQSh<bit op24, bit op23, bits<6> op21_16, bits<4> op11_8, bit op7,

483

bit op4, string OpcodeStr, ValueType Ty, SDNode OpNode>

484

: N2VImm<op24, op23, op21_16, op11_8, op7, 1, op4,

485

(outs QPR:$dst), (ins QPR:$src, i32imm:$SIMM),

486

!strconcat(OpcodeStr, "\t$dst, $src, $SIMM"), "",

487

[(set QPR:$dst, (Ty (OpNode (Ty QPR:$src), (i32 imm:$SIMM))))]>;

488

489

// Long shift by immediate.

490

class N2VLSh<bit op24, bit op23, bits<6> op21_16, bits<4> op11_8, bit op7,

491

bit op6, bit op4, string OpcodeStr, ValueType ResTy,

492

ValueType OpTy, SDNode OpNode>

493

: N2VImm<op24, op23, op21_16, op11_8, op7, op6, op4,

494

(outs QPR:$dst), (ins DPR:$src, i32imm:$SIMM),

495

!strconcat(OpcodeStr, "\t$dst, $src, $SIMM"), "",

496

[(set QPR:$dst, (ResTy (OpNode (OpTy DPR:$src),

497

(i32 imm:$SIMM))))]>;

498

499

// Narrow shift by immediate.

500

class N2VNSh<bit op24, bit op23, bits<6> op21_16, bits<4> op11_8, bit op7,

501

bit op6, bit op4, string OpcodeStr, ValueType ResTy,

502

ValueType OpTy, SDNode OpNode>

503

: N2VImm<op24, op23, op21_16, op11_8, op7, op6, op4,

504

(outs DPR:$dst), (ins QPR:$src, i32imm:$SIMM),

505

!strconcat(OpcodeStr, "\t$dst, $src, $SIMM"), "",

506

[(set DPR:$dst, (ResTy (OpNode (OpTy QPR:$src),

507

(i32 imm:$SIMM))))]>;

508

509

// Shift right by immediate and accumulate,

510

// both double- and quad-register.

511

class N2VDShAdd<bit op24, bit op23, bits<6> op21_16, bits<4> op11_8, bit op7,

512

bit op4, string OpcodeStr, ValueType Ty, SDNode ShOp>

513

: N2VImm<op24, op23, op21_16, op11_8, op7, 0, op4,

514

(outs DPR:$dst), (ins DPR:$src1, DPR:$src2, i32imm:$SIMM),

515

!strconcat(OpcodeStr, "\t$dst, $src2, $SIMM"), "$src1 = $dst",

516

[(set DPR:$dst, (Ty (add DPR:$src1,

517

(Ty (ShOp DPR:$src2, (i32 imm:$SIMM))))))]>;

518

class N2VQShAdd<bit op24, bit op23, bits<6> op21_16, bits<4> op11_8, bit op7,

519

bit op4, string OpcodeStr, ValueType Ty, SDNode ShOp>

520

: N2VImm<op24, op23, op21_16, op11_8, op7, 1, op4,

521

(outs QPR:$dst), (ins QPR:$src1, QPR:$src2, i32imm:$SIMM),

522

!strconcat(OpcodeStr, "\t$dst, $src2, $SIMM"), "$src1 = $dst",

523

[(set QPR:$dst, (Ty (add QPR:$src1,

524

(Ty (ShOp QPR:$src2, (i32 imm:$SIMM))))))]>;

525

526

// Shift by immediate and insert,

527

// both double- and quad-register.

528

class N2VDShIns<bit op24, bit op23, bits<6> op21_16, bits<4> op11_8, bit op7,

529

bit op4, string OpcodeStr, ValueType Ty, SDNode ShOp>

530

: N2VImm<op24, op23, op21_16, op11_8, op7, 0, op4,

531

(outs DPR:$dst), (ins DPR:$src1, DPR:$src2, i32imm:$SIMM),

532

!strconcat(OpcodeStr, "\t$dst, $src2, $SIMM"), "$src1 = $dst",

533

[(set DPR:$dst, (Ty (ShOp DPR:$src1, DPR:$src2, (i32 imm:$SIMM))))]>;

534

class N2VQShIns<bit op24, bit op23, bits<6> op21_16, bits<4> op11_8, bit op7,

535

bit op4, string OpcodeStr, ValueType Ty, SDNode ShOp>

536

: N2VImm<op24, op23, op21_16, op11_8, op7, 1, op4,

537

(outs QPR:$dst), (ins QPR:$src1, QPR:$src2, i32imm:$SIMM),

538

!strconcat(OpcodeStr, "\t$dst, $src2, $SIMM"), "$src1 = $dst",

539

[(set QPR:$dst, (Ty (ShOp QPR:$src1, QPR:$src2, (i32 imm:$SIMM))))]>;

540

541

// Convert, with fractional bits immediate,

542

// both double- and quad-register.

543

class N2VCvtD<bit op24, bit op23, bits<6> op21_16, bits<4> op11_8, bit op7,

544

bit op4, string OpcodeStr, ValueType ResTy, ValueType OpTy,

545

Intrinsic IntOp>

546

: N2VImm<op24, op23, op21_16, op11_8, op7, 0, op4,

547

(outs DPR:$dst), (ins DPR:$src, i32imm:$SIMM),

548

!strconcat(OpcodeStr, "\t$dst, $src, $SIMM"), "",

549

[(set DPR:$dst, (ResTy (IntOp (OpTy DPR:$src), (i32 imm:$SIMM))))]>;

550

class N2VCvtQ<bit op24, bit op23, bits<6> op21_16, bits<4> op11_8, bit op7,

551

bit op4, string OpcodeStr, ValueType ResTy, ValueType OpTy,

552

Intrinsic IntOp>

553

: N2VImm<op24, op23, op21_16, op11_8, op7, 1, op4,

554

(outs QPR:$dst), (ins QPR:$src, i32imm:$SIMM),

555

!strconcat(OpcodeStr, "\t$dst, $src, $SIMM"), "",

556

[(set QPR:$dst, (ResTy (IntOp (OpTy QPR:$src), (i32 imm:$SIMM))))]>;

557

558

//===----------------------------------------------------------------------===//

559

// Multiclasses

560

//===----------------------------------------------------------------------===//

561

562

// Neon 3-register vector operations.

563

564

// First with only element sizes of 8, 16 and 32 bits:

565

multiclass N3V_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,

566

string OpcodeStr, SDNode OpNode, bit Commutable = 0> {

567

// 64-bit vector types.

568

def v8i8 : N3VD<op24, op23, 0b00, op11_8, op4, !strconcat(OpcodeStr, "8"),

569

v8i8, v8i8, OpNode, Commutable>;

570

def v4i16 : N3VD<op24, op23, 0b01, op11_8, op4, !strconcat(OpcodeStr, "16"),

571

v4i16, v4i16, OpNode, Commutable>;

572

def v2i32 : N3VD<op24, op23, 0b10, op11_8, op4, !strconcat(OpcodeStr, "32"),

573

v2i32, v2i32, OpNode, Commutable>;

574

575

// 128-bit vector types.

576

def v16i8 : N3VQ<op24, op23, 0b00, op11_8, op4, !strconcat(OpcodeStr, "8"),

577

v16i8, v16i8, OpNode, Commutable>;

578

def v8i16 : N3VQ<op24, op23, 0b01, op11_8, op4, !strconcat(OpcodeStr, "16"),

579

v8i16, v8i16, OpNode, Commutable>;

580

def v4i32 : N3VQ<op24, op23, 0b10, op11_8, op4, !strconcat(OpcodeStr, "32"),

581

v4i32, v4i32, OpNode, Commutable>;

582

}

583

584

// ....then also with element size 64 bits:

585

multiclass N3V_QHSD<bit op24, bit op23, bits<4> op11_8, bit op4,

586

string OpcodeStr, SDNode OpNode, bit Commutable = 0>

587

: N3V_QHS<op24, op23, op11_8, op4, OpcodeStr, OpNode, Commutable> {

588

def v1i64 : N3VD<op24, op23, 0b11, op11_8, op4, !strconcat(OpcodeStr, "64"),

589

v1i64, v1i64, OpNode, Commutable>;

590

def v2i64 : N3VQ<op24, op23, 0b11, op11_8, op4, !strconcat(OpcodeStr, "64"),

591

v2i64, v2i64, OpNode, Commutable>;

}

// Neon Narrowing 2-register vector intrinsics,

596

// source operand element sizes of 16, 32 and 64 bits:

597

multiclass N2VNInt_HSD<bits<2> op24_23, bits<2> op21_20, bits<2> op17_16,

598

bits<5> op11_7, bit op6, bit op4, string OpcodeStr,

599

Intrinsic IntOp> {

600

def v8i8 : N2VNInt<op24_23, op21_20, 0b00, op17_16, op11_7, op6, op4,

601

!strconcat(OpcodeStr, "16"), v8i8, v8i16, IntOp>;

602

def v4i16 : N2VNInt<op24_23, op21_20, 0b01, op17_16, op11_7, op6, op4,

603

!strconcat(OpcodeStr, "32"), v4i16, v4i32, IntOp>;

604

def v2i32 : N2VNInt<op24_23, op21_20, 0b10, op17_16, op11_7, op6, op4,

605

!strconcat(OpcodeStr, "64"), v2i32, v2i64, IntOp>;

}

// Neon Lengthening 2-register vector intrinsic (currently specific to VMOVL).

610

// source operand element sizes of 16, 32 and 64 bits:

611

multiclass N2VLInt_QHS<bit op24, bit op23, bits<4> op11_8, bit op7, bit op6,

612

bit op4, string OpcodeStr, Intrinsic IntOp> {

613

def v8i16 : N2VLInt<op24, op23, 0b001000, op11_8, op7, op6, op4,

614

!strconcat(OpcodeStr, "8"), v8i16, v8i8, IntOp>;

615

def v4i32 : N2VLInt<op24, op23, 0b010000, op11_8, op7, op6, op4,

616

!strconcat(OpcodeStr, "16"), v4i32, v4i16, IntOp>;

617

def v2i64 : N2VLInt<op24, op23, 0b100000, op11_8, op7, op6, op4,

618

!strconcat(OpcodeStr, "32"), v2i64, v2i32, IntOp>;

}

// Neon 3-register vector intrinsics.

623

624

// First with only element sizes of 16 and 32 bits:

625

multiclass N3VInt_HS<bit op24, bit op23, bits<4> op11_8, bit op4,

626

string OpcodeStr, Intrinsic IntOp, bit Commutable = 0> {

627

// 64-bit vector types.

628

def v4i16 : N3VDInt<op24, op23, 0b01, op11_8, op4, !strconcat(OpcodeStr,"16"),

629

v4i16, v4i16, IntOp, Commutable>;

630

def v2i32 : N3VDInt<op24, op23, 0b10, op11_8, op4, !strconcat(OpcodeStr,"32"),

631

v2i32, v2i32, IntOp, Commutable>;

632

633

// 128-bit vector types.

634

def v8i16 : N3VQInt<op24, op23, 0b01, op11_8, op4, !strconcat(OpcodeStr,"16"),

635

v8i16, v8i16, IntOp, Commutable>;

636

def v4i32 : N3VQInt<op24, op23, 0b10, op11_8, op4, !strconcat(OpcodeStr,"32"),

637

v4i32, v4i32, IntOp, Commutable>;

638

}

639

640

// ....then also with element size of 8 bits:

641

multiclass N3VInt_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,

642

string OpcodeStr, Intrinsic IntOp, bit Commutable = 0>

643

: N3VInt_HS<op24, op23, op11_8, op4, OpcodeStr, IntOp, Commutable> {

644

def v8i8 : N3VDInt<op24, op23, 0b00, op11_8, op4, !strconcat(OpcodeStr, "8"),

645

v8i8, v8i8, IntOp, Commutable>;

646

def v16i8 : N3VQInt<op24, op23, 0b00, op11_8, op4, !strconcat(OpcodeStr, "8"),

647

v16i8, v16i8, IntOp, Commutable>;

648

}

649

650

// ....then also with element size of 64 bits:

651

multiclass N3VInt_QHSD<bit op24, bit op23, bits<4> op11_8, bit op4,

652

string OpcodeStr, Intrinsic IntOp, bit Commutable = 0>

653

: N3VInt_QHS<op24, op23, op11_8, op4, OpcodeStr, IntOp, Commutable> {

654

def v1i64 : N3VDInt<op24, op23, 0b11, op11_8, op4, !strconcat(OpcodeStr,"64"),

655

v1i64, v1i64, IntOp, Commutable>;

656

def v2i64 : N3VQInt<op24, op23, 0b11, op11_8, op4, !strconcat(OpcodeStr,"64"),

657

v2i64, v2i64, IntOp, Commutable>;

}

// Neon Narrowing 3-register vector intrinsics,

662

// source operand element sizes of 16, 32 and 64 bits:

663

multiclass N3VNInt_HSD<bit op24, bit op23, bits<4> op11_8, bit op4,

664

string OpcodeStr, Intrinsic IntOp, bit Commutable = 0> {

665

def v8i8 : N3VNInt<op24, op23, 0b00, op11_8, op4, !strconcat(OpcodeStr,"16"),

666

v8i8, v8i16, IntOp, Commutable>;

667

def v4i16 : N3VNInt<op24, op23, 0b01, op11_8, op4, !strconcat(OpcodeStr,"32"),

668

v4i16, v4i32, IntOp, Commutable>;

669

def v2i32 : N3VNInt<op24, op23, 0b10, op11_8, op4, !strconcat(OpcodeStr,"64"),

670

v2i32, v2i64, IntOp, Commutable>;

}

// Neon Long 3-register vector intrinsics.

675

676

// First with only element sizes of 16 and 32 bits:

677

multiclass N3VLInt_HS<bit op24, bit op23, bits<4> op11_8, bit op4,

678

string OpcodeStr, Intrinsic IntOp, bit Commutable = 0> {

679

def v4i32 : N3VLInt<op24, op23, 0b01, op11_8, op4, !strconcat(OpcodeStr,"16"),

680

v4i32, v4i16, IntOp, Commutable>;

681

def v2i64 : N3VLInt<op24, op23, 0b10, op11_8, op4, !strconcat(OpcodeStr,"32"),

682

v2i64, v2i32, IntOp, Commutable>;

683

}

684

685

// ....then also with element size of 8 bits:

686

multiclass N3VLInt_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,

687

string OpcodeStr, Intrinsic IntOp, bit Commutable = 0>

688

: N3VLInt_HS<op24, op23, op11_8, op4, OpcodeStr, IntOp, Commutable> {

689

def v8i16 : N3VLInt<op24, op23, 0b00, op11_8, op4, !strconcat(OpcodeStr, "8"),

690

v8i16, v8i8, IntOp, Commutable>;

}

// Neon Wide 3-register vector intrinsics,

695

// source operand element sizes of 8, 16 and 32 bits:

696

multiclass N3VWInt_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,

697

string OpcodeStr, Intrinsic IntOp, bit Commutable = 0> {

698

def v8i16 : N3VWInt<op24, op23, 0b00, op11_8, op4, !strconcat(OpcodeStr, "8"),

699

v8i16, v8i8, IntOp, Commutable>;

700

def v4i32 : N3VWInt<op24, op23, 0b01, op11_8, op4, !strconcat(OpcodeStr,"16"),

701

v4i32, v4i16, IntOp, Commutable>;

702

def v2i64 : N3VWInt<op24, op23, 0b10, op11_8, op4, !strconcat(OpcodeStr,"32"),

703

v2i64, v2i32, IntOp, Commutable>;

}

// Neon Multiply-Op vector operations,

708

// element sizes of 8, 16 and 32 bits:

709

multiclass N3VMulOp_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,

710

string OpcodeStr, SDNode OpNode> {

711

// 64-bit vector types.

712

def v8i8 : N3VDMulOp<op24, op23, 0b00, op11_8, op4,

713

!strconcat(OpcodeStr, "8"), v8i8, mul, OpNode>;

714

def v4i16 : N3VDMulOp<op24, op23, 0b01, op11_8, op4,

715

!strconcat(OpcodeStr, "16"), v4i16, mul, OpNode>;

716

def v2i32 : N3VDMulOp<op24, op23, 0b10, op11_8, op4,

717

!strconcat(OpcodeStr, "32"), v2i32, mul, OpNode>;

718

719

// 128-bit vector types.

720

def v16i8 : N3VQMulOp<op24, op23, 0b00, op11_8, op4,

721

!strconcat(OpcodeStr, "8"), v16i8, mul, OpNode>;

722

def v8i16 : N3VQMulOp<op24, op23, 0b01, op11_8, op4,

723

!strconcat(OpcodeStr, "16"), v8i16, mul, OpNode>;

724

def v4i32 : N3VQMulOp<op24, op23, 0b10, op11_8, op4,

725

!strconcat(OpcodeStr, "32"), v4i32, mul, OpNode>;

}

// Neon 3-argument intrinsics,

730

// element sizes of 8, 16 and 32 bits:

731

multiclass N3VInt3_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,

732

string OpcodeStr, Intrinsic IntOp> {

733

// 64-bit vector types.

734

def v8i8 : N3VDInt3<op24, op23, 0b00, op11_8, op4,

735

!strconcat(OpcodeStr, "8"), v8i8, v8i8, IntOp>;

736

def v4i16 : N3VDInt3<op24, op23, 0b01, op11_8, op4,

737

!strconcat(OpcodeStr, "16"), v4i16, v4i16, IntOp>;

738

def v2i32 : N3VDInt3<op24, op23, 0b10, op11_8, op4,

739

!strconcat(OpcodeStr, "32"), v2i32, v2i32, IntOp>;

740

741

// 128-bit vector types.

742

def v16i8 : N3VQInt3<op24, op23, 0b00, op11_8, op4,

743

!strconcat(OpcodeStr, "8"), v16i8, v16i8, IntOp>;

744

def v8i16 : N3VQInt3<op24, op23, 0b01, op11_8, op4,

745

!strconcat(OpcodeStr, "16"), v8i16, v8i16, IntOp>;

746

def v4i32 : N3VQInt3<op24, op23, 0b10, op11_8, op4,

747

!strconcat(OpcodeStr, "32"), v4i32, v4i32, IntOp>;

}

// Neon Long 3-argument intrinsics.

752

753

// First with only element sizes of 16 and 32 bits:

754

multiclass N3VLInt3_HS<bit op24, bit op23, bits<4> op11_8, bit op4,

755

string OpcodeStr, Intrinsic IntOp> {

756

def v4i32 : N3VLInt3<op24, op23, 0b01, op11_8, op4,

757

!strconcat(OpcodeStr, "16"), v4i32, v4i16, IntOp>;

758

def v2i64 : N3VLInt3<op24, op23, 0b10, op11_8, op4,

759

!strconcat(OpcodeStr, "32"), v2i64, v2i32, IntOp>;

760

}

761

762

// ....then also with element size of 8 bits:

763

multiclass N3VLInt3_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,

764

string OpcodeStr, Intrinsic IntOp>

765

: N3VLInt3_HS<op24, op23, op11_8, op4, OpcodeStr, IntOp> {

766

def v8i16 : N3VLInt3<op24, op23, 0b01, op11_8, op4,

767

!strconcat(OpcodeStr, "8"), v8i16, v8i8, IntOp>;

}

// Neon 2-register vector intrinsics,

772

// element sizes of 8, 16 and 32 bits:

773

multiclass N2VInt_QHS<bits<2> op24_23, bits<2> op21_20, bits<2> op17_16,

774

bits<5> op11_7, bit op4, string OpcodeStr,

775

Intrinsic IntOp> {

776

// 64-bit vector types.

777

def v8i8 : N2VDInt<op24_23, op21_20, 0b00, op17_16, op11_7, op4,

778

!strconcat(OpcodeStr, "8"), v8i8, v8i8, IntOp>;

779

def v4i16 : N2VDInt<op24_23, op21_20, 0b01, op17_16, op11_7, op4,

780

!strconcat(OpcodeStr, "16"), v4i16, v4i16, IntOp>;

781

def v2i32 : N2VDInt<op24_23, op21_20, 0b10, op17_16, op11_7, op4,

782

!strconcat(OpcodeStr, "32"), v2i32, v2i32, IntOp>;

783

784

// 128-bit vector types.

785

def v16i8 : N2VQInt<op24_23, op21_20, 0b00, op17_16, op11_7, op4,

786

!strconcat(OpcodeStr, "8"), v16i8, v16i8, IntOp>;

787

def v8i16 : N2VQInt<op24_23, op21_20, 0b01, op17_16, op11_7, op4,

788

!strconcat(OpcodeStr, "16"), v8i16, v8i16, IntOp>;

789

def v4i32 : N2VQInt<op24_23, op21_20, 0b10, op17_16, op11_7, op4,

790

!strconcat(OpcodeStr, "32"), v4i32, v4i32, IntOp>;

}

// Neon Pairwise long 2-register intrinsics,

795

// element sizes of 8, 16 and 32 bits:

796

multiclass N2VPLInt_QHS<bits<2> op24_23, bits<2> op21_20, bits<2> op17_16,

797

bits<5> op11_7, bit op4,

798

string OpcodeStr, Intrinsic IntOp> {

799

// 64-bit vector types.

800

def v8i8 : N2VDPLInt<op24_23, op21_20, 0b00, op17_16, op11_7, op4,

801

!strconcat(OpcodeStr, "8"), v4i16, v8i8, IntOp>;

802

def v4i16 : N2VDPLInt<op24_23, op21_20, 0b01, op17_16, op11_7, op4,

803

!strconcat(OpcodeStr, "16"), v2i32, v4i16, IntOp>;

804

def v2i32 : N2VDPLInt<op24_23, op21_20, 0b10, op17_16, op11_7, op4,

805

!strconcat(OpcodeStr, "32"), v1i64, v2i32, IntOp>;

806

807

// 128-bit vector types.

808

def v16i8 : N2VQPLInt<op24_23, op21_20, 0b00, op17_16, op11_7, op4,

809

!strconcat(OpcodeStr, "8"), v8i16, v16i8, IntOp>;

810

def v8i16 : N2VQPLInt<op24_23, op21_20, 0b01, op17_16, op11_7, op4,

811

!strconcat(OpcodeStr, "16"), v4i32, v8i16, IntOp>;

812

def v4i32 : N2VQPLInt<op24_23, op21_20, 0b10, op17_16, op11_7, op4,

813

!strconcat(OpcodeStr, "32"), v2i64, v4i32, IntOp>;

}

// Neon Pairwise long 2-register accumulate intrinsics,

818

// element sizes of 8, 16 and 32 bits:

819

multiclass N2VPLInt2_QHS<bits<2> op24_23, bits<2> op21_20, bits<2> op17_16,

820

bits<5> op11_7, bit op4,

821

string OpcodeStr, Intrinsic IntOp> {

822

// 64-bit vector types.

823

def v8i8 : N2VDPLInt2<op24_23, op21_20, 0b00, op17_16, op11_7, op4,

824

!strconcat(OpcodeStr, "8"), v4i16, v8i8, IntOp>;

825

def v4i16 : N2VDPLInt2<op24_23, op21_20, 0b01, op17_16, op11_7, op4,

826

!strconcat(OpcodeStr, "16"), v2i32, v4i16, IntOp>;

827

def v2i32 : N2VDPLInt2<op24_23, op21_20, 0b10, op17_16, op11_7, op4,

828

!strconcat(OpcodeStr, "32"), v1i64, v2i32, IntOp>;

829

830

// 128-bit vector types.

831

def v16i8 : N2VQPLInt2<op24_23, op21_20, 0b00, op17_16, op11_7, op4,

832

!strconcat(OpcodeStr, "8"), v8i16, v16i8, IntOp>;

833

def v8i16 : N2VQPLInt2<op24_23, op21_20, 0b01, op17_16, op11_7, op4,

834

!strconcat(OpcodeStr, "16"), v4i32, v8i16, IntOp>;

835

def v4i32 : N2VQPLInt2<op24_23, op21_20, 0b10, op17_16, op11_7, op4,

836

!strconcat(OpcodeStr, "32"), v2i64, v4i32, IntOp>;

}

// Neon 2-register vector shift by immediate,

841

// element sizes of 8, 16, 32 and 64 bits:

842

multiclass N2VSh_QHSD<bit op24, bit op23, bits<4> op11_8, bit op4,

843

string OpcodeStr, SDNode OpNode> {

844

// 64-bit vector types.

845

def v8i8 : N2VDSh<op24, op23, 0b001000, op11_8, 0, op4,

846

!strconcat(OpcodeStr, "8"), v8i8, OpNode>;

847

def v4i16 : N2VDSh<op24, op23, 0b010000, op11_8, 0, op4,

848

!strconcat(OpcodeStr, "16"), v4i16, OpNode>;

849

def v2i32 : N2VDSh<op24, op23, 0b100000, op11_8, 0, op4,

850

!strconcat(OpcodeStr, "32"), v2i32, OpNode>;

851

def v1i64 : N2VDSh<op24, op23, 0b000000, op11_8, 1, op4,

852

!strconcat(OpcodeStr, "64"), v1i64, OpNode>;

853

854

// 128-bit vector types.

855

def v16i8 : N2VQSh<op24, op23, 0b001000, op11_8, 0, op4,

856

!strconcat(OpcodeStr, "8"), v16i8, OpNode>;

857

def v8i16 : N2VQSh<op24, op23, 0b010000, op11_8, 0, op4,

858

!strconcat(OpcodeStr, "16"), v8i16, OpNode>;

859

def v4i32 : N2VQSh<op24, op23, 0b100000, op11_8, 0, op4,

860

!strconcat(OpcodeStr, "32"), v4i32, OpNode>;

861

def v2i64 : N2VQSh<op24, op23, 0b000000, op11_8, 1, op4,

862

!strconcat(OpcodeStr, "64"), v2i64, OpNode>;

}

// Neon Shift-Accumulate vector operations,

867

// element sizes of 8, 16, 32 and 64 bits:

868

multiclass N2VShAdd_QHSD<bit op24, bit op23, bits<4> op11_8, bit op4,

869

string OpcodeStr, SDNode ShOp> {

870

// 64-bit vector types.

871

def v8i8 : N2VDShAdd<op24, op23, 0b001000, op11_8, 0, op4,

872

!strconcat(OpcodeStr, "8"), v8i8, ShOp>;

873

def v4i16 : N2VDShAdd<op24, op23, 0b010000, op11_8, 0, op4,

874

!strconcat(OpcodeStr, "16"), v4i16, ShOp>;

875

def v2i32 : N2VDShAdd<op24, op23, 0b100000, op11_8, 0, op4,

876

!strconcat(OpcodeStr, "32"), v2i32, ShOp>;

877

def v1i64 : N2VDShAdd<op24, op23, 0b000000, op11_8, 1, op4,

878

!strconcat(OpcodeStr, "64"), v1i64, ShOp>;

879

880

// 128-bit vector types.

881

def v16i8 : N2VQShAdd<op24, op23, 0b001000, op11_8, 0, op4,

882

!strconcat(OpcodeStr, "8"), v16i8, ShOp>;

883

def v8i16 : N2VQShAdd<op24, op23, 0b010000, op11_8, 0, op4,

884

!strconcat(OpcodeStr, "16"), v8i16, ShOp>;

885

def v4i32 : N2VQShAdd<op24, op23, 0b100000, op11_8, 0, op4,

886

!strconcat(OpcodeStr, "32"), v4i32, ShOp>;

887

def v2i64 : N2VQShAdd<op24, op23, 0b000000, op11_8, 1, op4,

888

!strconcat(OpcodeStr, "64"), v2i64, ShOp>;

}

// Neon Shift-Insert vector operations,

893

// element sizes of 8, 16, 32 and 64 bits:

894

multiclass N2VShIns_QHSD<bit op24, bit op23, bits<4> op11_8, bit op4,

895

string OpcodeStr, SDNode ShOp> {

896

// 64-bit vector types.

897

def v8i8 : N2VDShIns<op24, op23, 0b001000, op11_8, 0, op4,

898

!strconcat(OpcodeStr, "8"), v8i8, ShOp>;

899

def v4i16 : N2VDShIns<op24, op23, 0b010000, op11_8, 0, op4,

900

!strconcat(OpcodeStr, "16"), v4i16, ShOp>;

901

def v2i32 : N2VDShIns<op24, op23, 0b100000, op11_8, 0, op4,

902

!strconcat(OpcodeStr, "32"), v2i32, ShOp>;

903

def v1i64 : N2VDShIns<op24, op23, 0b000000, op11_8, 1, op4,

904

!strconcat(OpcodeStr, "64"), v1i64, ShOp>;

905

906

// 128-bit vector types.

907

def v16i8 : N2VQShIns<op24, op23, 0b001000, op11_8, 0, op4,

908

!strconcat(OpcodeStr, "8"), v16i8, ShOp>;

909

def v8i16 : N2VQShIns<op24, op23, 0b010000, op11_8, 0, op4,

910

!strconcat(OpcodeStr, "16"), v8i16, ShOp>;

911

def v4i32 : N2VQShIns<op24, op23, 0b100000, op11_8, 0, op4,

912

!strconcat(OpcodeStr, "32"), v4i32, ShOp>;

913

def v2i64 : N2VQShIns<op24, op23, 0b000000, op11_8, 1, op4,

914

!strconcat(OpcodeStr, "64"), v2i64, ShOp>;

915

}

916

917

//===----------------------------------------------------------------------===//

918

// Instruction Definitions.

919

//===----------------------------------------------------------------------===//

920

921

// Vector Add Operations.

922

923

// VADD : Vector Add (integer and floating-point)

924

defm VADD : N3V_QHSD<0, 0, 0b1000, 0, "vadd.i", add, 1>;

925

def VADDfd : N3VD<0, 0, 0b00, 0b1101, 0, "vadd.f32", v2f32, v2f32, fadd, 1>;

926

def VADDfq : N3VQ<0, 0, 0b00, 0b1101, 0, "vadd.f32", v4f32, v4f32, fadd, 1>;

927

// VADDL : Vector Add Long (Q = D + D)

928

defm VADDLs : N3VLInt_QHS<0,1,0b0000,0, "vaddl.s", int_arm_neon_vaddls, 1>;

929

defm VADDLu : N3VLInt_QHS<1,1,0b0000,0, "vaddl.u", int_arm_neon_vaddlu, 1>;

930

// VADDW : Vector Add Wide (Q = Q + D)

931

defm VADDWs : N3VWInt_QHS<0,1,0b0001,0, "vaddw.s", int_arm_neon_vaddws, 0>;

932

defm VADDWu : N3VWInt_QHS<1,1,0b0001,0, "vaddw.u", int_arm_neon_vaddwu, 0>;

933

// VHADD : Vector Halving Add

934

defm VHADDs : N3VInt_QHS<0,0,0b0000,0, "vhadd.s", int_arm_neon_vhadds, 1>;

935

defm VHADDu : N3VInt_QHS<1,0,0b0000,0, "vhadd.u", int_arm_neon_vhaddu, 1>;

936

// VRHADD : Vector Rounding Halving Add

937

defm VRHADDs : N3VInt_QHS<0,0,0b0001,0, "vrhadd.s", int_arm_neon_vrhadds, 1>;

938

defm VRHADDu : N3VInt_QHS<1,0,0b0001,0, "vrhadd.u", int_arm_neon_vrhaddu, 1>;

939

// VQADD : Vector Saturating Add

940

defm VQADDs : N3VInt_QHSD<0,0,0b0000,1, "vqadd.s", int_arm_neon_vqadds, 1>;

941

defm VQADDu : N3VInt_QHSD<1,0,0b0000,1, "vqadd.u", int_arm_neon_vqaddu, 1>;

942

// VADDHN : Vector Add and Narrow Returning High Half (D = Q + Q)

943

defm VADDHN : N3VNInt_HSD<0,1,0b0100,0, "vaddhn.i", int_arm_neon_vaddhn, 1>;

944

// VRADDHN : Vector Rounding Add and Narrow Returning High Half (D = Q + Q)

945

defm VRADDHN : N3VNInt_HSD<1,1,0b0100,0, "vraddhn.i", int_arm_neon_vraddhn, 1>;

946

David Goodwin

2009-08-04 17:53:06 +0000

[diff] [blame]

947

// Vector Add Operations used for single-precision FP

948

def : N3VDs<fadd, VADDfd>;

949

Bob Wilson

2009-06-22 23:27:02 +0000

[diff] [blame]

950

// Vector Multiply Operations.

951

952

// VMUL : Vector Multiply (integer, polynomial and floating-point)

953

defm VMUL : N3V_QHS<0, 0, 0b1001, 1, "vmul.i", mul, 1>;

954

def VMULpd : N3VDInt<1, 0, 0b00, 0b1001, 1, "vmul.p8", v8i8, v8i8,

955

int_arm_neon_vmulp, 1>;

956

def VMULpq : N3VQInt<1, 0, 0b00, 0b1001, 1, "vmul.p8", v16i8, v16i8,

957

int_arm_neon_vmulp, 1>;

958

def VMULfd : N3VD<1, 0, 0b00, 0b1101, 1, "vmul.f32", v2f32, v2f32, fmul, 1>;

959

def VMULfq : N3VQ<1, 0, 0b00, 0b1101, 1, "vmul.f32", v4f32, v4f32, fmul, 1>;

960

// VQDMULH : Vector Saturating Doubling Multiply Returning High Half

961

defm VQDMULH : N3VInt_HS<0,0,0b1011,0, "vqdmulh.s", int_arm_neon_vqdmulh, 1>;

962

// VQRDMULH : Vector Rounding Saturating Doubling Multiply Returning High Half

963

defm VQRDMULH : N3VInt_HS<1,0,0b1011,0, "vqrdmulh.s", int_arm_neon_vqrdmulh, 1>;

964

// VMULL : Vector Multiply Long (integer and polynomial) (Q = D * D)

965

defm VMULLs : N3VLInt_QHS<0,1,0b1100,0, "vmull.s", int_arm_neon_vmulls, 1>;

966

defm VMULLu : N3VLInt_QHS<1,1,0b1100,0, "vmull.u", int_arm_neon_vmullu, 1>;

967

def VMULLp : N3VLInt<0, 1, 0b00, 0b1110, 0, "vmull.p8", v8i16, v8i8,

968

int_arm_neon_vmullp, 1>;

969

// VQDMULL : Vector Saturating Doubling Multiply Long (Q = D * D)

970

defm VQDMULL : N3VLInt_HS<0,1,0b1101,0, "vqdmull.s", int_arm_neon_vqdmull, 1>;

971

David Goodwin

2009-08-04 17:53:06 +0000

[diff] [blame]

972

// Vector Multiply Operations used for single-precision FP

973

def : N3VDs<fmul, VMULfd>;

974

Bob Wilson

2009-06-22 23:27:02 +0000

[diff] [blame]

975

// Vector Multiply-Accumulate and Multiply-Subtract Operations.

976

977

// VMLA : Vector Multiply Accumulate (integer and floating-point)

978

defm VMLA : N3VMulOp_QHS<0, 0, 0b1001, 0, "vmla.i", add>;

979

def VMLAfd : N3VDMulOp<0, 0, 0b00, 0b1101, 1, "vmla.f32", v2f32, fmul, fadd>;

980

def VMLAfq : N3VQMulOp<0, 0, 0b00, 0b1101, 1, "vmla.f32", v4f32, fmul, fadd>;

981

// VMLAL : Vector Multiply Accumulate Long (Q += D * D)

982

defm VMLALs : N3VLInt3_QHS<0,1,0b1000,0, "vmlal.s", int_arm_neon_vmlals>;

983

defm VMLALu : N3VLInt3_QHS<1,1,0b1000,0, "vmlal.u", int_arm_neon_vmlalu>;

984

// VQDMLAL : Vector Saturating Doubling Multiply Accumulate Long (Q += D * D)

985

defm VQDMLAL : N3VLInt3_HS<0, 1, 0b1001, 0, "vqdmlal.s", int_arm_neon_vqdmlal>;

986

// VMLS : Vector Multiply Subtract (integer and floating-point)

987

defm VMLS : N3VMulOp_QHS<0, 0, 0b1001, 0, "vmls.i", sub>;

988

def VMLSfd : N3VDMulOp<0, 0, 0b10, 0b1101, 1, "vmls.f32", v2f32, fmul, fsub>;

989

def VMLSfq : N3VQMulOp<0, 0, 0b10, 0b1101, 1, "vmls.f32", v4f32, fmul, fsub>;

990

// VMLSL : Vector Multiply Subtract Long (Q -= D * D)

991

defm VMLSLs : N3VLInt3_QHS<0,1,0b1010,0, "vmlsl.s", int_arm_neon_vmlsls>;

992

defm VMLSLu : N3VLInt3_QHS<1,1,0b1010,0, "vmlsl.u", int_arm_neon_vmlslu>;

993

// VQDMLSL : Vector Saturating Doubling Multiply Subtract Long (Q -= D * D)

994

defm VQDMLSL : N3VLInt3_HS<0, 1, 0b1011, 0, "vqdmlsl.s", int_arm_neon_vqdmlsl>;

995

David Goodwin

2009-08-04 17:53:06 +0000

[diff] [blame]

996

// Vector Multiply-Accumulate/Subtract used for single-precision FP

997

def : N3VDMulOps<fmul, fadd, VMLAfd>;

David Goodwin

f31748c

2009-08-04 18:44:29 +0000

[diff] [blame]

998

def : N3VDMulOps<fmul, fsub, VMLSfd>;

David Goodwin

2009-08-04 17:53:06 +0000

[diff] [blame]

999

Bob Wilson

2009-06-22 23:27:02 +0000

[diff] [blame]

1000

// Vector Subtract Operations.

1001

1002

// VSUB : Vector Subtract (integer and floating-point)

1003

defm VSUB : N3V_QHSD<1, 0, 0b1000, 0, "vsub.i", sub, 0>;

1004

def VSUBfd : N3VD<0, 0, 0b10, 0b1101, 0, "vsub.f32", v2f32, v2f32, fsub, 0>;

1005

def VSUBfq : N3VQ<0, 0, 0b10, 0b1101, 0, "vsub.f32", v4f32, v4f32, fsub, 0>;

1006

// VSUBL : Vector Subtract Long (Q = D - D)

1007

defm VSUBLs : N3VLInt_QHS<0,1,0b0010,0, "vsubl.s", int_arm_neon_vsubls, 1>;

1008

defm VSUBLu : N3VLInt_QHS<1,1,0b0010,0, "vsubl.u", int_arm_neon_vsublu, 1>;

1009

// VSUBW : Vector Subtract Wide (Q = Q - D)

1010

defm VSUBWs : N3VWInt_QHS<0,1,0b0011,0, "vsubw.s", int_arm_neon_vsubws, 0>;

1011

defm VSUBWu : N3VWInt_QHS<1,1,0b0011,0, "vsubw.u", int_arm_neon_vsubwu, 0>;

1012

// VHSUB : Vector Halving Subtract

1013

defm VHSUBs : N3VInt_QHS<0, 0, 0b0010, 0, "vhsub.s", int_arm_neon_vhsubs, 0>;

1014

defm VHSUBu : N3VInt_QHS<1, 0, 0b0010, 0, "vhsub.u", int_arm_neon_vhsubu, 0>;

1015

// VQSUB : Vector Saturing Subtract

1016

defm VQSUBs : N3VInt_QHSD<0, 0, 0b0010, 1, "vqsub.s", int_arm_neon_vqsubs, 0>;

1017

defm VQSUBu : N3VInt_QHSD<1, 0, 0b0010, 1, "vqsub.u", int_arm_neon_vqsubu, 0>;

1018

// VSUBHN : Vector Subtract and Narrow Returning High Half (D = Q - Q)

1019

defm VSUBHN : N3VNInt_HSD<0,1,0b0110,0, "vsubhn.i", int_arm_neon_vsubhn, 0>;

1020

// VRSUBHN : Vector Rounding Subtract and Narrow Returning High Half (D=Q-Q)

1021

defm VRSUBHN : N3VNInt_HSD<1,1,0b0110,0, "vrsubhn.i", int_arm_neon_vrsubhn, 0>;

1022

David Goodwin

2009-08-04 17:53:06 +0000

[diff] [blame]

1023

// Vector Sub Operations used for single-precision FP

1024

def : N3VDs<fsub, VSUBfd>;

1025

Bob Wilson

2009-06-22 23:27:02 +0000

[diff] [blame]

1026

// Vector Comparisons.

1027

1028

// VCEQ : Vector Compare Equal

1029

defm VCEQ : N3V_QHS<1, 0, 0b1000, 1, "vceq.i", NEONvceq, 1>;

1030

def VCEQfd : N3VD<0,0,0b00,0b1110,0, "vceq.f32", v2i32, v2f32, NEONvceq, 1>;

1031

def VCEQfq : N3VQ<0,0,0b00,0b1110,0, "vceq.f32", v4i32, v4f32, NEONvceq, 1>;

1032

// VCGE : Vector Compare Greater Than or Equal

1033

defm VCGEs : N3V_QHS<0, 0, 0b0011, 1, "vcge.s", NEONvcge, 0>;

1034

defm VCGEu : N3V_QHS<1, 0, 0b0011, 1, "vcge.u", NEONvcgeu, 0>;

1035

def VCGEfd : N3VD<1,0,0b00,0b1110,0, "vcge.f32", v2i32, v2f32, NEONvcge, 0>;

1036

def VCGEfq : N3VQ<1,0,0b00,0b1110,0, "vcge.f32", v4i32, v4f32, NEONvcge, 0>;

1037

// VCGT : Vector Compare Greater Than

1038

defm VCGTs : N3V_QHS<0, 0, 0b0011, 0, "vcgt.s", NEONvcgt, 0>;

1039

defm VCGTu : N3V_QHS<1, 0, 0b0011, 0, "vcgt.u", NEONvcgtu, 0>;

1040

def VCGTfd : N3VD<1,0,0b10,0b1110,0, "vcgt.f32", v2i32, v2f32, NEONvcgt, 0>;

1041

def VCGTfq : N3VQ<1,0,0b10,0b1110,0, "vcgt.f32", v4i32, v4f32, NEONvcgt, 0>;

1042

// VACGE : Vector Absolute Compare Greater Than or Equal (aka VCAGE)

1043

def VACGEd : N3VDInt<1, 0, 0b00, 0b1110, 1, "vacge.f32", v2i32, v2f32,

1044

int_arm_neon_vacged, 0>;

1045

def VACGEq : N3VQInt<1, 0, 0b00, 0b1110, 1, "vacge.f32", v4i32, v4f32,

1046

int_arm_neon_vacgeq, 0>;

1047

// VACGT : Vector Absolute Compare Greater Than (aka VCAGT)

1048

def VACGTd : N3VDInt<1, 0, 0b10, 0b1110, 1, "vacgt.f32", v2i32, v2f32,

1049

int_arm_neon_vacgtd, 0>;

1050

def VACGTq : N3VQInt<1, 0, 0b10, 0b1110, 1, "vacgt.f32", v4i32, v4f32,

1051

int_arm_neon_vacgtq, 0>;

1052

// VTST : Vector Test Bits

1053

defm VTST : N3V_QHS<0, 0, 0b1000, 1, "vtst.i", NEONvtst, 1>;

1054

1055

// Vector Bitwise Operations.

1056

1057

// VAND : Vector Bitwise AND

1058

def VANDd : N3VD<0, 0, 0b00, 0b0001, 1, "vand", v2i32, v2i32, and, 1>;

1059

def VANDq : N3VQ<0, 0, 0b00, 0b0001, 1, "vand", v4i32, v4i32, and, 1>;

1060

1061

// VEOR : Vector Bitwise Exclusive OR

1062

def VEORd : N3VD<1, 0, 0b00, 0b0001, 1, "veor", v2i32, v2i32, xor, 1>;

1063

def VEORq : N3VQ<1, 0, 0b00, 0b0001, 1, "veor", v4i32, v4i32, xor, 1>;

1064

1065

// VORR : Vector Bitwise OR

1066

def VORRd : N3VD<0, 0, 0b10, 0b0001, 1, "vorr", v2i32, v2i32, or, 1>;

1067

def VORRq : N3VQ<0, 0, 0b10, 0b0001, 1, "vorr", v4i32, v4i32, or, 1>;

1068

1069

// VBIC : Vector Bitwise Bit Clear (AND NOT)

1070

def VBICd : N3V<0, 0, 0b01, 0b0001, 0, 1, (outs DPR:$dst),

1071

(ins DPR:$src1, DPR:$src2), "vbic\t$dst, $src1, $src2", "",

1072

[(set DPR:$dst, (v2i32 (and DPR:$src1,(vnot DPR:$src2))))]>;

1073

def VBICq : N3V<0, 0, 0b01, 0b0001, 1, 1, (outs QPR:$dst),

1074

(ins QPR:$src1, QPR:$src2), "vbic\t$dst, $src1, $src2", "",

1075

[(set QPR:$dst, (v4i32 (and QPR:$src1,(vnot QPR:$src2))))]>;

1076

1077

// VORN : Vector Bitwise OR NOT

1078

def VORNd : N3V<0, 0, 0b11, 0b0001, 0, 1, (outs DPR:$dst),

1079

(ins DPR:$src1, DPR:$src2), "vorn\t$dst, $src1, $src2", "",

1080

[(set DPR:$dst, (v2i32 (or DPR:$src1, (vnot DPR:$src2))))]>;

1081

def VORNq : N3V<0, 0, 0b11, 0b0001, 1, 1, (outs QPR:$dst),

1082

(ins QPR:$src1, QPR:$src2), "vorn\t$dst, $src1, $src2", "",

1083

[(set QPR:$dst, (v4i32 (or QPR:$src1, (vnot QPR:$src2))))]>;

1084

1085

// VMVN : Vector Bitwise NOT

1086

def VMVNd : N2V<0b11, 0b11, 0b00, 0b00, 0b01011, 0, 0,

1087

(outs DPR:$dst), (ins DPR:$src), "vmvn\t$dst, $src", "",

1088

[(set DPR:$dst, (v2i32 (vnot DPR:$src)))]>;

1089

def VMVNq : N2V<0b11, 0b11, 0b00, 0b00, 0b01011, 1, 0,

1090

(outs QPR:$dst), (ins QPR:$src), "vmvn\t$dst, $src", "",

1091

[(set QPR:$dst, (v4i32 (vnot QPR:$src)))]>;

1092

def : Pat<(v2i32 (vnot_conv DPR:$src)), (VMVNd DPR:$src)>;

1093

def : Pat<(v4i32 (vnot_conv QPR:$src)), (VMVNq QPR:$src)>;

1094

1095

// VBSL : Vector Bitwise Select

1096

def VBSLd : N3V<1, 0, 0b01, 0b0001, 0, 1, (outs DPR:$dst),

1097

(ins DPR:$src1, DPR:$src2, DPR:$src3),

1098

"vbsl\t$dst, $src2, $src3", "$src1 = $dst",

1099

[(set DPR:$dst,

1100

(v2i32 (or (and DPR:$src2, DPR:$src1),

1101

(and DPR:$src3, (vnot DPR:$src1)))))]>;

1102

def VBSLq : N3V<1, 0, 0b01, 0b0001, 1, 1, (outs QPR:$dst),

1103

(ins QPR:$src1, QPR:$src2, QPR:$src3),

1104

"vbsl\t$dst, $src2, $src3", "$src1 = $dst",

1105

[(set QPR:$dst,

1106

(v4i32 (or (and QPR:$src2, QPR:$src1),

1107

(and QPR:$src3, (vnot QPR:$src1)))))]>;

1108

1109

// VBIF : Vector Bitwise Insert if False

1110

// like VBSL but with: "vbif\t$dst, $src3, $src1", "$src2 = $dst",

1111

// VBIT : Vector Bitwise Insert if True

1112

// like VBSL but with: "vbit\t$dst, $src2, $src1", "$src3 = $dst",

1113

// These are not yet implemented. The TwoAddress pass will not go looking

1114

// for equivalent operations with different register constraints; it just

1115

// inserts copies.

1116

1117

// Vector Absolute Differences.

1118

1119

// VABD : Vector Absolute Difference

1120

defm VABDs : N3VInt_QHS<0, 0, 0b0111, 0, "vabd.s", int_arm_neon_vabds, 0>;

1121

defm VABDu : N3VInt_QHS<1, 0, 0b0111, 0, "vabd.u", int_arm_neon_vabdu, 0>;

1122

def VABDfd : N3VDInt<1, 0, 0b10, 0b1101, 0, "vabd.f32", v2f32, v2f32,

1123

int_arm_neon_vabdf, 0>;

1124

def VABDfq : N3VQInt<1, 0, 0b10, 0b1101, 0, "vabd.f32", v4f32, v4f32,

1125

int_arm_neon_vabdf, 0>;

1126

1127

// VABDL : Vector Absolute Difference Long (Q = | D - D |)

1128

defm VABDLs : N3VLInt_QHS<0,1,0b0111,0, "vabdl.s", int_arm_neon_vabdls, 0>;

1129

defm VABDLu : N3VLInt_QHS<1,1,0b0111,0, "vabdl.u", int_arm_neon_vabdlu, 0>;

1130

1131

// VABA : Vector Absolute Difference and Accumulate

1132

defm VABAs : N3VInt3_QHS<0,1,0b0101,0, "vaba.s", int_arm_neon_vabas>;

1133

defm VABAu : N3VInt3_QHS<1,1,0b0101,0, "vaba.u", int_arm_neon_vabau>;

1134

1135

// VABAL : Vector Absolute Difference and Accumulate Long (Q += | D - D |)

1136

defm VABALs : N3VLInt3_QHS<0,1,0b0101,0, "vabal.s", int_arm_neon_vabals>;

1137

defm VABALu : N3VLInt3_QHS<1,1,0b0101,0, "vabal.u", int_arm_neon_vabalu>;

1138

1139

// Vector Maximum and Minimum.

1140

1141

// VMAX : Vector Maximum

1142

defm VMAXs : N3VInt_QHS<0, 0, 0b0110, 0, "vmax.s", int_arm_neon_vmaxs, 1>;

1143

defm VMAXu : N3VInt_QHS<1, 0, 0b0110, 0, "vmax.u", int_arm_neon_vmaxu, 1>;

1144

def VMAXfd : N3VDInt<0, 0, 0b00, 0b1111, 0, "vmax.f32", v2f32, v2f32,

1145

int_arm_neon_vmaxf, 1>;

1146

def VMAXfq : N3VQInt<0, 0, 0b00, 0b1111, 0, "vmax.f32", v4f32, v4f32,

1147

int_arm_neon_vmaxf, 1>;

1148

1149

// VMIN : Vector Minimum

1150

defm VMINs : N3VInt_QHS<0, 0, 0b0110, 1, "vmin.s", int_arm_neon_vmins, 1>;

1151

defm VMINu : N3VInt_QHS<1, 0, 0b0110, 1, "vmin.u", int_arm_neon_vminu, 1>;

1152

def VMINfd : N3VDInt<0, 0, 0b10, 0b1111, 0, "vmin.f32", v2f32, v2f32,

1153

int_arm_neon_vminf, 1>;

1154

def VMINfq : N3VQInt<0, 0, 0b10, 0b1111, 0, "vmin.f32", v4f32, v4f32,

1155

int_arm_neon_vminf, 1>;

1156

1157

// Vector Pairwise Operations.

1158

1159

// VPADD : Vector Pairwise Add

1160

def VPADDi8 : N3VDInt<0, 0, 0b00, 0b1011, 1, "vpadd.i8", v8i8, v8i8,

1161

int_arm_neon_vpaddi, 0>;

1162

def VPADDi16 : N3VDInt<0, 0, 0b01, 0b1011, 1, "vpadd.i16", v4i16, v4i16,

1163

int_arm_neon_vpaddi, 0>;

1164

def VPADDi32 : N3VDInt<0, 0, 0b10, 0b1011, 1, "vpadd.i32", v2i32, v2i32,

1165

int_arm_neon_vpaddi, 0>;

1166

def VPADDf : N3VDInt<1, 0, 0b00, 0b1101, 0, "vpadd.f32", v2f32, v2f32,

1167

int_arm_neon_vpaddf, 0>;

1168

1169

// VPADDL : Vector Pairwise Add Long

1170

defm VPADDLs : N2VPLInt_QHS<0b11, 0b11, 0b00, 0b00100, 0, "vpaddl.s",

1171

int_arm_neon_vpaddls>;

1172

defm VPADDLu : N2VPLInt_QHS<0b11, 0b11, 0b00, 0b00101, 0, "vpaddl.u",

1173

int_arm_neon_vpaddlu>;

1174

1175

// VPADAL : Vector Pairwise Add and Accumulate Long

1176

defm VPADALs : N2VPLInt2_QHS<0b11, 0b11, 0b00, 0b00100, 0, "vpadal.s",

1177

int_arm_neon_vpadals>;

1178

defm VPADALu : N2VPLInt2_QHS<0b11, 0b11, 0b00, 0b00101, 0, "vpadal.u",

1179

int_arm_neon_vpadalu>;

1180

1181

// VPMAX : Vector Pairwise Maximum

1182

def VPMAXs8 : N3VDInt<0, 0, 0b00, 0b1010, 0, "vpmax.s8", v8i8, v8i8,

1183

int_arm_neon_vpmaxs, 0>;

1184

def VPMAXs16 : N3VDInt<0, 0, 0b01, 0b1010, 0, "vpmax.s16", v4i16, v4i16,

1185

int_arm_neon_vpmaxs, 0>;

1186

def VPMAXs32 : N3VDInt<0, 0, 0b10, 0b1010, 0, "vpmax.s32", v2i32, v2i32,

1187

int_arm_neon_vpmaxs, 0>;

1188

def VPMAXu8 : N3VDInt<1, 0, 0b00, 0b1010, 0, "vpmax.u8", v8i8, v8i8,

1189

int_arm_neon_vpmaxu, 0>;

1190

def VPMAXu16 : N3VDInt<1, 0, 0b01, 0b1010, 0, "vpmax.u16", v4i16, v4i16,

1191

int_arm_neon_vpmaxu, 0>;

1192

def VPMAXu32 : N3VDInt<1, 0, 0b10, 0b1010, 0, "vpmax.u32", v2i32, v2i32,

1193

int_arm_neon_vpmaxu, 0>;

1194

def VPMAXf : N3VDInt<1, 0, 0b00, 0b1111, 0, "vpmax.f32", v2f32, v2f32,

1195

int_arm_neon_vpmaxf, 0>;

1196

1197

// VPMIN : Vector Pairwise Minimum

1198

def VPMINs8 : N3VDInt<0, 0, 0b00, 0b1010, 1, "vpmin.s8", v8i8, v8i8,

1199

int_arm_neon_vpmins, 0>;

1200

def VPMINs16 : N3VDInt<0, 0, 0b01, 0b1010, 1, "vpmin.s16", v4i16, v4i16,

1201

int_arm_neon_vpmins, 0>;

1202

def VPMINs32 : N3VDInt<0, 0, 0b10, 0b1010, 1, "vpmin.s32", v2i32, v2i32,

1203

int_arm_neon_vpmins, 0>;

1204

def VPMINu8 : N3VDInt<1, 0, 0b00, 0b1010, 1, "vpmin.u8", v8i8, v8i8,

1205

int_arm_neon_vpminu, 0>;

1206

def VPMINu16 : N3VDInt<1, 0, 0b01, 0b1010, 1, "vpmin.u16", v4i16, v4i16,

1207

int_arm_neon_vpminu, 0>;

1208

def VPMINu32 : N3VDInt<1, 0, 0b10, 0b1010, 1, "vpmin.u32", v2i32, v2i32,

1209

int_arm_neon_vpminu, 0>;

1210

def VPMINf : N3VDInt<1, 0, 0b10, 0b1111, 0, "vpmin.f32", v2f32, v2f32,

1211

int_arm_neon_vpminf, 0>;

1212

1213

// Vector Reciprocal and Reciprocal Square Root Estimate and Step.

1214

1215

// VRECPE : Vector Reciprocal Estimate

1216

def VRECPEd : N2VDInt<0b11, 0b11, 0b10, 0b11, 0b01000, 0, "vrecpe.u32",

1217

v2i32, v2i32, int_arm_neon_vrecpe>;

1218

def VRECPEq : N2VQInt<0b11, 0b11, 0b10, 0b11, 0b01000, 0, "vrecpe.u32",

1219

v4i32, v4i32, int_arm_neon_vrecpe>;

1220

def VRECPEfd : N2VDInt<0b11, 0b11, 0b10, 0b11, 0b01010, 0, "vrecpe.f32",

1221

v2f32, v2f32, int_arm_neon_vrecpef>;

1222

def VRECPEfq : N2VQInt<0b11, 0b11, 0b10, 0b11, 0b01010, 0, "vrecpe.f32",

1223

v4f32, v4f32, int_arm_neon_vrecpef>;

1224

1225

// VRECPS : Vector Reciprocal Step

1226

def VRECPSfd : N3VDInt<0, 0, 0b00, 0b1111, 1, "vrecps.f32", v2f32, v2f32,

1227

int_arm_neon_vrecps, 1>;

1228

def VRECPSfq : N3VQInt<0, 0, 0b00, 0b1111, 1, "vrecps.f32", v4f32, v4f32,

1229

int_arm_neon_vrecps, 1>;

1230

1231

// VRSQRTE : Vector Reciprocal Square Root Estimate

1232

def VRSQRTEd : N2VDInt<0b11, 0b11, 0b10, 0b11, 0b01001, 0, "vrsqrte.u32",

1233

v2i32, v2i32, int_arm_neon_vrsqrte>;

1234

def VRSQRTEq : N2VQInt<0b11, 0b11, 0b10, 0b11, 0b01001, 0, "vrsqrte.u32",

1235

v4i32, v4i32, int_arm_neon_vrsqrte>;

1236

def VRSQRTEfd : N2VDInt<0b11, 0b11, 0b10, 0b11, 0b01011, 0, "vrsqrte.f32",

1237

v2f32, v2f32, int_arm_neon_vrsqrtef>;

1238

def VRSQRTEfq : N2VQInt<0b11, 0b11, 0b10, 0b11, 0b01011, 0, "vrsqrte.f32",

1239

v4f32, v4f32, int_arm_neon_vrsqrtef>;

1240

1241

// VRSQRTS : Vector Reciprocal Square Root Step

1242

def VRSQRTSfd : N3VDInt<0, 0, 0b10, 0b1111, 1, "vrsqrts.f32", v2f32, v2f32,

1243

int_arm_neon_vrsqrts, 1>;

1244

def VRSQRTSfq : N3VQInt<0, 0, 0b10, 0b1111, 1, "vrsqrts.f32", v4f32, v4f32,

1245

int_arm_neon_vrsqrts, 1>;

// Vector Shifts.

// VSHL : Vector Shift

1250

defm VSHLs : N3VInt_QHSD<0, 0, 0b0100, 0, "vshl.s", int_arm_neon_vshifts, 0>;

1251

defm VSHLu : N3VInt_QHSD<1, 0, 0b0100, 0, "vshl.u", int_arm_neon_vshiftu, 0>;

1252

// VSHL : Vector Shift Left (Immediate)

1253

defm VSHLi : N2VSh_QHSD<0, 1, 0b0111, 1, "vshl.i", NEONvshl>;

1254

// VSHR : Vector Shift Right (Immediate)

1255

defm VSHRs : N2VSh_QHSD<0, 1, 0b0000, 1, "vshr.s", NEONvshrs>;

1256

defm VSHRu : N2VSh_QHSD<1, 1, 0b0000, 1, "vshr.u", NEONvshru>;

1257

1258

// VSHLL : Vector Shift Left Long

1259

def VSHLLs8 : N2VLSh<0, 1, 0b001000, 0b1010, 0, 0, 1, "vshll.s8",

1260

v8i16, v8i8, NEONvshlls>;

1261

def VSHLLs16 : N2VLSh<0, 1, 0b010000, 0b1010, 0, 0, 1, "vshll.s16",

1262

v4i32, v4i16, NEONvshlls>;

1263

def VSHLLs32 : N2VLSh<0, 1, 0b100000, 0b1010, 0, 0, 1, "vshll.s32",

1264

v2i64, v2i32, NEONvshlls>;

1265

def VSHLLu8 : N2VLSh<1, 1, 0b001000, 0b1010, 0, 0, 1, "vshll.u8",

1266

v8i16, v8i8, NEONvshllu>;

1267

def VSHLLu16 : N2VLSh<1, 1, 0b010000, 0b1010, 0, 0, 1, "vshll.u16",

1268

v4i32, v4i16, NEONvshllu>;

1269

def VSHLLu32 : N2VLSh<1, 1, 0b100000, 0b1010, 0, 0, 1, "vshll.u32",

1270

v2i64, v2i32, NEONvshllu>;

1271

1272

// VSHLL : Vector Shift Left Long (with maximum shift count)

1273

def VSHLLi8 : N2VLSh<1, 1, 0b110010, 0b0011, 0, 0, 0, "vshll.i8",

1274

v8i16, v8i8, NEONvshlli>;

1275

def VSHLLi16 : N2VLSh<1, 1, 0b110110, 0b0011, 0, 0, 0, "vshll.i16",

1276

v4i32, v4i16, NEONvshlli>;

1277

def VSHLLi32 : N2VLSh<1, 1, 0b111010, 0b0011, 0, 0, 0, "vshll.i32",

1278

v2i64, v2i32, NEONvshlli>;

1279

1280

// VSHRN : Vector Shift Right and Narrow

1281

def VSHRN16 : N2VNSh<0, 1, 0b001000, 0b1000, 0, 0, 1, "vshrn.i16",

1282

v8i8, v8i16, NEONvshrn>;

1283

def VSHRN32 : N2VNSh<0, 1, 0b010000, 0b1000, 0, 0, 1, "vshrn.i32",

1284

v4i16, v4i32, NEONvshrn>;

1285

def VSHRN64 : N2VNSh<0, 1, 0b100000, 0b1000, 0, 0, 1, "vshrn.i64",

1286

v2i32, v2i64, NEONvshrn>;

1287

1288

// VRSHL : Vector Rounding Shift

1289

defm VRSHLs : N3VInt_QHSD<0,0,0b0101,0, "vrshl.s", int_arm_neon_vrshifts, 0>;

1290

defm VRSHLu : N3VInt_QHSD<1,0,0b0101,0, "vrshl.u", int_arm_neon_vrshiftu, 0>;

1291

// VRSHR : Vector Rounding Shift Right

1292

defm VRSHRs : N2VSh_QHSD<0, 1, 0b0010, 1, "vrshr.s", NEONvrshrs>;

1293

defm VRSHRu : N2VSh_QHSD<1, 1, 0b0010, 1, "vrshr.u", NEONvrshru>;

1294

1295

// VRSHRN : Vector Rounding Shift Right and Narrow

1296

def VRSHRN16 : N2VNSh<0, 1, 0b001000, 0b1000, 0, 1, 1, "vrshrn.i16",

1297

v8i8, v8i16, NEONvrshrn>;

1298

def VRSHRN32 : N2VNSh<0, 1, 0b010000, 0b1000, 0, 1, 1, "vrshrn.i32",

1299

v4i16, v4i32, NEONvrshrn>;

1300

def VRSHRN64 : N2VNSh<0, 1, 0b100000, 0b1000, 0, 1, 1, "vrshrn.i64",

1301

v2i32, v2i64, NEONvrshrn>;

1302

1303

// VQSHL : Vector Saturating Shift

1304

defm VQSHLs : N3VInt_QHSD<0,0,0b0100,1, "vqshl.s", int_arm_neon_vqshifts, 0>;

1305

defm VQSHLu : N3VInt_QHSD<1,0,0b0100,1, "vqshl.u", int_arm_neon_vqshiftu, 0>;

1306

// VQSHL : Vector Saturating Shift Left (Immediate)

1307

defm VQSHLsi : N2VSh_QHSD<0, 1, 0b0111, 1, "vqshl.s", NEONvqshls>;

1308

defm VQSHLui : N2VSh_QHSD<1, 1, 0b0111, 1, "vqshl.u", NEONvqshlu>;

1309

// VQSHLU : Vector Saturating Shift Left (Immediate, Unsigned)

1310

defm VQSHLsu : N2VSh_QHSD<1, 1, 0b0110, 1, "vqshlu.s", NEONvqshlsu>;

1311

1312

// VQSHRN : Vector Saturating Shift Right and Narrow

1313

def VQSHRNs16 : N2VNSh<0, 1, 0b001000, 0b1001, 0, 0, 1, "vqshrn.s16",

1314

v8i8, v8i16, NEONvqshrns>;

1315

def VQSHRNs32 : N2VNSh<0, 1, 0b010000, 0b1001, 0, 0, 1, "vqshrn.s32",

1316

v4i16, v4i32, NEONvqshrns>;

1317

def VQSHRNs64 : N2VNSh<0, 1, 0b100000, 0b1001, 0, 0, 1, "vqshrn.s64",

1318

v2i32, v2i64, NEONvqshrns>;

1319

def VQSHRNu16 : N2VNSh<1, 1, 0b001000, 0b1001, 0, 0, 1, "vqshrn.u16",

1320

v8i8, v8i16, NEONvqshrnu>;

1321

def VQSHRNu32 : N2VNSh<1, 1, 0b010000, 0b1001, 0, 0, 1, "vqshrn.u32",

1322

v4i16, v4i32, NEONvqshrnu>;

1323

def VQSHRNu64 : N2VNSh<1, 1, 0b100000, 0b1001, 0, 0, 1, "vqshrn.u64",

1324

v2i32, v2i64, NEONvqshrnu>;

1325

1326

// VQSHRUN : Vector Saturating Shift Right and Narrow (Unsigned)

1327

def VQSHRUN16 : N2VNSh<1, 1, 0b001000, 0b1000, 0, 0, 1, "vqshrun.s16",

1328

v8i8, v8i16, NEONvqshrnsu>;

1329

def VQSHRUN32 : N2VNSh<1, 1, 0b010000, 0b1000, 0, 0, 1, "vqshrun.s32",

1330

v4i16, v4i32, NEONvqshrnsu>;

1331

def VQSHRUN64 : N2VNSh<1, 1, 0b100000, 0b1000, 0, 0, 1, "vqshrun.s64",

1332

v2i32, v2i64, NEONvqshrnsu>;

1333

1334

// VQRSHL : Vector Saturating Rounding Shift

1335

defm VQRSHLs : N3VInt_QHSD<0, 0, 0b0101, 1, "vqrshl.s",

1336

int_arm_neon_vqrshifts, 0>;

1337

defm VQRSHLu : N3VInt_QHSD<1, 0, 0b0101, 1, "vqrshl.u",

1338

int_arm_neon_vqrshiftu, 0>;

1339

1340

// VQRSHRN : Vector Saturating Rounding Shift Right and Narrow

1341

def VQRSHRNs16: N2VNSh<0, 1, 0b001000, 0b1001, 0, 1, 1, "vqrshrn.s16",

1342

v8i8, v8i16, NEONvqrshrns>;

1343

def VQRSHRNs32: N2VNSh<0, 1, 0b010000, 0b1001, 0, 1, 1, "vqrshrn.s32",

1344

v4i16, v4i32, NEONvqrshrns>;

1345

def VQRSHRNs64: N2VNSh<0, 1, 0b100000, 0b1001, 0, 1, 1, "vqrshrn.s64",

1346

v2i32, v2i64, NEONvqrshrns>;

1347

def VQRSHRNu16: N2VNSh<1, 1, 0b001000, 0b1001, 0, 1, 1, "vqrshrn.u16",

1348

v8i8, v8i16, NEONvqrshrnu>;

1349

def VQRSHRNu32: N2VNSh<1, 1, 0b010000, 0b1001, 0, 1, 1, "vqrshrn.u32",

1350

v4i16, v4i32, NEONvqrshrnu>;

1351

def VQRSHRNu64: N2VNSh<1, 1, 0b100000, 0b1001, 0, 1, 1, "vqrshrn.u64",

1352

v2i32, v2i64, NEONvqrshrnu>;

1353

1354

// VQRSHRUN : Vector Saturating Rounding Shift Right and Narrow (Unsigned)

1355

def VQRSHRUN16: N2VNSh<1, 1, 0b001000, 0b1000, 0, 1, 1, "vqrshrun.s16",

1356

v8i8, v8i16, NEONvqrshrnsu>;

1357

def VQRSHRUN32: N2VNSh<1, 1, 0b010000, 0b1000, 0, 1, 1, "vqrshrun.s32",

1358

v4i16, v4i32, NEONvqrshrnsu>;

1359

def VQRSHRUN64: N2VNSh<1, 1, 0b100000, 0b1000, 0, 1, 1, "vqrshrun.s64",

1360

v2i32, v2i64, NEONvqrshrnsu>;

1361

1362

// VSRA : Vector Shift Right and Accumulate

1363

defm VSRAs : N2VShAdd_QHSD<0, 1, 0b0001, 1, "vsra.s", NEONvshrs>;

1364

defm VSRAu : N2VShAdd_QHSD<1, 1, 0b0001, 1, "vsra.u", NEONvshru>;

1365

// VRSRA : Vector Rounding Shift Right and Accumulate

1366

defm VRSRAs : N2VShAdd_QHSD<0, 1, 0b0011, 1, "vrsra.s", NEONvrshrs>;

1367

defm VRSRAu : N2VShAdd_QHSD<1, 1, 0b0011, 1, "vrsra.u", NEONvrshru>;

1368

1369

// VSLI : Vector Shift Left and Insert

1370

defm VSLI : N2VShIns_QHSD<1, 1, 0b0101, 1, "vsli.", NEONvsli>;

1371

// VSRI : Vector Shift Right and Insert

1372

defm VSRI : N2VShIns_QHSD<1, 1, 0b0100, 1, "vsri.", NEONvsri>;

1373

1374

// Vector Absolute and Saturating Absolute.

1375

1376

// VABS : Vector Absolute Value

1377

defm VABS : N2VInt_QHS<0b11, 0b11, 0b01, 0b00110, 0, "vabs.s",

1378

int_arm_neon_vabs>;

1379

def VABSfd : N2VDInt<0b11, 0b11, 0b10, 0b01, 0b01110, 0, "vabs.f32",

1380

v2f32, v2f32, int_arm_neon_vabsf>;

1381

def VABSfq : N2VQInt<0b11, 0b11, 0b10, 0b01, 0b01110, 0, "vabs.f32",

1382

v4f32, v4f32, int_arm_neon_vabsf>;

David Goodwin

bc7c05e

2009-08-04 20:39:05 +0000

[diff] [blame]

1383

def : N2VDInts<fabs, VABSfd>;

Bob Wilson

2009-06-22 23:27:02 +0000

[diff] [blame]

1384

1385

// VQABS : Vector Saturating Absolute Value

1386

defm VQABS : N2VInt_QHS<0b11, 0b11, 0b00, 0b01110, 0, "vqabs.s",

int_arm_neon_vqabs>;

// Vector Negate.

def vneg : PatFrag<(ops node:$in), (sub immAllZerosV, node:$in)>;

1392

def vneg_conv : PatFrag<(ops node:$in), (sub immAllZerosV_bc, node:$in)>;

1393

1394

class VNEGD<bits<2> size, string OpcodeStr, ValueType Ty>

1395

: N2V<0b11, 0b11, size, 0b01, 0b00111, 0, 0, (outs DPR:$dst), (ins DPR:$src),

1396

!strconcat(OpcodeStr, "\t$dst, $src"), "",

1397

[(set DPR:$dst, (Ty (vneg DPR:$src)))]>;

1398

class VNEGQ<bits<2> size, string OpcodeStr, ValueType Ty>

1399

: N2V<0b11, 0b11, size, 0b01, 0b00111, 1, 0, (outs QPR:$dst), (ins QPR:$src),

1400

!strconcat(OpcodeStr, "\t$dst, $src"), "",

1401

[(set QPR:$dst, (Ty (vneg QPR:$src)))]>;

1402

1403

// VNEG : Vector Negate

1404

def VNEGs8d : VNEGD<0b00, "vneg.s8", v8i8>;

1405

def VNEGs16d : VNEGD<0b01, "vneg.s16", v4i16>;

1406

def VNEGs32d : VNEGD<0b10, "vneg.s32", v2i32>;

1407

def VNEGs8q : VNEGQ<0b00, "vneg.s8", v16i8>;

1408

def VNEGs16q : VNEGQ<0b01, "vneg.s16", v8i16>;

1409

def VNEGs32q : VNEGQ<0b10, "vneg.s32", v4i32>;

1410

1411

// VNEG : Vector Negate (floating-point)

1412

def VNEGf32d : N2V<0b11, 0b11, 0b10, 0b01, 0b01111, 0, 0,

1413

(outs DPR:$dst), (ins DPR:$src), "vneg.f32\t$dst, $src", "",

1414

[(set DPR:$dst, (v2f32 (fneg DPR:$src)))]>;

1415

def VNEGf32q : N2V<0b11, 0b11, 0b10, 0b01, 0b01111, 1, 0,

1416

(outs QPR:$dst), (ins QPR:$src), "vneg.f32\t$dst, $src", "",

1417

[(set QPR:$dst, (v4f32 (fneg QPR:$src)))]>;

David Goodwin

bc7c05e

2009-08-04 20:39:05 +0000

[diff] [blame]

1418

def : N2VDInts<fneg, VNEGf32d>;

Bob Wilson

2009-06-22 23:27:02 +0000

[diff] [blame]

1419

1420

def : Pat<(v8i8 (vneg_conv DPR:$src)), (VNEGs8d DPR:$src)>;

1421

def : Pat<(v4i16 (vneg_conv DPR:$src)), (VNEGs16d DPR:$src)>;

1422

def : Pat<(v2i32 (vneg_conv DPR:$src)), (VNEGs32d DPR:$src)>;

1423

def : Pat<(v16i8 (vneg_conv QPR:$src)), (VNEGs8q QPR:$src)>;

1424

def : Pat<(v8i16 (vneg_conv QPR:$src)), (VNEGs16q QPR:$src)>;

1425

def : Pat<(v4i32 (vneg_conv QPR:$src)), (VNEGs32q QPR:$src)>;

1426

1427

// VQNEG : Vector Saturating Negate

1428

defm VQNEG : N2VInt_QHS<0b11, 0b11, 0b00, 0b01111, 0, "vqneg.s",

1429

int_arm_neon_vqneg>;

1430

1431

// Vector Bit Counting Operations.

1432

1433

// VCLS : Vector Count Leading Sign Bits

1434

defm VCLS : N2VInt_QHS<0b11, 0b11, 0b00, 0b01000, 0, "vcls.s",

1435

int_arm_neon_vcls>;

1436

// VCLZ : Vector Count Leading Zeros

1437

defm VCLZ : N2VInt_QHS<0b11, 0b11, 0b00, 0b01001, 0, "vclz.i",

1438

int_arm_neon_vclz>;

1439

// VCNT : Vector Count One Bits

1440

def VCNTd : N2VDInt<0b11, 0b11, 0b00, 0b00, 0b01010, 0, "vcnt.8",

1441

v8i8, v8i8, int_arm_neon_vcnt>;

1442

def VCNTq : N2VQInt<0b11, 0b11, 0b00, 0b00, 0b01010, 0, "vcnt.8",

1443

v16i8, v16i8, int_arm_neon_vcnt>;

1444

1445

// Vector Move Operations.

1446

1447

// VMOV : Vector Move (Register)

1448

1449

def VMOVD : N3V<0, 0, 0b10, 0b0001, 0, 1, (outs DPR:$dst), (ins DPR:$src),

1450

"vmov\t$dst, $src", "", []>;

1451

def VMOVQ : N3V<0, 0, 0b10, 0b0001, 1, 1, (outs QPR:$dst), (ins QPR:$src),

1452

"vmov\t$dst, $src", "", []>;

1453

1454

// VMOV : Vector Move (Immediate)

1455

1456

// VMOV_get_imm8 xform function: convert build_vector to VMOV.i8 imm.

1457

def VMOV_get_imm8 : SDNodeXForm<build_vector, [{

1458

return ARM::getVMOVImm(N, 1, *CurDAG);

1459

}]>;

1460

def vmovImm8 : PatLeaf<(build_vector), [{

1461

return ARM::getVMOVImm(N, 1, *CurDAG).getNode() != 0;

1462

}], VMOV_get_imm8>;

1463

1464

// VMOV_get_imm16 xform function: convert build_vector to VMOV.i16 imm.

1465

def VMOV_get_imm16 : SDNodeXForm<build_vector, [{

1466

return ARM::getVMOVImm(N, 2, *CurDAG);

1467

}]>;

1468

def vmovImm16 : PatLeaf<(build_vector), [{

1469

return ARM::getVMOVImm(N, 2, *CurDAG).getNode() != 0;

1470

}], VMOV_get_imm16>;

1471

1472

// VMOV_get_imm32 xform function: convert build_vector to VMOV.i32 imm.

1473

def VMOV_get_imm32 : SDNodeXForm<build_vector, [{

1474

return ARM::getVMOVImm(N, 4, *CurDAG);

1475

}]>;

1476

def vmovImm32 : PatLeaf<(build_vector), [{

1477

return ARM::getVMOVImm(N, 4, *CurDAG).getNode() != 0;

1478

}], VMOV_get_imm32>;

1479

1480

// VMOV_get_imm64 xform function: convert build_vector to VMOV.i64 imm.

1481

def VMOV_get_imm64 : SDNodeXForm<build_vector, [{

1482

return ARM::getVMOVImm(N, 8, *CurDAG);

1483

}]>;

1484

def vmovImm64 : PatLeaf<(build_vector), [{

1485

return ARM::getVMOVImm(N, 8, *CurDAG).getNode() != 0;

1486

}], VMOV_get_imm64>;

1487

1488

// Note: Some of the cmode bits in the following VMOV instructions need to

1489

// be encoded based on the immed values.

1490

1491

def VMOVv8i8 : N1ModImm<1, 0b000, 0b1110, 0, 0, 0, 1, (outs DPR:$dst),

1492

(ins i8imm:$SIMM), "vmov.i8\t$dst, $SIMM", "",

1493

[(set DPR:$dst, (v8i8 vmovImm8:$SIMM))]>;

1494

def VMOVv16i8 : N1ModImm<1, 0b000, 0b1110, 0, 1, 0, 1, (outs QPR:$dst),

1495

(ins i8imm:$SIMM), "vmov.i8\t$dst, $SIMM", "",

1496

[(set QPR:$dst, (v16i8 vmovImm8:$SIMM))]>;

1497

1498

def VMOVv4i16 : N1ModImm<1, 0b000, 0b1000, 0, 0, 0, 1, (outs DPR:$dst),

1499

(ins i16imm:$SIMM), "vmov.i16\t$dst, $SIMM", "",

1500

[(set DPR:$dst, (v4i16 vmovImm16:$SIMM))]>;

1501

def VMOVv8i16 : N1ModImm<1, 0b000, 0b1000, 0, 1, 0, 1, (outs QPR:$dst),

1502

(ins i16imm:$SIMM), "vmov.i16\t$dst, $SIMM", "",

1503

[(set QPR:$dst, (v8i16 vmovImm16:$SIMM))]>;

1504

1505

def VMOVv2i32 : N1ModImm<1, 0b000, 0b0000, 0, 0, 0, 1, (outs DPR:$dst),

1506

(ins i32imm:$SIMM), "vmov.i32\t$dst, $SIMM", "",

1507

[(set DPR:$dst, (v2i32 vmovImm32:$SIMM))]>;

1508

def VMOVv4i32 : N1ModImm<1, 0b000, 0b0000, 0, 1, 0, 1, (outs QPR:$dst),

1509

(ins i32imm:$SIMM), "vmov.i32\t$dst, $SIMM", "",

1510

[(set QPR:$dst, (v4i32 vmovImm32:$SIMM))]>;

1511

1512

def VMOVv1i64 : N1ModImm<1, 0b000, 0b1110, 0, 0, 1, 1, (outs DPR:$dst),

1513

(ins i64imm:$SIMM), "vmov.i64\t$dst, $SIMM", "",

1514

[(set DPR:$dst, (v1i64 vmovImm64:$SIMM))]>;

1515

def VMOVv2i64 : N1ModImm<1, 0b000, 0b1110, 0, 1, 1, 1, (outs QPR:$dst),

1516

(ins i64imm:$SIMM), "vmov.i64\t$dst, $SIMM", "",

1517

[(set QPR:$dst, (v2i64 vmovImm64:$SIMM))]>;

1518

1519

// VMOV : Vector Get Lane (move scalar to ARM core register)

1520

1521

def VGETLNs8 : NVGetLane<0b11100101, 0b1011, 0b00,

1522

(outs GPR:$dst), (ins DPR:$src, i32imm:$lane),

1523

"vmov", ".s8\t$dst, $src[$lane]",

1524

[(set GPR:$dst, (NEONvgetlanes (v8i8 DPR:$src),

1525

imm:$lane))]>;

1526

def VGETLNs16 : NVGetLane<0b11100001, 0b1011, 0b01,

1527

(outs GPR:$dst), (ins DPR:$src, i32imm:$lane),

1528

"vmov", ".s16\t$dst, $src[$lane]",

1529

[(set GPR:$dst, (NEONvgetlanes (v4i16 DPR:$src),

1530

imm:$lane))]>;

1531

def VGETLNu8 : NVGetLane<0b11101101, 0b1011, 0b00,

1532

(outs GPR:$dst), (ins DPR:$src, i32imm:$lane),

1533

"vmov", ".u8\t$dst, $src[$lane]",

1534

[(set GPR:$dst, (NEONvgetlaneu (v8i8 DPR:$src),

1535

imm:$lane))]>;

1536

def VGETLNu16 : NVGetLane<0b11101001, 0b1011, 0b01,

1537

(outs GPR:$dst), (ins DPR:$src, i32imm:$lane),

1538

"vmov", ".u16\t$dst, $src[$lane]",

1539

[(set GPR:$dst, (NEONvgetlaneu (v4i16 DPR:$src),

1540

imm:$lane))]>;

1541

def VGETLNi32 : NVGetLane<0b11100001, 0b1011, 0b00,

1542

(outs GPR:$dst), (ins DPR:$src, i32imm:$lane),

1543

"vmov", ".32\t$dst, $src[$lane]",

1544

[(set GPR:$dst, (extractelt (v2i32 DPR:$src),

1545

imm:$lane))]>;

1546

// def VGETLNf32: see FMRDH and FMRDL in ARMInstrVFP.td

1547

def : Pat<(NEONvgetlanes (v16i8 QPR:$src), imm:$lane),

1548

(VGETLNs8 (v8i8 (EXTRACT_SUBREG QPR:$src,

1549

(SubReg_i8_reg imm:$lane))),

1550

(SubReg_i8_lane imm:$lane))>;

1551

def : Pat<(NEONvgetlanes (v8i16 QPR:$src), imm:$lane),

1552

(VGETLNs16 (v4i16 (EXTRACT_SUBREG QPR:$src,

1553

(SubReg_i16_reg imm:$lane))),

1554

(SubReg_i16_lane imm:$lane))>;

1555

def : Pat<(NEONvgetlaneu (v16i8 QPR:$src), imm:$lane),

1556

(VGETLNu8 (v8i8 (EXTRACT_SUBREG QPR:$src,

1557

(SubReg_i8_reg imm:$lane))),

1558

(SubReg_i8_lane imm:$lane))>;

1559

def : Pat<(NEONvgetlaneu (v8i16 QPR:$src), imm:$lane),

1560

(VGETLNu16 (v4i16 (EXTRACT_SUBREG QPR:$src,

1561

(SubReg_i16_reg imm:$lane))),

1562

(SubReg_i16_lane imm:$lane))>;

1563

def : Pat<(extractelt (v4i32 QPR:$src), imm:$lane),

1564

(VGETLNi32 (v2i32 (EXTRACT_SUBREG QPR:$src,

1565

(SubReg_i32_reg imm:$lane))),

1566

(SubReg_i32_lane imm:$lane))>;

1567

//def : Pat<(extractelt (v2i64 QPR:$src1), imm:$src2),

1568

// (EXTRACT_SUBREG QPR:$src1, (SubReg_f64_reg imm:$src2))>;

1569

def : Pat<(extractelt (v2f64 QPR:$src1), imm:$src2),

1570

(EXTRACT_SUBREG QPR:$src1, (SubReg_f64_reg imm:$src2))>;

1571

1572

1573

// VMOV : Vector Set Lane (move ARM core register to scalar)

1574

1575

let Constraints = "$src1 = $dst" in {

1576

def VSETLNi8 : NVSetLane<0b11100100, 0b1011, 0b00, (outs DPR:$dst),

1577

(ins DPR:$src1, GPR:$src2, i32imm:$lane),

1578

"vmov", ".8\t$dst[$lane], $src2",

1579

[(set DPR:$dst, (vector_insert (v8i8 DPR:$src1),

1580

GPR:$src2, imm:$lane))]>;

1581

def VSETLNi16 : NVSetLane<0b11100000, 0b1011, 0b01, (outs DPR:$dst),

1582

(ins DPR:$src1, GPR:$src2, i32imm:$lane),

1583

"vmov", ".16\t$dst[$lane], $src2",

1584

[(set DPR:$dst, (vector_insert (v4i16 DPR:$src1),

1585

GPR:$src2, imm:$lane))]>;

1586

def VSETLNi32 : NVSetLane<0b11100000, 0b1011, 0b00, (outs DPR:$dst),

1587

(ins DPR:$src1, GPR:$src2, i32imm:$lane),

1588

"vmov", ".32\t$dst[$lane], $src2",

1589

[(set DPR:$dst, (insertelt (v2i32 DPR:$src1),

1590

GPR:$src2, imm:$lane))]>;

1591

}

1592

def : Pat<(vector_insert (v16i8 QPR:$src1), GPR:$src2, imm:$lane),

1593

(v16i8 (INSERT_SUBREG QPR:$src1,

1594

(VSETLNi8 (v8i8 (EXTRACT_SUBREG QPR:$src1,

1595

(SubReg_i8_reg imm:$lane))),

1596

GPR:$src2, (SubReg_i8_lane imm:$lane)),

1597

(SubReg_i8_reg imm:$lane)))>;

1598

def : Pat<(vector_insert (v8i16 QPR:$src1), GPR:$src2, imm:$lane),

1599

(v8i16 (INSERT_SUBREG QPR:$src1,

1600

(VSETLNi16 (v4i16 (EXTRACT_SUBREG QPR:$src1,

1601

(SubReg_i16_reg imm:$lane))),

1602

GPR:$src2, (SubReg_i16_lane imm:$lane)),

1603

(SubReg_i16_reg imm:$lane)))>;

1604

def : Pat<(insertelt (v4i32 QPR:$src1), GPR:$src2, imm:$lane),

1605

(v4i32 (INSERT_SUBREG QPR:$src1,

1606

(VSETLNi32 (v2i32 (EXTRACT_SUBREG QPR:$src1,

1607

(SubReg_i32_reg imm:$lane))),

1608

GPR:$src2, (SubReg_i32_lane imm:$lane)),

1609

(SubReg_i32_reg imm:$lane)))>;

1610

1611

//def : Pat<(v2i64 (insertelt QPR:$src1, DPR:$src2, imm:$src3)),

1612

// (INSERT_SUBREG QPR:$src1, DPR:$src2, (SubReg_f64_reg imm:$src3))>;

1613

def : Pat<(v2f64 (insertelt QPR:$src1, DPR:$src2, imm:$src3)),

1614

(INSERT_SUBREG QPR:$src1, DPR:$src2, (SubReg_f64_reg imm:$src3))>;

1615

1616

// VDUP : Vector Duplicate (from ARM core register to all elements)

1617

1618

def splat_lo : PatFrag<(ops node:$lhs, node:$rhs),

1619

(vector_shuffle node:$lhs, node:$rhs), [{

1620

ShuffleVectorSDNode *SVOp = cast<ShuffleVectorSDNode>(N);

1621

return SVOp->isSplat() && SVOp->getSplatIndex() == 0;

1622

}]>;

1623

1624

class VDUPD<bits<8> opcod1, bits<2> opcod3, string asmSize, ValueType Ty>

1625

: NVDup<opcod1, 0b1011, opcod3, (outs DPR:$dst), (ins GPR:$src),

1626

"vdup", !strconcat(asmSize, "\t$dst, $src"),

1627

[(set DPR:$dst, (Ty (splat_lo (scalar_to_vector GPR:$src), undef)))]>;

1628

class VDUPQ<bits<8> opcod1, bits<2> opcod3, string asmSize, ValueType Ty>

1629

: NVDup<opcod1, 0b1011, opcod3, (outs QPR:$dst), (ins GPR:$src),

1630

"vdup", !strconcat(asmSize, "\t$dst, $src"),

1631

[(set QPR:$dst, (Ty (splat_lo (scalar_to_vector GPR:$src), undef)))]>;

1632

1633

def VDUP8d : VDUPD<0b11101100, 0b00, ".8", v8i8>;

1634

def VDUP16d : VDUPD<0b11101000, 0b01, ".16", v4i16>;

1635

def VDUP32d : VDUPD<0b11101000, 0b00, ".32", v2i32>;

1636

def VDUP8q : VDUPQ<0b11101110, 0b00, ".8", v16i8>;

1637

def VDUP16q : VDUPQ<0b11101010, 0b01, ".16", v8i16>;

1638

def VDUP32q : VDUPQ<0b11101010, 0b00, ".32", v4i32>;

1639

1640

def VDUPfd : NVDup<0b11101000, 0b1011, 0b00, (outs DPR:$dst), (ins GPR:$src),

1641

"vdup", ".32\t$dst, $src",

1642

[(set DPR:$dst, (v2f32 (splat_lo

1643

(scalar_to_vector

1644

(f32 (bitconvert GPR:$src))),

1645

undef)))]>;

1646

def VDUPfq : NVDup<0b11101010, 0b1011, 0b00, (outs QPR:$dst), (ins GPR:$src),

1647

"vdup", ".32\t$dst, $src",

1648

[(set QPR:$dst, (v4f32 (splat_lo

1649

(scalar_to_vector

1650

(f32 (bitconvert GPR:$src))),

1651

undef)))]>;

1652

1653

// VDUP : Vector Duplicate Lane (from scalar to all elements)

1654

1655

def SHUFFLE_get_splat_lane : SDNodeXForm<vector_shuffle, [{

1656

ShuffleVectorSDNode *SVOp = cast<ShuffleVectorSDNode>(N);

1657

return CurDAG->getTargetConstant(SVOp->getSplatIndex(), MVT::i32);

1658

}]>;

1659

1660

def splat_lane : PatFrag<(ops node:$lhs, node:$rhs),

1661

(vector_shuffle node:$lhs, node:$rhs), [{

1662

ShuffleVectorSDNode *SVOp = cast<ShuffleVectorSDNode>(N);

1663

return SVOp->isSplat();

1664

}], SHUFFLE_get_splat_lane>;

1665

1666

class VDUPLND<bits<2> op19_18, bits<2> op17_16, string OpcodeStr, ValueType Ty>

1667

: N2V<0b11, 0b11, op19_18, op17_16, 0b11000, 0, 0,

1668

(outs DPR:$dst), (ins DPR:$src, i32imm:$lane),

1669

!strconcat(OpcodeStr, "\t$dst, $src[$lane]"), "",

1670

[(set DPR:$dst, (Ty (splat_lane:$lane DPR:$src, undef)))]>;

1671

1672

// vector_shuffle requires that the source and destination types match, so

1673

// VDUP to a 128-bit result uses a target-specific VDUPLANEQ node.

1674

class VDUPLNQ<bits<2> op19_18, bits<2> op17_16, string OpcodeStr,

1675

ValueType ResTy, ValueType OpTy>

1676

: N2V<0b11, 0b11, op19_18, op17_16, 0b11000, 1, 0,

1677

(outs QPR:$dst), (ins DPR:$src, i32imm:$lane),

1678

!strconcat(OpcodeStr, "\t$dst, $src[$lane]"), "",

1679

[(set QPR:$dst, (ResTy (NEONvduplaneq (OpTy DPR:$src), imm:$lane)))]>;

1680

1681

def VDUPLN8d : VDUPLND<0b00, 0b01, "vdup.8", v8i8>;

1682

def VDUPLN16d : VDUPLND<0b00, 0b10, "vdup.16", v4i16>;

1683

def VDUPLN32d : VDUPLND<0b01, 0b00, "vdup.32", v2i32>;

1684

def VDUPLNfd : VDUPLND<0b01, 0b00, "vdup.32", v2f32>;

1685

def VDUPLN8q : VDUPLNQ<0b00, 0b01, "vdup.8", v16i8, v8i8>;

1686

def VDUPLN16q : VDUPLNQ<0b00, 0b10, "vdup.16", v8i16, v4i16>;

1687

def VDUPLN32q : VDUPLNQ<0b01, 0b00, "vdup.32", v4i32, v2i32>;

1688

def VDUPLNfq : VDUPLNQ<0b01, 0b00, "vdup.32", v4f32, v2f32>;

1689

1690

// VMOVN : Vector Narrowing Move

1691

defm VMOVN : N2VNInt_HSD<0b11,0b11,0b10,0b00100,0,0, "vmovn.i",

1692

int_arm_neon_vmovn>;

1693

// VQMOVN : Vector Saturating Narrowing Move

1694

defm VQMOVNs : N2VNInt_HSD<0b11,0b11,0b10,0b00101,0,0, "vqmovn.s",

1695

int_arm_neon_vqmovns>;

1696

defm VQMOVNu : N2VNInt_HSD<0b11,0b11,0b10,0b00101,1,0, "vqmovn.u",

1697

int_arm_neon_vqmovnu>;

1698

defm VQMOVNsu : N2VNInt_HSD<0b11,0b11,0b10,0b00100,1,0, "vqmovun.s",

1699

int_arm_neon_vqmovnsu>;

1700

// VMOVL : Vector Lengthening Move

1701

defm VMOVLs : N2VLInt_QHS<0,1,0b1010,0,0,1, "vmovl.s", int_arm_neon_vmovls>;

1702

defm VMOVLu : N2VLInt_QHS<1,1,0b1010,0,0,1, "vmovl.u", int_arm_neon_vmovlu>;

1703

1704

// Vector Conversions.

1705

1706

// VCVT : Vector Convert Between Floating-Point and Integers

1707

def VCVTf2sd : N2VD<0b11, 0b11, 0b10, 0b11, 0b01110, 0, "vcvt.s32.f32",

1708

v2i32, v2f32, fp_to_sint>;

1709

def VCVTf2ud : N2VD<0b11, 0b11, 0b10, 0b11, 0b01111, 0, "vcvt.u32.f32",

1710

v2i32, v2f32, fp_to_uint>;

1711

def VCVTs2fd : N2VD<0b11, 0b11, 0b10, 0b11, 0b01100, 0, "vcvt.f32.s32",

1712

v2f32, v2i32, sint_to_fp>;

1713

def VCVTu2fd : N2VD<0b11, 0b11, 0b10, 0b11, 0b01101, 0, "vcvt.f32.u32",

1714

v2f32, v2i32, uint_to_fp>;

1715

1716

def VCVTf2sq : N2VQ<0b11, 0b11, 0b10, 0b11, 0b01110, 0, "vcvt.s32.f32",

1717

v4i32, v4f32, fp_to_sint>;

1718

def VCVTf2uq : N2VQ<0b11, 0b11, 0b10, 0b11, 0b01111, 0, "vcvt.u32.f32",

1719

v4i32, v4f32, fp_to_uint>;

1720

def VCVTs2fq : N2VQ<0b11, 0b11, 0b10, 0b11, 0b01100, 0, "vcvt.f32.s32",

1721

v4f32, v4i32, sint_to_fp>;

1722

def VCVTu2fq : N2VQ<0b11, 0b11, 0b10, 0b11, 0b01101, 0, "vcvt.f32.u32",

1723

v4f32, v4i32, uint_to_fp>;

1724

1725

// VCVT : Vector Convert Between Floating-Point and Fixed-Point.

1726

// Note: Some of the opcode bits in the following VCVT instructions need to

1727

// be encoded based on the immed values.

1728

def VCVTf2xsd : N2VCvtD<0, 1, 0b000000, 0b1111, 0, 1, "vcvt.s32.f32",

1729

v2i32, v2f32, int_arm_neon_vcvtfp2fxs>;

1730

def VCVTf2xud : N2VCvtD<1, 1, 0b000000, 0b1111, 0, 1, "vcvt.u32.f32",

1731

v2i32, v2f32, int_arm_neon_vcvtfp2fxu>;

1732

def VCVTxs2fd : N2VCvtD<0, 1, 0b000000, 0b1110, 0, 1, "vcvt.f32.s32",

1733

v2f32, v2i32, int_arm_neon_vcvtfxs2fp>;

1734

def VCVTxu2fd : N2VCvtD<1, 1, 0b000000, 0b1110, 0, 1, "vcvt.f32.u32",

1735

v2f32, v2i32, int_arm_neon_vcvtfxu2fp>;

1736

1737

def VCVTf2xsq : N2VCvtQ<0, 1, 0b000000, 0b1111, 0, 1, "vcvt.s32.f32",

1738

v4i32, v4f32, int_arm_neon_vcvtfp2fxs>;

1739

def VCVTf2xuq : N2VCvtQ<1, 1, 0b000000, 0b1111, 0, 1, "vcvt.u32.f32",

1740

v4i32, v4f32, int_arm_neon_vcvtfp2fxu>;

1741

def VCVTxs2fq : N2VCvtQ<0, 1, 0b000000, 0b1110, 0, 1, "vcvt.f32.s32",

1742

v4f32, v4i32, int_arm_neon_vcvtfxs2fp>;

1743

def VCVTxu2fq : N2VCvtQ<1, 1, 0b000000, 0b1110, 0, 1, "vcvt.f32.u32",

1744

v4f32, v4i32, int_arm_neon_vcvtfxu2fp>;

1745

Bob Wilson

c1cd72e

2009-07-26 00:39:34 +0000

[diff] [blame]

1746

// VREV : Vector Reverse

1747

1748

def vrev64_shuffle : PatFrag<(ops node:$in),

1749

(vector_shuffle node:$in, undef), [{

1750

ShuffleVectorSDNode *SVOp = cast<ShuffleVectorSDNode>(N);

1751

return ARM::isVREVMask(SVOp, 64);

1752

}]>;

1753

1754

def vrev32_shuffle : PatFrag<(ops node:$in),

1755

(vector_shuffle node:$in, undef), [{

1756

ShuffleVectorSDNode *SVOp = cast<ShuffleVectorSDNode>(N);

1757

return ARM::isVREVMask(SVOp, 32);

1758

}]>;

1759

1760

def vrev16_shuffle : PatFrag<(ops node:$in),

1761

(vector_shuffle node:$in, undef), [{

1762

ShuffleVectorSDNode *SVOp = cast<ShuffleVectorSDNode>(N);

1763

return ARM::isVREVMask(SVOp, 16);

1764

}]>;

1765

1766

// VREV64 : Vector Reverse elements within 64-bit doublewords

1767

1768

class VREV64D<bits<2> op19_18, string OpcodeStr, ValueType Ty>

1769

: N2V<0b11, 0b11, op19_18, 0b00, 0b00000, 0, 0, (outs DPR:$dst),

1770

(ins DPR:$src), !strconcat(OpcodeStr, "\t$dst, $src"), "",

1771

[(set DPR:$dst, (Ty (vrev64_shuffle (Ty DPR:$src))))]>;

1772

class VREV64Q<bits<2> op19_18, string OpcodeStr, ValueType Ty>

1773

: N2V<0b11, 0b11, op19_18, 0b00, 0b00000, 1, 0, (outs QPR:$dst),

1774

(ins QPR:$src), !strconcat(OpcodeStr, "\t$dst, $src"), "",

1775

[(set QPR:$dst, (Ty (vrev64_shuffle (Ty QPR:$src))))]>;

1776

1777

def VREV64d8 : VREV64D<0b00, "vrev64.8", v8i8>;

1778

def VREV64d16 : VREV64D<0b01, "vrev64.16", v4i16>;

1779

def VREV64d32 : VREV64D<0b10, "vrev64.32", v2i32>;

1780

def VREV64df : VREV64D<0b10, "vrev64.32", v2f32>;

1781

1782

def VREV64q8 : VREV64Q<0b00, "vrev64.8", v16i8>;

1783

def VREV64q16 : VREV64Q<0b01, "vrev64.16", v8i16>;

1784

def VREV64q32 : VREV64Q<0b10, "vrev64.32", v4i32>;

1785

def VREV64qf : VREV64Q<0b10, "vrev64.32", v4f32>;

1786

1787

// VREV32 : Vector Reverse elements within 32-bit words

1788

1789

class VREV32D<bits<2> op19_18, string OpcodeStr, ValueType Ty>

1790

: N2V<0b11, 0b11, op19_18, 0b00, 0b00001, 0, 0, (outs DPR:$dst),

1791

(ins DPR:$src), !strconcat(OpcodeStr, "\t$dst, $src"), "",

1792

[(set DPR:$dst, (Ty (vrev32_shuffle (Ty DPR:$src))))]>;

1793

class VREV32Q<bits<2> op19_18, string OpcodeStr, ValueType Ty>

1794

: N2V<0b11, 0b11, op19_18, 0b00, 0b00001, 1, 0, (outs QPR:$dst),

1795

(ins QPR:$src), !strconcat(OpcodeStr, "\t$dst, $src"), "",

1796

[(set QPR:$dst, (Ty (vrev32_shuffle (Ty QPR:$src))))]>;

1797

1798

def VREV32d8 : VREV32D<0b00, "vrev32.8", v8i8>;

1799

def VREV32d16 : VREV32D<0b01, "vrev32.16", v4i16>;

1800

1801

def VREV32q8 : VREV32Q<0b00, "vrev32.8", v16i8>;

1802

def VREV32q16 : VREV32Q<0b01, "vrev32.16", v8i16>;

1803

1804

// VREV16 : Vector Reverse elements within 16-bit halfwords

1805

1806

class VREV16D<bits<2> op19_18, string OpcodeStr, ValueType Ty>

1807

: N2V<0b11, 0b11, op19_18, 0b00, 0b00010, 0, 0, (outs DPR:$dst),

1808

(ins DPR:$src), !strconcat(OpcodeStr, "\t$dst, $src"), "",

1809

[(set DPR:$dst, (Ty (vrev16_shuffle (Ty DPR:$src))))]>;

1810

class VREV16Q<bits<2> op19_18, string OpcodeStr, ValueType Ty>

1811

: N2V<0b11, 0b11, op19_18, 0b00, 0b00010, 1, 0, (outs QPR:$dst),

1812

(ins QPR:$src), !strconcat(OpcodeStr, "\t$dst, $src"), "",

1813

[(set QPR:$dst, (Ty (vrev16_shuffle (Ty QPR:$src))))]>;

1814

1815

def VREV16d8 : VREV16D<0b00, "vrev16.8", v8i8>;

1816

def VREV16q8 : VREV16Q<0b00, "vrev16.8", v16i8>;

1817

Bob Wilson