Daniel Dunbar | a572887 | 2009-12-15 20:14:24 +0000 | [diff] [blame] | 1 | // RUN: %clang_cc1 -DUSE_64 -triple x86_64-unknown-unknown -emit-llvm -o %t %s |
| 2 | // RUN: %clang_cc1 -DUSE_ALL -triple x86_64-unknown-unknown -fsyntax-only -o %t %s |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 3 | |
| 4 | #ifdef USE_ALL |
| 5 | #define USE_3DNOW |
| 6 | #define USE_64 |
| 7 | #define USE_SSE4 |
| 8 | #endif |
| 9 | |
| 10 | // 64-bit |
| 11 | typedef char V8c __attribute__((vector_size(8 * sizeof(char)))); |
| 12 | typedef signed short V4s __attribute__((vector_size(8))); |
| 13 | typedef signed int V2i __attribute__((vector_size(8))); |
| 14 | typedef signed long long V1LLi __attribute__((vector_size(8))); |
| 15 | |
| 16 | typedef float V2f __attribute__((vector_size(8))); |
| 17 | |
| 18 | // 128-bit |
| 19 | typedef char V16c __attribute__((vector_size(16))); |
| 20 | typedef signed short V8s __attribute__((vector_size(16))); |
| 21 | typedef signed int V4i __attribute__((vector_size(16))); |
| 22 | typedef signed long long V2LLi __attribute__((vector_size(16))); |
| 23 | |
| 24 | typedef float V4f __attribute__((vector_size(16))); |
| 25 | typedef double V2d __attribute__((vector_size(16))); |
| 26 | |
Bruno Cardoso Lopes | 5ce9462 | 2010-08-03 01:57:18 +0000 | [diff] [blame] | 27 | // 256-bit |
Bruno Cardoso Lopes | e898ed5 | 2010-08-04 01:11:26 +0000 | [diff] [blame] | 28 | typedef char V32c __attribute__((vector_size(32))); |
Bruno Cardoso Lopes | 5ce9462 | 2010-08-03 01:57:18 +0000 | [diff] [blame] | 29 | typedef signed int V8i __attribute__((vector_size(32))); |
| 30 | typedef signed long long V4LLi __attribute__((vector_size(32))); |
| 31 | |
| 32 | typedef double V4d __attribute__((vector_size(32))); |
| 33 | typedef float V8f __attribute__((vector_size(32))); |
| 34 | |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 35 | void f0() { |
| 36 | signed char tmp_c; |
| 37 | // unsigned char tmp_Uc; |
| 38 | signed short tmp_s; |
| 39 | #ifdef USE_ALL |
| 40 | unsigned short tmp_Us; |
| 41 | #endif |
| 42 | signed int tmp_i; |
| 43 | unsigned int tmp_Ui; |
| 44 | signed long long tmp_LLi; |
| 45 | // unsigned long long tmp_ULLi; |
| 46 | float tmp_f; |
| 47 | double tmp_d; |
| 48 | |
| 49 | void* tmp_vp; |
| 50 | const void* tmp_vCp; |
| 51 | char* tmp_cp; |
| 52 | const char* tmp_cCp; |
| 53 | int* tmp_ip; |
| 54 | float* tmp_fp; |
| 55 | const float* tmp_fCp; |
| 56 | double* tmp_dp; |
| 57 | const double* tmp_dCp; |
| 58 | |
| 59 | #define imm_i 32 |
| 60 | #define imm_i_0_2 0 |
| 61 | #define imm_i_0_4 3 |
| 62 | #define imm_i_0_8 7 |
| 63 | #define imm_i_0_16 15 |
| 64 | // Check this. |
| 65 | #define imm_i_0_256 0 |
| 66 | |
| 67 | V2i* tmp_V2ip; |
| 68 | V1LLi* tmp_V1LLip; |
| 69 | V2LLi* tmp_V2LLip; |
| 70 | |
| 71 | // 64-bit |
| 72 | V8c tmp_V8c; |
| 73 | V4s tmp_V4s; |
| 74 | V2i tmp_V2i; |
| 75 | V1LLi tmp_V1LLi; |
| 76 | #ifdef USE_3DNOW |
| 77 | V2f tmp_V2f; |
| 78 | #endif |
| 79 | |
| 80 | // 128-bit |
| 81 | V16c tmp_V16c; |
| 82 | V8s tmp_V8s; |
| 83 | V4i tmp_V4i; |
| 84 | V2LLi tmp_V2LLi; |
| 85 | V4f tmp_V4f; |
| 86 | V2d tmp_V2d; |
Bruno Cardoso Lopes | e898ed5 | 2010-08-04 01:11:26 +0000 | [diff] [blame] | 87 | V2d* tmp_V2dp; |
| 88 | V4f* tmp_V4fp; |
| 89 | const V2d* tmp_V2dCp; |
| 90 | const V4f* tmp_V4fCp; |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 91 | |
Bruno Cardoso Lopes | 5ce9462 | 2010-08-03 01:57:18 +0000 | [diff] [blame] | 92 | // 256-bit |
Bruno Cardoso Lopes | e898ed5 | 2010-08-04 01:11:26 +0000 | [diff] [blame] | 93 | V32c tmp_V32c; |
Bruno Cardoso Lopes | 5ce9462 | 2010-08-03 01:57:18 +0000 | [diff] [blame] | 94 | V4d tmp_V4d; |
| 95 | V8f tmp_V8f; |
| 96 | V4LLi tmp_V4LLi; |
| 97 | V8i tmp_V8i; |
Bruno Cardoso Lopes | e898ed5 | 2010-08-04 01:11:26 +0000 | [diff] [blame] | 98 | V4LLi* tmp_V4LLip; |
| 99 | V4d* tmp_V4dp; |
| 100 | V8f* tmp_V8fp; |
| 101 | const V4d* tmp_V4dCp; |
| 102 | const V8f* tmp_V8fCp; |
Bruno Cardoso Lopes | 5ce9462 | 2010-08-03 01:57:18 +0000 | [diff] [blame] | 103 | |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 104 | tmp_i = __builtin_ia32_comieq(tmp_V4f, tmp_V4f); |
| 105 | tmp_i = __builtin_ia32_comilt(tmp_V4f, tmp_V4f); |
| 106 | tmp_i = __builtin_ia32_comile(tmp_V4f, tmp_V4f); |
| 107 | tmp_i = __builtin_ia32_comigt(tmp_V4f, tmp_V4f); |
| 108 | tmp_i = __builtin_ia32_comige(tmp_V4f, tmp_V4f); |
| 109 | tmp_i = __builtin_ia32_comineq(tmp_V4f, tmp_V4f); |
| 110 | tmp_i = __builtin_ia32_ucomieq(tmp_V4f, tmp_V4f); |
| 111 | tmp_i = __builtin_ia32_ucomilt(tmp_V4f, tmp_V4f); |
| 112 | tmp_i = __builtin_ia32_ucomile(tmp_V4f, tmp_V4f); |
| 113 | tmp_i = __builtin_ia32_ucomigt(tmp_V4f, tmp_V4f); |
| 114 | tmp_i = __builtin_ia32_ucomige(tmp_V4f, tmp_V4f); |
| 115 | tmp_i = __builtin_ia32_ucomineq(tmp_V4f, tmp_V4f); |
| 116 | tmp_i = __builtin_ia32_comisdeq(tmp_V2d, tmp_V2d); |
| 117 | tmp_i = __builtin_ia32_comisdlt(tmp_V2d, tmp_V2d); |
| 118 | tmp_i = __builtin_ia32_comisdle(tmp_V2d, tmp_V2d); |
| 119 | tmp_i = __builtin_ia32_comisdgt(tmp_V2d, tmp_V2d); |
| 120 | tmp_i = __builtin_ia32_comisdge(tmp_V2d, tmp_V2d); |
| 121 | tmp_i = __builtin_ia32_comisdneq(tmp_V2d, tmp_V2d); |
| 122 | tmp_i = __builtin_ia32_ucomisdeq(tmp_V2d, tmp_V2d); |
| 123 | tmp_i = __builtin_ia32_ucomisdlt(tmp_V2d, tmp_V2d); |
| 124 | tmp_i = __builtin_ia32_ucomisdle(tmp_V2d, tmp_V2d); |
| 125 | tmp_i = __builtin_ia32_ucomisdgt(tmp_V2d, tmp_V2d); |
| 126 | tmp_i = __builtin_ia32_ucomisdge(tmp_V2d, tmp_V2d); |
| 127 | tmp_i = __builtin_ia32_ucomisdneq(tmp_V2d, tmp_V2d); |
Anders Carlsson | 79dcf5f | 2009-05-18 19:16:46 +0000 | [diff] [blame] | 128 | tmp_V4f = __builtin_ia32_cmpps(tmp_V4f, tmp_V4f, 0); |
| 129 | tmp_V4f = __builtin_ia32_cmpps(tmp_V4f, tmp_V4f, 1); |
| 130 | tmp_V4f = __builtin_ia32_cmpps(tmp_V4f, tmp_V4f, 2); |
| 131 | tmp_V4f = __builtin_ia32_cmpps(tmp_V4f, tmp_V4f, 3); |
| 132 | tmp_V4f = __builtin_ia32_cmpps(tmp_V4f, tmp_V4f, 4); |
| 133 | tmp_V4f = __builtin_ia32_cmpps(tmp_V4f, tmp_V4f, 5); |
| 134 | tmp_V4f = __builtin_ia32_cmpps(tmp_V4f, tmp_V4f, 6); |
| 135 | tmp_V4f = __builtin_ia32_cmpps(tmp_V4f, tmp_V4f, 7); |
| 136 | tmp_V4f = __builtin_ia32_cmpss(tmp_V4f, tmp_V4f, 0); |
| 137 | tmp_V4f = __builtin_ia32_cmpss(tmp_V4f, tmp_V4f, 1); |
| 138 | tmp_V4f = __builtin_ia32_cmpss(tmp_V4f, tmp_V4f, 2); |
| 139 | tmp_V4f = __builtin_ia32_cmpss(tmp_V4f, tmp_V4f, 3); |
| 140 | tmp_V4f = __builtin_ia32_cmpss(tmp_V4f, tmp_V4f, 4); |
| 141 | tmp_V4f = __builtin_ia32_cmpss(tmp_V4f, tmp_V4f, 5); |
| 142 | tmp_V4f = __builtin_ia32_cmpss(tmp_V4f, tmp_V4f, 6); |
| 143 | tmp_V4f = __builtin_ia32_cmpss(tmp_V4f, tmp_V4f, 7); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 144 | tmp_V4f = __builtin_ia32_minps(tmp_V4f, tmp_V4f); |
| 145 | tmp_V4f = __builtin_ia32_maxps(tmp_V4f, tmp_V4f); |
| 146 | tmp_V4f = __builtin_ia32_minss(tmp_V4f, tmp_V4f); |
| 147 | tmp_V4f = __builtin_ia32_maxss(tmp_V4f, tmp_V4f); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 148 | |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 149 | tmp_V8c = __builtin_ia32_paddsb(tmp_V8c, tmp_V8c); |
| 150 | tmp_V4s = __builtin_ia32_paddsw(tmp_V4s, tmp_V4s); |
| 151 | tmp_V8c = __builtin_ia32_psubsb(tmp_V8c, tmp_V8c); |
| 152 | tmp_V4s = __builtin_ia32_psubsw(tmp_V4s, tmp_V4s); |
| 153 | tmp_V8c = __builtin_ia32_paddusb(tmp_V8c, tmp_V8c); |
| 154 | tmp_V4s = __builtin_ia32_paddusw(tmp_V4s, tmp_V4s); |
| 155 | tmp_V8c = __builtin_ia32_psubusb(tmp_V8c, tmp_V8c); |
| 156 | tmp_V4s = __builtin_ia32_psubusw(tmp_V4s, tmp_V4s); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 157 | tmp_V4s = __builtin_ia32_pmulhw(tmp_V4s, tmp_V4s); |
| 158 | tmp_V4s = __builtin_ia32_pmulhuw(tmp_V4s, tmp_V4s); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 159 | tmp_V8c = __builtin_ia32_pavgb(tmp_V8c, tmp_V8c); |
| 160 | tmp_V4s = __builtin_ia32_pavgw(tmp_V4s, tmp_V4s); |
| 161 | tmp_V8c = __builtin_ia32_pcmpeqb(tmp_V8c, tmp_V8c); |
| 162 | tmp_V4s = __builtin_ia32_pcmpeqw(tmp_V4s, tmp_V4s); |
| 163 | tmp_V2i = __builtin_ia32_pcmpeqd(tmp_V2i, tmp_V2i); |
| 164 | tmp_V8c = __builtin_ia32_pcmpgtb(tmp_V8c, tmp_V8c); |
| 165 | tmp_V4s = __builtin_ia32_pcmpgtw(tmp_V4s, tmp_V4s); |
| 166 | tmp_V2i = __builtin_ia32_pcmpgtd(tmp_V2i, tmp_V2i); |
| 167 | tmp_V8c = __builtin_ia32_pmaxub(tmp_V8c, tmp_V8c); |
| 168 | tmp_V4s = __builtin_ia32_pmaxsw(tmp_V4s, tmp_V4s); |
| 169 | tmp_V8c = __builtin_ia32_pminub(tmp_V8c, tmp_V8c); |
| 170 | tmp_V4s = __builtin_ia32_pminsw(tmp_V4s, tmp_V4s); |
Anders Carlsson | 79dcf5f | 2009-05-18 19:16:46 +0000 | [diff] [blame] | 171 | tmp_V2d = __builtin_ia32_cmppd(tmp_V2d, tmp_V2d, 0); |
| 172 | tmp_V2d = __builtin_ia32_cmppd(tmp_V2d, tmp_V2d, 1); |
| 173 | tmp_V2d = __builtin_ia32_cmppd(tmp_V2d, tmp_V2d, 2); |
| 174 | tmp_V2d = __builtin_ia32_cmppd(tmp_V2d, tmp_V2d, 3); |
| 175 | tmp_V2d = __builtin_ia32_cmppd(tmp_V2d, tmp_V2d, 4); |
| 176 | tmp_V2d = __builtin_ia32_cmppd(tmp_V2d, tmp_V2d, 5); |
| 177 | tmp_V2d = __builtin_ia32_cmppd(tmp_V2d, tmp_V2d, 6); |
| 178 | tmp_V2d = __builtin_ia32_cmppd(tmp_V2d, tmp_V2d, 7); |
| 179 | tmp_V2d = __builtin_ia32_cmpsd(tmp_V2d, tmp_V2d, 0); |
| 180 | tmp_V2d = __builtin_ia32_cmpsd(tmp_V2d, tmp_V2d, 1); |
| 181 | tmp_V2d = __builtin_ia32_cmpsd(tmp_V2d, tmp_V2d, 2); |
| 182 | tmp_V2d = __builtin_ia32_cmpsd(tmp_V2d, tmp_V2d, 3); |
| 183 | tmp_V2d = __builtin_ia32_cmpsd(tmp_V2d, tmp_V2d, 4); |
| 184 | tmp_V2d = __builtin_ia32_cmpsd(tmp_V2d, tmp_V2d, 5); |
| 185 | tmp_V2d = __builtin_ia32_cmpsd(tmp_V2d, tmp_V2d, 6); |
| 186 | tmp_V2d = __builtin_ia32_cmpsd(tmp_V2d, tmp_V2d, 7); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 187 | tmp_V2d = __builtin_ia32_minpd(tmp_V2d, tmp_V2d); |
| 188 | tmp_V2d = __builtin_ia32_maxpd(tmp_V2d, tmp_V2d); |
| 189 | tmp_V2d = __builtin_ia32_minsd(tmp_V2d, tmp_V2d); |
| 190 | tmp_V2d = __builtin_ia32_maxsd(tmp_V2d, tmp_V2d); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 191 | tmp_V16c = __builtin_ia32_paddsb128(tmp_V16c, tmp_V16c); |
| 192 | tmp_V8s = __builtin_ia32_paddsw128(tmp_V8s, tmp_V8s); |
| 193 | tmp_V16c = __builtin_ia32_psubsb128(tmp_V16c, tmp_V16c); |
| 194 | tmp_V8s = __builtin_ia32_psubsw128(tmp_V8s, tmp_V8s); |
| 195 | tmp_V16c = __builtin_ia32_paddusb128(tmp_V16c, tmp_V16c); |
| 196 | tmp_V8s = __builtin_ia32_paddusw128(tmp_V8s, tmp_V8s); |
| 197 | tmp_V16c = __builtin_ia32_psubusb128(tmp_V16c, tmp_V16c); |
| 198 | tmp_V8s = __builtin_ia32_psubusw128(tmp_V8s, tmp_V8s); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 199 | tmp_V8s = __builtin_ia32_pmulhw128(tmp_V8s, tmp_V8s); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 200 | tmp_V16c = __builtin_ia32_pavgb128(tmp_V16c, tmp_V16c); |
| 201 | tmp_V8s = __builtin_ia32_pavgw128(tmp_V8s, tmp_V8s); |
| 202 | tmp_V16c = __builtin_ia32_pcmpeqb128(tmp_V16c, tmp_V16c); |
| 203 | tmp_V8s = __builtin_ia32_pcmpeqw128(tmp_V8s, tmp_V8s); |
| 204 | tmp_V4i = __builtin_ia32_pcmpeqd128(tmp_V4i, tmp_V4i); |
| 205 | tmp_V16c = __builtin_ia32_pcmpgtb128(tmp_V16c, tmp_V16c); |
| 206 | tmp_V8s = __builtin_ia32_pcmpgtw128(tmp_V8s, tmp_V8s); |
| 207 | tmp_V4i = __builtin_ia32_pcmpgtd128(tmp_V4i, tmp_V4i); |
| 208 | tmp_V16c = __builtin_ia32_pmaxub128(tmp_V16c, tmp_V16c); |
| 209 | tmp_V8s = __builtin_ia32_pmaxsw128(tmp_V8s, tmp_V8s); |
| 210 | tmp_V16c = __builtin_ia32_pminub128(tmp_V16c, tmp_V16c); |
| 211 | tmp_V8s = __builtin_ia32_pminsw128(tmp_V8s, tmp_V8s); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 212 | tmp_V8s = __builtin_ia32_packsswb128(tmp_V8s, tmp_V8s); |
| 213 | tmp_V4i = __builtin_ia32_packssdw128(tmp_V4i, tmp_V4i); |
| 214 | tmp_V8s = __builtin_ia32_packuswb128(tmp_V8s, tmp_V8s); |
| 215 | tmp_V8s = __builtin_ia32_pmulhuw128(tmp_V8s, tmp_V8s); |
| 216 | tmp_V4f = __builtin_ia32_addsubps(tmp_V4f, tmp_V4f); |
| 217 | tmp_V2d = __builtin_ia32_addsubpd(tmp_V2d, tmp_V2d); |
| 218 | tmp_V4f = __builtin_ia32_haddps(tmp_V4f, tmp_V4f); |
| 219 | tmp_V2d = __builtin_ia32_haddpd(tmp_V2d, tmp_V2d); |
| 220 | tmp_V4f = __builtin_ia32_hsubps(tmp_V4f, tmp_V4f); |
| 221 | tmp_V2d = __builtin_ia32_hsubpd(tmp_V2d, tmp_V2d); |
| 222 | tmp_V8s = __builtin_ia32_phaddw128(tmp_V8s, tmp_V8s); |
| 223 | tmp_V4s = __builtin_ia32_phaddw(tmp_V4s, tmp_V4s); |
| 224 | tmp_V4i = __builtin_ia32_phaddd128(tmp_V4i, tmp_V4i); |
| 225 | tmp_V2i = __builtin_ia32_phaddd(tmp_V2i, tmp_V2i); |
| 226 | tmp_V8s = __builtin_ia32_phaddsw128(tmp_V8s, tmp_V8s); |
| 227 | tmp_V4s = __builtin_ia32_phaddsw(tmp_V4s, tmp_V4s); |
| 228 | tmp_V8s = __builtin_ia32_phsubw128(tmp_V8s, tmp_V8s); |
| 229 | tmp_V4s = __builtin_ia32_phsubw(tmp_V4s, tmp_V4s); |
| 230 | tmp_V4i = __builtin_ia32_phsubd128(tmp_V4i, tmp_V4i); |
| 231 | tmp_V2i = __builtin_ia32_phsubd(tmp_V2i, tmp_V2i); |
| 232 | tmp_V8s = __builtin_ia32_phsubsw128(tmp_V8s, tmp_V8s); |
| 233 | tmp_V4s = __builtin_ia32_phsubsw(tmp_V4s, tmp_V4s); |
| 234 | tmp_V16c = __builtin_ia32_pmaddubsw128(tmp_V16c, tmp_V16c); |
| 235 | tmp_V8c = __builtin_ia32_pmaddubsw(tmp_V8c, tmp_V8c); |
| 236 | tmp_V8s = __builtin_ia32_pmulhrsw128(tmp_V8s, tmp_V8s); |
| 237 | tmp_V4s = __builtin_ia32_pmulhrsw(tmp_V4s, tmp_V4s); |
| 238 | tmp_V16c = __builtin_ia32_pshufb128(tmp_V16c, tmp_V16c); |
| 239 | tmp_V8c = __builtin_ia32_pshufb(tmp_V8c, tmp_V8c); |
| 240 | tmp_V16c = __builtin_ia32_psignb128(tmp_V16c, tmp_V16c); |
| 241 | tmp_V8c = __builtin_ia32_psignb(tmp_V8c, tmp_V8c); |
| 242 | tmp_V8s = __builtin_ia32_psignw128(tmp_V8s, tmp_V8s); |
| 243 | tmp_V4s = __builtin_ia32_psignw(tmp_V4s, tmp_V4s); |
| 244 | tmp_V4i = __builtin_ia32_psignd128(tmp_V4i, tmp_V4i); |
| 245 | tmp_V2i = __builtin_ia32_psignd(tmp_V2i, tmp_V2i); |
| 246 | tmp_V16c = __builtin_ia32_pabsb128(tmp_V16c); |
| 247 | tmp_V8c = __builtin_ia32_pabsb(tmp_V8c); |
| 248 | tmp_V8s = __builtin_ia32_pabsw128(tmp_V8s); |
| 249 | tmp_V4s = __builtin_ia32_pabsw(tmp_V4s); |
| 250 | tmp_V4i = __builtin_ia32_pabsd128(tmp_V4i); |
| 251 | tmp_V2i = __builtin_ia32_pabsd(tmp_V2i); |
| 252 | tmp_V4s = __builtin_ia32_psllw(tmp_V4s, tmp_V1LLi); |
| 253 | tmp_V2i = __builtin_ia32_pslld(tmp_V2i, tmp_V1LLi); |
| 254 | tmp_V1LLi = __builtin_ia32_psllq(tmp_V1LLi, tmp_V1LLi); |
| 255 | tmp_V4s = __builtin_ia32_psrlw(tmp_V4s, tmp_V1LLi); |
| 256 | tmp_V2i = __builtin_ia32_psrld(tmp_V2i, tmp_V1LLi); |
| 257 | tmp_V1LLi = __builtin_ia32_psrlq(tmp_V1LLi, tmp_V1LLi); |
| 258 | tmp_V4s = __builtin_ia32_psraw(tmp_V4s, tmp_V1LLi); |
| 259 | tmp_V2i = __builtin_ia32_psrad(tmp_V2i, tmp_V1LLi); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 260 | tmp_V2i = __builtin_ia32_pmaddwd(tmp_V4s, tmp_V4s); |
| 261 | tmp_V8c = __builtin_ia32_packsswb(tmp_V4s, tmp_V4s); |
| 262 | tmp_V4s = __builtin_ia32_packssdw(tmp_V2i, tmp_V2i); |
| 263 | tmp_V8c = __builtin_ia32_packuswb(tmp_V4s, tmp_V4s); |
| 264 | |
| 265 | (void) __builtin_ia32_ldmxcsr(tmp_Ui); |
| 266 | tmp_Ui = __builtin_ia32_stmxcsr(); |
| 267 | tmp_V4f = __builtin_ia32_cvtpi2ps(tmp_V4f, tmp_V2i); |
| 268 | tmp_V2i = __builtin_ia32_cvtps2pi(tmp_V4f); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 269 | tmp_i = __builtin_ia32_cvtss2si(tmp_V4f); |
| 270 | #ifdef USE_64 |
| 271 | tmp_LLi = __builtin_ia32_cvtss2si64(tmp_V4f); |
| 272 | #endif |
| 273 | tmp_V2i = __builtin_ia32_cvttps2pi(tmp_V4f); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 274 | (void) __builtin_ia32_maskmovq(tmp_V8c, tmp_V8c, tmp_cp); |
| 275 | tmp_V4f = __builtin_ia32_loadups(tmp_fCp); |
| 276 | (void) __builtin_ia32_storeups(tmp_fp, tmp_V4f); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 277 | (void) __builtin_ia32_storehps(tmp_V2ip, tmp_V4f); |
| 278 | (void) __builtin_ia32_storelps(tmp_V2ip, tmp_V4f); |
| 279 | tmp_i = __builtin_ia32_movmskps(tmp_V4f); |
| 280 | tmp_i = __builtin_ia32_pmovmskb(tmp_V8c); |
| 281 | (void) __builtin_ia32_movntps(tmp_fp, tmp_V4f); |
| 282 | (void) __builtin_ia32_movntq(tmp_V1LLip, tmp_V1LLi); |
| 283 | (void) __builtin_ia32_sfence(); |
| 284 | |
| 285 | tmp_V4s = __builtin_ia32_psadbw(tmp_V8c, tmp_V8c); |
| 286 | tmp_V4f = __builtin_ia32_rcpps(tmp_V4f); |
| 287 | tmp_V4f = __builtin_ia32_rcpss(tmp_V4f); |
| 288 | tmp_V4f = __builtin_ia32_rsqrtps(tmp_V4f); |
| 289 | tmp_V4f = __builtin_ia32_rsqrtss(tmp_V4f); |
| 290 | tmp_V4f = __builtin_ia32_sqrtps(tmp_V4f); |
| 291 | tmp_V4f = __builtin_ia32_sqrtss(tmp_V4f); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 292 | (void) __builtin_ia32_maskmovdqu(tmp_V16c, tmp_V16c, tmp_cp); |
| 293 | tmp_V2d = __builtin_ia32_loadupd(tmp_dCp); |
| 294 | (void) __builtin_ia32_storeupd(tmp_dp, tmp_V2d); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 295 | tmp_i = __builtin_ia32_movmskpd(tmp_V2d); |
| 296 | tmp_i = __builtin_ia32_pmovmskb128(tmp_V16c); |
| 297 | (void) __builtin_ia32_movnti(tmp_ip, tmp_i); |
| 298 | (void) __builtin_ia32_movntpd(tmp_dp, tmp_V2d); |
| 299 | (void) __builtin_ia32_movntdq(tmp_V2LLip, tmp_V2LLi); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 300 | tmp_V2LLi = __builtin_ia32_psadbw128(tmp_V16c, tmp_V16c); |
| 301 | tmp_V2d = __builtin_ia32_sqrtpd(tmp_V2d); |
| 302 | tmp_V2d = __builtin_ia32_sqrtsd(tmp_V2d); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 303 | tmp_V2d = __builtin_ia32_cvtdq2pd(tmp_V4i); |
| 304 | tmp_V4f = __builtin_ia32_cvtdq2ps(tmp_V4i); |
| 305 | tmp_V2LLi = __builtin_ia32_cvtpd2dq(tmp_V2d); |
| 306 | tmp_V2i = __builtin_ia32_cvtpd2pi(tmp_V2d); |
| 307 | tmp_V4f = __builtin_ia32_cvtpd2ps(tmp_V2d); |
| 308 | tmp_V4i = __builtin_ia32_cvttpd2dq(tmp_V2d); |
| 309 | tmp_V2i = __builtin_ia32_cvttpd2pi(tmp_V2d); |
| 310 | tmp_V2d = __builtin_ia32_cvtpi2pd(tmp_V2i); |
| 311 | tmp_i = __builtin_ia32_cvtsd2si(tmp_V2d); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 312 | #ifdef USE_64 |
| 313 | tmp_LLi = __builtin_ia32_cvtsd2si64(tmp_V2d); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 314 | #endif |
| 315 | tmp_V4i = __builtin_ia32_cvtps2dq(tmp_V4f); |
| 316 | tmp_V2d = __builtin_ia32_cvtps2pd(tmp_V4f); |
| 317 | tmp_V4i = __builtin_ia32_cvttps2dq(tmp_V4f); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 318 | (void) __builtin_ia32_clflush(tmp_vCp); |
| 319 | (void) __builtin_ia32_lfence(); |
| 320 | (void) __builtin_ia32_mfence(); |
| 321 | tmp_V16c = __builtin_ia32_loaddqu(tmp_cCp); |
| 322 | (void) __builtin_ia32_storedqu(tmp_cp, tmp_V16c); |
| 323 | tmp_V4s = __builtin_ia32_psllwi(tmp_V4s, tmp_i); |
| 324 | tmp_V2i = __builtin_ia32_pslldi(tmp_V2i, tmp_i); |
| 325 | tmp_V1LLi = __builtin_ia32_psllqi(tmp_V1LLi, tmp_i); |
| 326 | tmp_V4s = __builtin_ia32_psrawi(tmp_V4s, tmp_i); |
| 327 | tmp_V2i = __builtin_ia32_psradi(tmp_V2i, tmp_i); |
| 328 | tmp_V4s = __builtin_ia32_psrlwi(tmp_V4s, tmp_i); |
| 329 | tmp_V2i = __builtin_ia32_psrldi(tmp_V2i, tmp_i); |
| 330 | tmp_V1LLi = __builtin_ia32_psrlqi(tmp_V1LLi, tmp_i); |
| 331 | tmp_V1LLi = __builtin_ia32_pmuludq(tmp_V2i, tmp_V2i); |
| 332 | tmp_V2LLi = __builtin_ia32_pmuludq128(tmp_V4i, tmp_V4i); |
| 333 | tmp_V8s = __builtin_ia32_psraw128(tmp_V8s, tmp_V8s); |
| 334 | tmp_V4i = __builtin_ia32_psrad128(tmp_V4i, tmp_V4i); |
| 335 | tmp_V8s = __builtin_ia32_psrlw128(tmp_V8s, tmp_V8s); |
| 336 | tmp_V4i = __builtin_ia32_psrld128(tmp_V4i, tmp_V4i); |
| 337 | tmp_V2LLi = __builtin_ia32_psrlq128(tmp_V2LLi, tmp_V2LLi); |
| 338 | tmp_V8s = __builtin_ia32_psllw128(tmp_V8s, tmp_V8s); |
| 339 | tmp_V4i = __builtin_ia32_pslld128(tmp_V4i, tmp_V4i); |
| 340 | tmp_V2LLi = __builtin_ia32_psllq128(tmp_V2LLi, tmp_V2LLi); |
| 341 | tmp_V8s = __builtin_ia32_psllwi128(tmp_V8s, tmp_i); |
| 342 | tmp_V4i = __builtin_ia32_pslldi128(tmp_V4i, tmp_i); |
| 343 | tmp_V2LLi = __builtin_ia32_psllqi128(tmp_V2LLi, tmp_i); |
| 344 | tmp_V8s = __builtin_ia32_psrlwi128(tmp_V8s, tmp_i); |
| 345 | tmp_V4i = __builtin_ia32_psrldi128(tmp_V4i, tmp_i); |
| 346 | tmp_V2LLi = __builtin_ia32_psrlqi128(tmp_V2LLi, tmp_i); |
| 347 | tmp_V8s = __builtin_ia32_psrawi128(tmp_V8s, tmp_i); |
| 348 | tmp_V4i = __builtin_ia32_psradi128(tmp_V4i, tmp_i); |
| 349 | tmp_V8s = __builtin_ia32_pmaddwd128(tmp_V8s, tmp_V8s); |
| 350 | (void) __builtin_ia32_monitor(tmp_vp, tmp_Ui, tmp_Ui); |
| 351 | (void) __builtin_ia32_mwait(tmp_Ui, tmp_Ui); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 352 | tmp_V16c = __builtin_ia32_lddqu(tmp_cCp); |
| 353 | tmp_V2LLi = __builtin_ia32_palignr128(tmp_V2LLi, tmp_V2LLi, imm_i); |
| 354 | tmp_V1LLi = __builtin_ia32_palignr(tmp_V1LLi, tmp_V1LLi, imm_i); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 355 | (void) __builtin_ia32_storelv4si(tmp_V2ip, tmp_V2LLi); |
| 356 | #ifdef USE_SSE4 |
| 357 | tmp_V16c = __builtin_ia32_pblendvb128(tmp_V16c, tmp_V16c, tmp_V16c); |
| 358 | tmp_V8s = __builtin_ia32_pblendw128(tmp_V8s, tmp_V8s, imm_i_0_256); |
| 359 | tmp_V2d = __builtin_ia32_blendpd(tmp_V2d, tmp_V2d, imm_i_0_256); |
| 360 | tmp_V4f = __builtin_ia32_blendps(tmp_V4f, tmp_V4f, imm_i_0_256); |
| 361 | tmp_V2d = __builtin_ia32_blendvpd(tmp_V2d, tmp_V2d, tmp_V2d); |
| 362 | tmp_V4f = __builtin_ia32_blendvps(tmp_V4f, tmp_V4f, tmp_V4f); |
| 363 | tmp_V8s = __builtin_ia32_packusdw128(tmp_V4i, tmp_V4i); |
| 364 | tmp_V16c = __builtin_ia32_pmaxsb128(tmp_V16c, tmp_V16c); |
| 365 | tmp_V4i = __builtin_ia32_pmaxsd128(tmp_V4i, tmp_V4i); |
| 366 | tmp_V4i = __builtin_ia32_pmaxud128(tmp_V4i, tmp_V4i); |
| 367 | tmp_V8s = __builtin_ia32_pmaxuw128(tmp_V8s, tmp_V8s); |
| 368 | tmp_V16c = __builtin_ia32_pminsb128(tmp_V16c, tmp_V16c); |
| 369 | tmp_V4i = __builtin_ia32_pminsd128(tmp_V4i, tmp_V4i); |
| 370 | tmp_V4i = __builtin_ia32_pminud128(tmp_V4i, tmp_V4i); |
| 371 | tmp_V8s = __builtin_ia32_pminuw128(tmp_V8s, tmp_V8s); |
| 372 | tmp_V4i = __builtin_ia32_pmovsxbd128(tmp_V16c); |
| 373 | tmp_V2LLi = __builtin_ia32_pmovsxbq128(tmp_V16c); |
| 374 | tmp_V8s = __builtin_ia32_pmovsxbw128(tmp_V16c); |
| 375 | tmp_V2LLi = __builtin_ia32_pmovsxdq128(tmp_V4i); |
| 376 | tmp_V4i = __builtin_ia32_pmovsxwd128(tmp_V8s); |
| 377 | tmp_V2LLi = __builtin_ia32_pmovsxwq128(tmp_V8s); |
| 378 | tmp_V4i = __builtin_ia32_pmovzxbd128(tmp_V16c); |
| 379 | tmp_V2LLi = __builtin_ia32_pmovzxbq128(tmp_V16c); |
| 380 | tmp_V8s = __builtin_ia32_pmovzxbw128(tmp_V16c); |
| 381 | tmp_V2LLi = __builtin_ia32_pmovzxdq128(tmp_V4i); |
| 382 | tmp_V4i = __builtin_ia32_pmovzxwd128(tmp_V8s); |
| 383 | tmp_V2LLi = __builtin_ia32_pmovzxwq128(tmp_V8s); |
| 384 | tmp_V2LLi = __builtin_ia32_pmuldq128(tmp_V4i, tmp_V4i); |
| 385 | tmp_V4i = __builtin_ia32_pmulld128(tmp_V4i, tmp_V4i); |
| 386 | tmp_V4f = __builtin_ia32_roundps(tmp_V4f, imm_i_0_16); |
Eric Christopher | 2ac7472 | 2010-03-04 01:34:19 +0000 | [diff] [blame] | 387 | tmp_V4f = __builtin_ia32_roundss(tmp_V4f, tmp_V4f, imm_i_0_16); |
| 388 | tmp_V2d = __builtin_ia32_roundsd(tmp_V2d, tmp_V2d, imm_i_0_16); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 389 | tmp_V2d = __builtin_ia32_roundpd(tmp_V2d, imm_i_0_16); |
Mon P Wang | e5582f0 | 2008-10-18 02:43:25 +0000 | [diff] [blame] | 390 | tmp_V4f = __builtin_ia32_insertps128(tmp_V4f, tmp_V4f, tmp_i); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 391 | #endif |
Bruno Cardoso Lopes | 5ce9462 | 2010-08-03 01:57:18 +0000 | [diff] [blame] | 392 | |
Bruno Cardoso Lopes | 5ce9462 | 2010-08-03 01:57:18 +0000 | [diff] [blame] | 393 | tmp_V4d = __builtin_ia32_addsubpd256(tmp_V4d, tmp_V4d); |
| 394 | tmp_V8f = __builtin_ia32_addsubps256(tmp_V8f, tmp_V8f); |
Bruno Cardoso Lopes | 5ce9462 | 2010-08-03 01:57:18 +0000 | [diff] [blame] | 395 | tmp_V4d = __builtin_ia32_haddpd256(tmp_V4d, tmp_V4d); |
| 396 | tmp_V8f = __builtin_ia32_hsubps256(tmp_V8f, tmp_V8f); |
| 397 | tmp_V4d = __builtin_ia32_hsubpd256(tmp_V4d, tmp_V4d); |
| 398 | tmp_V8f = __builtin_ia32_haddps256(tmp_V8f, tmp_V8f); |
| 399 | tmp_V4d = __builtin_ia32_maxpd256(tmp_V4d, tmp_V4d); |
| 400 | tmp_V8f = __builtin_ia32_maxps256(tmp_V8f, tmp_V8f); |
| 401 | tmp_V4d = __builtin_ia32_minpd256(tmp_V4d, tmp_V4d); |
| 402 | tmp_V8f = __builtin_ia32_minps256(tmp_V8f, tmp_V8f); |
Bruno Cardoso Lopes | 5ce9462 | 2010-08-03 01:57:18 +0000 | [diff] [blame] | 403 | tmp_V2d = __builtin_ia32_vpermilvarpd(tmp_V2d, tmp_V2LLi); |
| 404 | tmp_V4f = __builtin_ia32_vpermilvarps(tmp_V4f, tmp_V4i); |
| 405 | tmp_V4d = __builtin_ia32_vpermilvarpd256(tmp_V4d, tmp_V4LLi); |
| 406 | tmp_V8f = __builtin_ia32_vpermilvarps256(tmp_V8f, tmp_V8i); |
| 407 | tmp_V4d = __builtin_ia32_blendpd256(tmp_V4d, tmp_V4d, 0x7); |
| 408 | tmp_V8f = __builtin_ia32_blendps256(tmp_V8f, tmp_V8f, 0x7); |
| 409 | tmp_V4d = __builtin_ia32_blendvpd256(tmp_V4d, tmp_V4d, tmp_V4d); |
| 410 | tmp_V8f = __builtin_ia32_blendvps256(tmp_V8f, tmp_V8f, tmp_V8f); |
| 411 | tmp_V8f = __builtin_ia32_dpps256(tmp_V8f, tmp_V8f, 0x7); |
| 412 | tmp_V4d = __builtin_ia32_shufpd256(tmp_V4d, tmp_V4d, 0x7); |
| 413 | tmp_V8f = __builtin_ia32_shufps256(tmp_V8f, tmp_V8f, 0x7); |
| 414 | tmp_V4d = __builtin_ia32_cmppd256(tmp_V4d, tmp_V4d, 0); |
| 415 | tmp_V8f = __builtin_ia32_cmpps256(tmp_V8f, tmp_V8f, 0); |
| 416 | tmp_V2d = __builtin_ia32_vextractf128_pd256(tmp_V4d, 0x7); |
| 417 | tmp_V4f = __builtin_ia32_vextractf128_ps256(tmp_V8f, 0x7); |
| 418 | tmp_V4i = __builtin_ia32_vextractf128_si256(tmp_V8i, 0x7); |
| 419 | tmp_V4d = __builtin_ia32_cvtdq2pd256(tmp_V4i); |
| 420 | tmp_V8f = __builtin_ia32_cvtdq2ps256(tmp_V8i); |
| 421 | tmp_V4f = __builtin_ia32_cvtpd2ps256(tmp_V4d); |
| 422 | tmp_V8i = __builtin_ia32_cvtps2dq256(tmp_V8f); |
| 423 | tmp_V4d = __builtin_ia32_cvtps2pd256(tmp_V4f); |
| 424 | tmp_V4i = __builtin_ia32_cvttpd2dq256(tmp_V4d); |
| 425 | tmp_V4i = __builtin_ia32_cvtpd2dq256(tmp_V4d); |
| 426 | tmp_V8i = __builtin_ia32_cvttps2dq256(tmp_V8f); |
| 427 | tmp_V4d = __builtin_ia32_vperm2f128_pd256(tmp_V4d, tmp_V4d, 0x7); |
| 428 | tmp_V8f = __builtin_ia32_vperm2f128_ps256(tmp_V8f, tmp_V8f, 0x7); |
| 429 | tmp_V8i = __builtin_ia32_vperm2f128_si256(tmp_V8i, tmp_V8i, 0x7); |
| 430 | tmp_V2d = __builtin_ia32_vpermilpd(tmp_V2d, 0x7); |
| 431 | tmp_V4f = __builtin_ia32_vpermilps(tmp_V4f, 0x7); |
| 432 | tmp_V4d = __builtin_ia32_vpermilpd256(tmp_V4d, 0x7); |
| 433 | tmp_V8f = __builtin_ia32_vpermilps256(tmp_V8f, 0x7); |
| 434 | tmp_V4d = __builtin_ia32_vinsertf128_pd256(tmp_V4d, tmp_V2d, 0x7); |
| 435 | tmp_V8f = __builtin_ia32_vinsertf128_ps256(tmp_V8f, tmp_V4f, 0x7); |
| 436 | tmp_V8i = __builtin_ia32_vinsertf128_si256(tmp_V8i, tmp_V4i, 0x7); |
Bruno Cardoso Lopes | 5ce9462 | 2010-08-03 01:57:18 +0000 | [diff] [blame] | 437 | tmp_V4d = __builtin_ia32_sqrtpd256(tmp_V4d); |
| 438 | tmp_V8f = __builtin_ia32_sqrtps256(tmp_V8f); |
| 439 | tmp_V8f = __builtin_ia32_sqrtps_nr256(tmp_V8f); |
| 440 | tmp_V8f = __builtin_ia32_rsqrtps256(tmp_V8f); |
| 441 | tmp_V8f = __builtin_ia32_rsqrtps_nr256(tmp_V8f); |
| 442 | tmp_V8f = __builtin_ia32_rcpps256(tmp_V8f); |
| 443 | tmp_V4d = __builtin_ia32_roundpd256(tmp_V4d, tmp_i); |
| 444 | tmp_V8f = __builtin_ia32_roundps256(tmp_V8f, tmp_i); |
| 445 | tmp_V4d = __builtin_ia32_unpckhpd256(tmp_V4d, tmp_V4d); |
| 446 | tmp_V4d = __builtin_ia32_unpcklpd256(tmp_V4d, tmp_V4d); |
| 447 | tmp_V8f = __builtin_ia32_unpckhps256(tmp_V8f, tmp_V8f); |
| 448 | tmp_V8f = __builtin_ia32_unpcklps256(tmp_V8f, tmp_V8f); |
| 449 | tmp_V8i = __builtin_ia32_si256_si(tmp_V4i); |
| 450 | tmp_V8f = __builtin_ia32_ps256_ps(tmp_V4f); |
| 451 | tmp_V4d = __builtin_ia32_pd256_pd(tmp_V2d); |
| 452 | tmp_V4i = __builtin_ia32_si_si256(tmp_V8i); |
| 453 | tmp_V4f = __builtin_ia32_ps_ps256(tmp_V8f); |
| 454 | tmp_V2d = __builtin_ia32_pd_pd256(tmp_V4d); |
| 455 | tmp_i = __builtin_ia32_vtestzpd(tmp_V2d, tmp_V2d); |
| 456 | tmp_i = __builtin_ia32_vtestcpd(tmp_V2d, tmp_V2d); |
| 457 | tmp_i = __builtin_ia32_vtestnzcpd(tmp_V2d, tmp_V2d); |
| 458 | tmp_i = __builtin_ia32_vtestzps(tmp_V4f, tmp_V4f); |
| 459 | tmp_i = __builtin_ia32_vtestcps(tmp_V4f, tmp_V4f); |
| 460 | tmp_i = __builtin_ia32_vtestnzcps(tmp_V4f, tmp_V4f); |
| 461 | tmp_i = __builtin_ia32_vtestzpd256(tmp_V4d, tmp_V4d); |
| 462 | tmp_i = __builtin_ia32_vtestcpd256(tmp_V4d, tmp_V4d); |
| 463 | tmp_i = __builtin_ia32_vtestnzcpd256(tmp_V4d, tmp_V4d); |
| 464 | tmp_i = __builtin_ia32_vtestzps256(tmp_V8f, tmp_V8f); |
| 465 | tmp_i = __builtin_ia32_vtestcps256(tmp_V8f, tmp_V8f); |
| 466 | tmp_i = __builtin_ia32_vtestnzcps256(tmp_V8f, tmp_V8f); |
| 467 | tmp_i = __builtin_ia32_ptestz256(tmp_V4LLi, tmp_V4LLi); |
| 468 | tmp_i = __builtin_ia32_ptestc256(tmp_V4LLi, tmp_V4LLi); |
| 469 | tmp_i = __builtin_ia32_ptestnzc256(tmp_V4LLi, tmp_V4LLi); |
| 470 | tmp_i = __builtin_ia32_movmskpd256(tmp_V4d); |
| 471 | tmp_i = __builtin_ia32_movmskps256(tmp_V8f); |
Bruno Cardoso Lopes | e898ed5 | 2010-08-04 01:11:26 +0000 | [diff] [blame] | 472 | __builtin_ia32_vzeroall(); |
| 473 | __builtin_ia32_vzeroupper(); |
| 474 | tmp_V4f = __builtin_ia32_vbroadcastss(tmp_fCp); |
| 475 | tmp_V4d = __builtin_ia32_vbroadcastsd256(tmp_dCp); |
| 476 | tmp_V8f = __builtin_ia32_vbroadcastss256(tmp_fCp); |
| 477 | tmp_V4d = __builtin_ia32_vbroadcastf128_pd256(tmp_V2dCp); |
| 478 | tmp_V8f = __builtin_ia32_vbroadcastf128_ps256(tmp_V4fCp); |
| 479 | tmp_V4d = __builtin_ia32_loadupd256(tmp_dCp); |
| 480 | tmp_V8f = __builtin_ia32_loadups256(tmp_fCp); |
| 481 | __builtin_ia32_storeupd256(tmp_dp, tmp_V4d); |
| 482 | __builtin_ia32_storeups256(tmp_fp, tmp_V8f); |
| 483 | tmp_V32c = __builtin_ia32_loaddqu256(tmp_cCp); |
| 484 | __builtin_ia32_storedqu256(tmp_cp, tmp_V32c); |
| 485 | tmp_V32c = __builtin_ia32_lddqu256(tmp_cCp); |
| 486 | __builtin_ia32_movntdq256(tmp_V4LLip, tmp_V4LLi); |
| 487 | __builtin_ia32_movntpd256(tmp_dp, tmp_V4d); |
| 488 | __builtin_ia32_movntps256(tmp_fp, tmp_V8f); |
| 489 | tmp_V2d = __builtin_ia32_maskloadpd(tmp_V2dCp, tmp_V2d); |
| 490 | tmp_V4f = __builtin_ia32_maskloadps(tmp_V4fCp, tmp_V4f); |
| 491 | tmp_V4d = __builtin_ia32_maskloadpd256(tmp_V4dCp, tmp_V4d); |
| 492 | tmp_V8f = __builtin_ia32_maskloadps256(tmp_V8fCp, tmp_V8f); |
| 493 | __builtin_ia32_maskstorepd(tmp_V2dp, tmp_V2d, tmp_V2d); |
| 494 | __builtin_ia32_maskstoreps(tmp_V4fp, tmp_V4f, tmp_V4f); |
| 495 | __builtin_ia32_maskstorepd256(tmp_V4dp, tmp_V4d, tmp_V4d); |
| 496 | __builtin_ia32_maskstoreps256(tmp_V8fp, tmp_V8f, tmp_V8f); |
Daniel Dunbar | eb15425 | 2008-10-05 06:38:36 +0000 | [diff] [blame] | 497 | } |