Blame - darwin-x86/lib64/clang/14.0.0/include/ppc_wrappers/emmintrin.h - platform/prebuilts/clang-tools

blob: 4dcb8485e2e9be05c65303eaf8862a4b7a8d97ae [file] [log] [blame]

Logan Chien	df4f766	2019-09-04 16:45:23 -0700	[diff] [blame]	1	/*===---- emmintrin.h - Implementation of SSE2 intrinsics on PowerPC -------===
				2	*
				3	* Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
				4	* See https://llvm.org/LICENSE.txt for license information.
				5	* SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
				6	*
				7	*===-----------------------------------------------------------------------===
				8	*/
				9
				10	/* Implemented from the specification included in the Intel C++ Compiler
				11	User Guide and Reference, version 9.0. */
				12
				13	#ifndef NO_WARN_X86_INTRINSICS
				14	/* This header file is to help porting code using Intel intrinsics
				15	explicitly from x86_64 to powerpc64/powerpc64le.
				16
				17	Since X86 SSE2 intrinsics mainly handles __m128i and __m128d type,
				18	PowerPC VMX/VSX ISA is a good match for vector float SIMD operations.
				19	However scalar float operations in vector (XMM) registers require
				20	the POWER8 VSX ISA (2.07) level. There are differences for data
				21	format and placement of float scalars in the vector register, which
				22	require extra steps to match SSE2 scalar float semantics on POWER.
				23
				24	It should be noted that there's much difference between X86_64's
				25	MXSCR and PowerISA's FPSCR/VSCR registers. It's recommended to use
				26	portable <fenv.h> instead of access MXSCR directly.
				27
				28	Most SSE2 scalar float intrinsic operations can be performed more
				29	efficiently as C language float scalar operations or optimized to
				30	use vector SIMD operations. We recommend this for new applications.
				31	*/
				32	#error "Please read comment above. Use -DNO_WARN_X86_INTRINSICS to disable this error."
				33	#endif
				34
				35	#ifndef EMMINTRIN_H_
				36	#define EMMINTRIN_H_
				37
Logan Chien	bedbf4f	2020-01-06 19:35:19 -0800	[diff] [blame]	38	#if defined(__linux__) && defined(__ppc64__)
				39
Logan Chien	df4f766	2019-09-04 16:45:23 -0700	[diff] [blame]	40	#include <altivec.h>
				41
				42	/* We need definitions from the SSE header files. */
				43	#include <xmmintrin.h>
				44
				45	/* SSE2 */
				46	typedef __vector double __v2df;
				47	typedef __vector long long __v2di;
				48	typedef __vector unsigned long long __v2du;
				49	typedef __vector int __v4si;
				50	typedef __vector unsigned int __v4su;
				51	typedef __vector short __v8hi;
				52	typedef __vector unsigned short __v8hu;
				53	typedef __vector signed char __v16qi;
				54	typedef __vector unsigned char __v16qu;
				55
				56	/* The Intel API is flexible enough that we must allow aliasing with other
				57	vector types, and their scalar components. */
				58	typedef long long __m128i __attribute__ ((__vector_size__ (16), __may_alias__));
				59	typedef double __m128d __attribute__ ((__vector_size__ (16), __may_alias__));
				60
				61	/* Unaligned version of the same types. */
				62	typedef long long __m128i_u __attribute__ ((__vector_size__ (16), __may_alias__, __aligned__ (1)));
				63	typedef double __m128d_u __attribute__ ((__vector_size__ (16), __may_alias__, __aligned__ (1)));
				64
				65	/* Define two value permute mask. */
				66	#define _MM_SHUFFLE2(x,y) (((x) << 1) \| (y))
				67
				68	/* Create a vector with element 0 as F and the rest zero. */
				69	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				70	_mm_set_sd (double __F)
				71	{
				72	return __extension__ (__m128d){ __F, 0.0 };
				73	}
				74
				75	/* Create a vector with both elements equal to F. */
				76	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				77	_mm_set1_pd (double __F)
				78	{
				79	return __extension__ (__m128d){ __F, __F };
				80	}
				81
				82	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				83	_mm_set_pd1 (double __F)
				84	{
				85	return _mm_set1_pd (__F);
				86	}
				87
				88	/* Create a vector with the lower value X and upper value W. */
				89	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				90	_mm_set_pd (double __W, double __X)
				91	{
				92	return __extension__ (__m128d){ __X, __W };
				93	}
				94
				95	/* Create a vector with the lower value W and upper value X. */
				96	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				97	_mm_setr_pd (double __W, double __X)
				98	{
				99	return __extension__ (__m128d){ __W, __X };
				100	}
				101
				102	/* Create an undefined vector. */
				103	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				104	_mm_undefined_pd (void)
				105	{
				106	__m128d __Y = __Y;
				107	return __Y;
				108	}
				109
				110	/* Create a vector of zeros. */
				111	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				112	_mm_setzero_pd (void)
				113	{
				114	return (__m128d) vec_splats (0);
				115	}
				116
				117	/* Sets the low DPFP value of A from the low value of B. */
				118	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				119	_mm_move_sd (__m128d __A, __m128d __B)
				120	{
				121	__v2df result = (__v2df) __A;
				122	result [0] = ((__v2df) __B)[0];
				123	return (__m128d) result;
				124	}
				125
				126	/* Load two DPFP values from P. The address must be 16-byte aligned. */
				127	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				128	_mm_load_pd (double const *__P)
				129	{
				130	return ((__m128d)vec_ld(0, (__v16qu*)__P));
				131	}
				132
				133	/* Load two DPFP values from P. The address need not be 16-byte aligned. */
				134	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				135	_mm_loadu_pd (double const *__P)
				136	{
				137	return (vec_vsx_ld(0, __P));
				138	}
				139
				140	/* Create a vector with all two elements equal to P. /
				141	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				142	_mm_load1_pd (double const *__P)
				143	{
				144	return (vec_splats (*__P));
				145	}
				146
				147	/* Create a vector with element 0 as P and the rest zero. /
				148	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				149	_mm_load_sd (double const *__P)
				150	{
				151	return _mm_set_sd (*__P);
				152	}
				153
				154	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				155	_mm_load_pd1 (double const *__P)
				156	{
				157	return _mm_load1_pd (__P);
				158	}
				159
				160	/* Load two DPFP values in reverse order. The address must be aligned. */
				161	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				162	_mm_loadr_pd (double const *__P)
				163	{
				164	__v2df __tmp = _mm_load_pd (__P);
				165	return (__m128d)vec_xxpermdi (__tmp, __tmp, 2);
				166	}
				167
				168	/* Store two DPFP values. The address must be 16-byte aligned. */
				169	extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				170	_mm_store_pd (double *__P, __m128d __A)
				171	{
				172	vec_st((__v16qu)__A, 0, (__v16qu*)__P);
				173	}
				174
				175	/* Store two DPFP values. The address need not be 16-byte aligned. */
				176	extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				177	_mm_storeu_pd (double *__P, __m128d __A)
				178	{
				179	(__m128d_u )__P = __A;
				180	}
				181
				182	/* Stores the lower DPFP value. */
				183	extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				184	_mm_store_sd (double *__P, __m128d __A)
				185	{
				186	*__P = ((__v2df)__A)[0];
				187	}
				188
				189	extern __inline double __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				190	_mm_cvtsd_f64 (__m128d __A)
				191	{
				192	return ((__v2df)__A)[0];
				193	}
				194
				195	extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				196	_mm_storel_pd (double *__P, __m128d __A)
				197	{
				198	_mm_store_sd (__P, __A);
				199	}
				200
				201	/* Stores the upper DPFP value. */
				202	extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				203	_mm_storeh_pd (double *__P, __m128d __A)
				204	{
				205	*__P = ((__v2df)__A)[1];
				206	}
				207	/* Store the lower DPFP value across two words.
				208	The address must be 16-byte aligned. */
				209	extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				210	_mm_store1_pd (double *__P, __m128d __A)
				211	{
				212	_mm_store_pd (__P, vec_splat (__A, 0));
				213	}
				214
				215	extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				216	_mm_store_pd1 (double *__P, __m128d __A)
				217	{
				218	_mm_store1_pd (__P, __A);
				219	}
				220
				221	/* Store two DPFP values in reverse order. The address must be aligned. */
				222	extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				223	_mm_storer_pd (double *__P, __m128d __A)
				224	{
				225	_mm_store_pd (__P, vec_xxpermdi (__A, __A, 2));
				226	}
				227
				228	/* Intel intrinsic. */
				229	extern __inline long long __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				230	_mm_cvtsi128_si64 (__m128i __A)
				231	{
				232	return ((__v2di)__A)[0];
				233	}
				234
				235	/* Microsoft intrinsic. */
				236	extern __inline long long __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				237	_mm_cvtsi128_si64x (__m128i __A)
				238	{
				239	return ((__v2di)__A)[0];
				240	}
				241
				242	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				243	_mm_add_pd (__m128d __A, __m128d __B)
				244	{
				245	return (__m128d) ((__v2df)__A + (__v2df)__B);
				246	}
				247
				248	/* Add the lower double-precision (64-bit) floating-point element in
				249	a and b, store the result in the lower element of dst, and copy
				250	the upper element from a to the upper element of dst. */
				251	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				252	_mm_add_sd (__m128d __A, __m128d __B)
				253	{
				254	__A[0] = __A[0] + __B[0];
				255	return (__A);
				256	}
				257
				258	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				259	_mm_sub_pd (__m128d __A, __m128d __B)
				260	{
				261	return (__m128d) ((__v2df)__A - (__v2df)__B);
				262	}
				263
				264	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				265	_mm_sub_sd (__m128d __A, __m128d __B)
				266	{
				267	__A[0] = __A[0] - __B[0];
				268	return (__A);
				269	}
				270
				271	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				272	_mm_mul_pd (__m128d __A, __m128d __B)
				273	{
				274	return (__m128d) ((__v2df)__A * (__v2df)__B);
				275	}
				276
				277	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				278	_mm_mul_sd (__m128d __A, __m128d __B)
				279	{
				280	__A[0] = __A[0] * __B[0];
				281	return (__A);
				282	}
				283
				284	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				285	_mm_div_pd (__m128d __A, __m128d __B)
				286	{
				287	return (__m128d) ((__v2df)__A / (__v2df)__B);
				288	}
				289
				290	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				291	_mm_div_sd (__m128d __A, __m128d __B)
				292	{
				293	__A[0] = __A[0] / __B[0];
				294	return (__A);
				295	}
				296
				297	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				298	_mm_sqrt_pd (__m128d __A)
				299	{
				300	return (vec_sqrt (__A));
				301	}
				302
				303	/* Return pair {sqrt (B[0]), A[1]}. */
				304	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				305	_mm_sqrt_sd (__m128d __A, __m128d __B)
				306	{
				307	__v2df c;
				308	c = vec_sqrt ((__v2df) _mm_set1_pd (__B[0]));
				309	return (__m128d) _mm_setr_pd (c[0], __A[1]);
				310	}
				311
				312	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				313	_mm_min_pd (__m128d __A, __m128d __B)
				314	{
				315	return (vec_min (__A, __B));
				316	}
				317
				318	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				319	_mm_min_sd (__m128d __A, __m128d __B)
				320	{
				321	__v2df a, b, c;
				322	a = vec_splats (__A[0]);
				323	b = vec_splats (__B[0]);
				324	c = vec_min (a, b);
				325	return (__m128d) _mm_setr_pd (c[0], __A[1]);
				326	}
				327
				328	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				329	_mm_max_pd (__m128d __A, __m128d __B)
				330	{
				331	return (vec_max (__A, __B));
				332	}
				333
				334	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				335	_mm_max_sd (__m128d __A, __m128d __B)
				336	{
				337	__v2df a, b, c;
				338	a = vec_splats (__A[0]);
				339	b = vec_splats (__B[0]);
				340	c = vec_max (a, b);
				341	return (__m128d) _mm_setr_pd (c[0], __A[1]);
				342	}
				343
				344	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				345	_mm_cmpeq_pd (__m128d __A, __m128d __B)
				346	{
				347	return ((__m128d)vec_cmpeq ((__v2df) __A, (__v2df) __B));
				348	}
				349
				350	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				351	_mm_cmplt_pd (__m128d __A, __m128d __B)
				352	{
				353	return ((__m128d)vec_cmplt ((__v2df) __A, (__v2df) __B));
				354	}
				355
				356	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				357	_mm_cmple_pd (__m128d __A, __m128d __B)
				358	{
				359	return ((__m128d)vec_cmple ((__v2df) __A, (__v2df) __B));
				360	}
				361
				362	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				363	_mm_cmpgt_pd (__m128d __A, __m128d __B)
				364	{
				365	return ((__m128d)vec_cmpgt ((__v2df) __A, (__v2df) __B));
				366	}
				367
				368	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				369	_mm_cmpge_pd (__m128d __A, __m128d __B)
				370	{
				371	return ((__m128d)vec_cmpge ((__v2df) __A,(__v2df) __B));
				372	}
				373
				374	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				375	_mm_cmpneq_pd (__m128d __A, __m128d __B)
				376	{
				377	__v2df temp = (__v2df) vec_cmpeq ((__v2df) __A, (__v2df)__B);
				378	return ((__m128d)vec_nor (temp, temp));
				379	}
				380
				381	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				382	_mm_cmpnlt_pd (__m128d __A, __m128d __B)
				383	{
				384	return ((__m128d)vec_cmpge ((__v2df) __A, (__v2df) __B));
				385	}
				386
				387	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				388	_mm_cmpnle_pd (__m128d __A, __m128d __B)
				389	{
				390	return ((__m128d)vec_cmpgt ((__v2df) __A, (__v2df) __B));
				391	}
				392
				393	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				394	_mm_cmpngt_pd (__m128d __A, __m128d __B)
				395	{
				396	return ((__m128d)vec_cmple ((__v2df) __A, (__v2df) __B));
				397	}
				398
				399	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				400	_mm_cmpnge_pd (__m128d __A, __m128d __B)
				401	{
				402	return ((__m128d)vec_cmplt ((__v2df) __A, (__v2df) __B));
				403	}
				404
				405	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				406	_mm_cmpord_pd (__m128d __A, __m128d __B)
				407	{
				408	#if _ARCH_PWR8
				409	__v2du c, d;
				410	/* Compare against self will return false (0's) if NAN. */
				411	c = (__v2du)vec_cmpeq (__A, __A);
				412	d = (__v2du)vec_cmpeq (__B, __B);
				413	#else
				414	__v2du a, b;
				415	__v2du c, d;
				416	const __v2du double_exp_mask = {0x7ff0000000000000, 0x7ff0000000000000};
				417	a = (__v2du)vec_abs ((__v2df)__A);
				418	b = (__v2du)vec_abs ((__v2df)__B);
				419	c = (__v2du)vec_cmpgt (double_exp_mask, a);
				420	d = (__v2du)vec_cmpgt (double_exp_mask, b);
				421	#endif
				422	/* A != NAN and B != NAN. */
				423	return ((__m128d)vec_and(c, d));
				424	}
				425
				426	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				427	_mm_cmpunord_pd (__m128d __A, __m128d __B)
				428	{
				429	#if _ARCH_PWR8
				430	__v2du c, d;
				431	/* Compare against self will return false (0's) if NAN. */
				432	c = (__v2du)vec_cmpeq ((__v2df)__A, (__v2df)__A);
				433	d = (__v2du)vec_cmpeq ((__v2df)__B, (__v2df)__B);
				434	/* A == NAN OR B == NAN converts too:
				435	NOT(A != NAN) OR NOT(B != NAN). */
				436	c = vec_nor (c, c);
				437	return ((__m128d)vec_orc(c, d));
				438	#else
				439	__v2du c, d;
				440	/* Compare against self will return false (0's) if NAN. */
				441	c = (__v2du)vec_cmpeq ((__v2df)__A, (__v2df)__A);
				442	d = (__v2du)vec_cmpeq ((__v2df)__B, (__v2df)__B);
				443	/* Convert the true ('1's) is NAN. */
				444	c = vec_nor (c, c);
				445	d = vec_nor (d, d);
				446	return ((__m128d)vec_or(c, d));
				447	#endif
				448	}
				449
				450	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				451	_mm_cmpeq_sd(__m128d __A, __m128d __B)
				452	{
				453	__v2df a, b, c;
				454	/* PowerISA VSX does not allow partial (for just lower double)
				455	results. So to insure we don't generate spurious exceptions
				456	(from the upper double values) we splat the lower double
				457	before we do the operation. */
				458	a = vec_splats (__A[0]);
				459	b = vec_splats (__B[0]);
				460	c = (__v2df) vec_cmpeq(a, b);
				461	/* Then we merge the lower double result with the original upper
				462	double from __A. */
				463	return (__m128d) _mm_setr_pd (c[0], __A[1]);
				464	}
				465
				466	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				467	_mm_cmplt_sd (__m128d __A, __m128d __B)
				468	{
				469	__v2df a, b, c;
				470	a = vec_splats (__A[0]);
				471	b = vec_splats (__B[0]);
				472	c = (__v2df) vec_cmplt(a, b);
				473	return (__m128d) _mm_setr_pd (c[0], __A[1]);
				474	}
				475
				476	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				477	_mm_cmple_sd (__m128d __A, __m128d __B)
				478	{
				479	__v2df a, b, c;
				480	a = vec_splats (__A[0]);
				481	b = vec_splats (__B[0]);
				482	c = (__v2df) vec_cmple(a, b);
				483	return (__m128d) _mm_setr_pd (c[0], __A[1]);
				484	}
				485
				486	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				487	_mm_cmpgt_sd (__m128d __A, __m128d __B)
				488	{
				489	__v2df a, b, c;
				490	a = vec_splats (__A[0]);
				491	b = vec_splats (__B[0]);
				492	c = (__v2df) vec_cmpgt(a, b);
				493	return (__m128d) _mm_setr_pd (c[0], __A[1]);
				494	}
				495
				496	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				497	_mm_cmpge_sd (__m128d __A, __m128d __B)
				498	{
				499	__v2df a, b, c;
				500	a = vec_splats (__A[0]);
				501	b = vec_splats (__B[0]);
				502	c = (__v2df) vec_cmpge(a, b);
				503	return (__m128d) _mm_setr_pd (c[0], __A[1]);
				504	}
				505
				506	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				507	_mm_cmpneq_sd (__m128d __A, __m128d __B)
				508	{
				509	__v2df a, b, c;
				510	a = vec_splats (__A[0]);
				511	b = vec_splats (__B[0]);
				512	c = (__v2df) vec_cmpeq(a, b);
				513	c = vec_nor (c, c);
				514	return (__m128d) _mm_setr_pd (c[0], __A[1]);
				515	}
				516
				517	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				518	_mm_cmpnlt_sd (__m128d __A, __m128d __B)
				519	{
				520	__v2df a, b, c;
				521	a = vec_splats (__A[0]);
				522	b = vec_splats (__B[0]);
				523	/* Not less than is just greater than or equal. */
				524	c = (__v2df) vec_cmpge(a, b);
				525	return (__m128d) _mm_setr_pd (c[0], __A[1]);
				526	}
				527
				528	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				529	_mm_cmpnle_sd (__m128d __A, __m128d __B)
				530	{
				531	__v2df a, b, c;
				532	a = vec_splats (__A[0]);
				533	b = vec_splats (__B[0]);
				534	/* Not less than or equal is just greater than. */
				535	c = (__v2df) vec_cmpge(a, b);
				536	return (__m128d) _mm_setr_pd (c[0], __A[1]);
				537	}
				538
				539	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				540	_mm_cmpngt_sd (__m128d __A, __m128d __B)
				541	{
				542	__v2df a, b, c;
				543	a = vec_splats (__A[0]);
				544	b = vec_splats (__B[0]);
				545	/* Not greater than is just less than or equal. */
				546	c = (__v2df) vec_cmple(a, b);
				547	return (__m128d) _mm_setr_pd (c[0], __A[1]);
				548	}
				549
				550	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				551	_mm_cmpnge_sd (__m128d __A, __m128d __B)
				552	{
				553	__v2df a, b, c;
				554	a = vec_splats (__A[0]);
				555	b = vec_splats (__B[0]);
				556	/* Not greater than or equal is just less than. */
				557	c = (__v2df) vec_cmplt(a, b);
				558	return (__m128d) _mm_setr_pd (c[0], __A[1]);
				559	}
				560
				561	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				562	_mm_cmpord_sd (__m128d __A, __m128d __B)
				563	{
				564	__v2df r;
				565	r = (__v2df)_mm_cmpord_pd (vec_splats (__A[0]), vec_splats (__B[0]));
				566	return (__m128d) _mm_setr_pd (r[0], ((__v2df)__A)[1]);
				567	}
				568
				569	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				570	_mm_cmpunord_sd (__m128d __A, __m128d __B)
				571	{
				572	__v2df r;
				573	r = _mm_cmpunord_pd (vec_splats (__A[0]), vec_splats (__B[0]));
				574	return (__m128d) _mm_setr_pd (r[0], __A[1]);
				575	}
				576
				577	/* FIXME
				578	The __mm_comi??_sd and __mm_ucomi??_sd implementations below are
				579	exactly the same because GCC for PowerPC only generates unordered
				580	compares (scalar and vector).
				581	Technically __mm_comieq_sp et all should be using the ordered
				582	compare and signal for QNaNs. The __mm_ucomieq_sd et all should
				583	be OK. */
				584	extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				585	_mm_comieq_sd (__m128d __A, __m128d __B)
				586	{
				587	return (__A[0] == __B[0]);
				588	}
				589
				590	extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				591	_mm_comilt_sd (__m128d __A, __m128d __B)
				592	{
				593	return (__A[0] < __B[0]);
				594	}
				595
				596	extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				597	_mm_comile_sd (__m128d __A, __m128d __B)
				598	{
				599	return (__A[0] <= __B[0]);
				600	}
				601
				602	extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				603	_mm_comigt_sd (__m128d __A, __m128d __B)
				604	{
				605	return (__A[0] > __B[0]);
				606	}
				607
				608	extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				609	_mm_comige_sd (__m128d __A, __m128d __B)
				610	{
				611	return (__A[0] >= __B[0]);
				612	}
				613
				614	extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				615	_mm_comineq_sd (__m128d __A, __m128d __B)
				616	{
				617	return (__A[0] != __B[0]);
				618	}
				619
				620	extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				621	_mm_ucomieq_sd (__m128d __A, __m128d __B)
				622	{
				623	return (__A[0] == __B[0]);
				624	}
				625
				626	extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				627	_mm_ucomilt_sd (__m128d __A, __m128d __B)
				628	{
				629	return (__A[0] < __B[0]);
				630	}
				631
				632	extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				633	_mm_ucomile_sd (__m128d __A, __m128d __B)
				634	{
				635	return (__A[0] <= __B[0]);
				636	}
				637
				638	extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				639	_mm_ucomigt_sd (__m128d __A, __m128d __B)
				640	{
				641	return (__A[0] > __B[0]);
				642	}
				643
				644	extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				645	_mm_ucomige_sd (__m128d __A, __m128d __B)
				646	{
				647	return (__A[0] >= __B[0]);
				648	}
				649
				650	extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				651	_mm_ucomineq_sd (__m128d __A, __m128d __B)
				652	{
				653	return (__A[0] != __B[0]);
				654	}
				655
				656	/* Create a vector of Qi, where i is the element number. */
				657	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				658	_mm_set_epi64x (long long __q1, long long __q0)
				659	{
				660	return __extension__ (__m128i)(__v2di){ __q0, __q1 };
				661	}
				662
				663	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				664	_mm_set_epi64 (__m64 __q1, __m64 __q0)
				665	{
				666	return _mm_set_epi64x ((long long)__q1, (long long)__q0);
				667	}
				668
				669	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				670	_mm_set_epi32 (int __q3, int __q2, int __q1, int __q0)
				671	{
				672	return __extension__ (__m128i)(__v4si){ __q0, __q1, __q2, __q3 };
				673	}
				674
				675	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				676	_mm_set_epi16 (short __q7, short __q6, short __q5, short __q4,
				677	short __q3, short __q2, short __q1, short __q0)
				678	{
				679	return __extension__ (__m128i)(__v8hi){
				680	__q0, __q1, __q2, __q3, __q4, __q5, __q6, __q7 };
				681	}
				682
				683	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				684	_mm_set_epi8 (char __q15, char __q14, char __q13, char __q12,
				685	char __q11, char __q10, char __q09, char __q08,
				686	char __q07, char __q06, char __q05, char __q04,
				687	char __q03, char __q02, char __q01, char __q00)
				688	{
				689	return __extension__ (__m128i)(__v16qi){
				690	__q00, __q01, __q02, __q03, __q04, __q05, __q06, __q07,
				691	__q08, __q09, __q10, __q11, __q12, __q13, __q14, __q15
				692	};
				693	}
				694
				695	/* Set all of the elements of the vector to A. */
				696	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				697	_mm_set1_epi64x (long long __A)
				698	{
				699	return _mm_set_epi64x (__A, __A);
				700	}
				701
				702	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				703	_mm_set1_epi64 (__m64 __A)
				704	{
				705	return _mm_set_epi64 (__A, __A);
				706	}
				707
				708	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				709	_mm_set1_epi32 (int __A)
				710	{
				711	return _mm_set_epi32 (__A, __A, __A, __A);
				712	}
				713
				714	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				715	_mm_set1_epi16 (short __A)
				716	{
				717	return _mm_set_epi16 (__A, __A, __A, __A, __A, __A, __A, __A);
				718	}
				719
				720	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				721	_mm_set1_epi8 (char __A)
				722	{
				723	return _mm_set_epi8 (__A, __A, __A, __A, __A, __A, __A, __A,
				724	__A, __A, __A, __A, __A, __A, __A, __A);
				725	}
				726
				727	/* Create a vector of Qi, where i is the element number.
				728	The parameter order is reversed from the _mm_set_epi* functions. */
				729	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				730	_mm_setr_epi64 (__m64 __q0, __m64 __q1)
				731	{
				732	return _mm_set_epi64 (__q1, __q0);
				733	}
				734
				735	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				736	_mm_setr_epi32 (int __q0, int __q1, int __q2, int __q3)
				737	{
				738	return _mm_set_epi32 (__q3, __q2, __q1, __q0);
				739	}
				740
				741	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				742	_mm_setr_epi16 (short __q0, short __q1, short __q2, short __q3,
				743	short __q4, short __q5, short __q6, short __q7)
				744	{
				745	return _mm_set_epi16 (__q7, __q6, __q5, __q4, __q3, __q2, __q1, __q0);
				746	}
				747
				748	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				749	_mm_setr_epi8 (char __q00, char __q01, char __q02, char __q03,
				750	char __q04, char __q05, char __q06, char __q07,
				751	char __q08, char __q09, char __q10, char __q11,
				752	char __q12, char __q13, char __q14, char __q15)
				753	{
				754	return _mm_set_epi8 (__q15, __q14, __q13, __q12, __q11, __q10, __q09, __q08,
				755	__q07, __q06, __q05, __q04, __q03, __q02, __q01, __q00);
				756	}
				757
				758	/* Create a vector with element 0 as P and the rest zero. /
				759	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				760	_mm_load_si128 (__m128i const *__P)
				761	{
				762	return *__P;
				763	}
				764
				765	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				766	_mm_loadu_si128 (__m128i_u const *__P)
				767	{
				768	return (__m128i) (vec_vsx_ld(0, (signed int const *)__P));
				769	}
				770
				771	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				772	_mm_loadl_epi64 (__m128i_u const *__P)
				773	{
				774	return _mm_set_epi64 ((__m64)0LL, (__m64 )__P);
				775	}
				776
				777	extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				778	_mm_store_si128 (__m128i *__P, __m128i __B)
				779	{
				780	vec_st ((__v16qu) __B, 0, (__v16qu*)__P);
				781	}
				782
				783	extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				784	_mm_storeu_si128 (__m128i_u *__P, __m128i __B)
				785	{
				786	*__P = __B;
				787	}
				788
				789	extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				790	_mm_storel_epi64 (__m128i_u *__P, __m128i __B)
				791	{
				792	(long long )__P = ((__v2di)__B)[0];
				793	}
				794
				795	extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				796	_mm_movepi64_pi64 (__m128i_u __B)
				797	{
				798	return (__m64) ((__v2di)__B)[0];
				799	}
				800
				801	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				802	_mm_movpi64_epi64 (__m64 __A)
				803	{
				804	return _mm_set_epi64 ((__m64)0LL, __A);
				805	}
				806
				807	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				808	_mm_move_epi64 (__m128i __A)
				809	{
				810	return _mm_set_epi64 ((__m64)0LL, (__m64)__A[0]);
				811	}
				812
				813	/* Create an undefined vector. */
				814	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				815	_mm_undefined_si128 (void)
				816	{
				817	__m128i __Y = __Y;
				818	return __Y;
				819	}
				820
				821	/* Create a vector of zeros. */
				822	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				823	_mm_setzero_si128 (void)
				824	{
				825	return __extension__ (__m128i)(__v4si){ 0, 0, 0, 0 };
				826	}
				827
				828	#ifdef _ARCH_PWR8
				829	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				830	_mm_cvtepi32_pd (__m128i __A)
				831	{
				832	__v2di val;
				833	/* For LE need to generate Vector Unpack Low Signed Word.
				834	Which is generated from unpackh. */
				835	val = (__v2di)vec_unpackh ((__v4si)__A);
				836
				837	return (__m128d)vec_ctf (val, 0);
				838	}
				839	#endif
				840
				841	extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				842	_mm_cvtepi32_ps (__m128i __A)
				843	{
				844	return ((__m128)vec_ctf((__v4si)__A, 0));
				845	}
				846
				847	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				848	_mm_cvtpd_epi32 (__m128d __A)
				849	{
				850	__v2df rounded = vec_rint (__A);
				851	__v4si result, temp;
				852	const __v4si vzero =
				853	{ 0, 0, 0, 0 };
				854
				855	/* VSX Vector truncate Double-Precision to integer and Convert to
				856	Signed Integer Word format with Saturate. */
				857	__asm__(
				858	"xvcvdpsxws %x0,%x1"
				859	: "=wa" (temp)
				860	: "wa" (rounded)
				861	: );
				862
				863	#ifdef _ARCH_PWR8
				864	temp = vec_mergeo (temp, temp);
				865	result = (__v4si) vec_vpkudum ((__vector long long) temp,
				866	(__vector long long) vzero);
				867	#else
				868	{
				869	const __v16qu pkperm = {0x00, 0x01, 0x02, 0x03, 0x08, 0x09, 0x0a, 0x0b,
				870	0x14, 0x15, 0x16, 0x17, 0x1c, 0x1d, 0x1e, 0x1f };
				871	result = (__v4si) vec_perm ((__v16qu) temp, (__v16qu) vzero, pkperm);
				872	}
				873	#endif
				874	return (__m128i) result;
				875	}
				876
				877	extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				878	_mm_cvtpd_pi32 (__m128d __A)
				879	{
				880	__m128i result = _mm_cvtpd_epi32(__A);
				881
				882	return (__m64) result[0];
				883	}
				884
				885	extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				886	_mm_cvtpd_ps (__m128d __A)
				887	{
				888	__v4sf result;
				889	__v4si temp;
				890	const __v4si vzero = { 0, 0, 0, 0 };
				891
				892	__asm__(
				893	"xvcvdpsp %x0,%x1"
				894	: "=wa" (temp)
				895	: "wa" (__A)
				896	: );
				897
				898	#ifdef _ARCH_PWR8
				899	temp = vec_mergeo (temp, temp);
				900	result = (__v4sf) vec_vpkudum ((__vector long long) temp,
				901	(__vector long long) vzero);
				902	#else
				903	{
				904	const __v16qu pkperm = {0x00, 0x01, 0x02, 0x03, 0x08, 0x09, 0x0a, 0x0b,
				905	0x14, 0x15, 0x16, 0x17, 0x1c, 0x1d, 0x1e, 0x1f };
				906	result = (__v4sf) vec_perm ((__v16qu) temp, (__v16qu) vzero, pkperm);
				907	}
				908	#endif
				909	return ((__m128)result);
				910	}
				911
				912	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				913	_mm_cvttpd_epi32 (__m128d __A)
				914	{
				915	__v4si result;
				916	__v4si temp;
				917	const __v4si vzero = { 0, 0, 0, 0 };
				918
				919	/* VSX Vector truncate Double-Precision to integer and Convert to
				920	Signed Integer Word format with Saturate. */
				921	__asm__(
				922	"xvcvdpsxws %x0,%x1"
				923	: "=wa" (temp)
				924	: "wa" (__A)
				925	: );
				926
				927	#ifdef _ARCH_PWR8
				928	temp = vec_mergeo (temp, temp);
				929	result = (__v4si) vec_vpkudum ((__vector long long) temp,
				930	(__vector long long) vzero);
				931	#else
				932	{
				933	const __v16qu pkperm = {0x00, 0x01, 0x02, 0x03, 0x08, 0x09, 0x0a, 0x0b,
				934	0x14, 0x15, 0x16, 0x17, 0x1c, 0x1d, 0x1e, 0x1f };
				935	result = (__v4si) vec_perm ((__v16qu) temp, (__v16qu) vzero, pkperm);
				936	}
				937	#endif
				938
				939	return ((__m128i) result);
				940	}
				941
				942	extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				943	_mm_cvttpd_pi32 (__m128d __A)
				944	{
				945	__m128i result = _mm_cvttpd_epi32 (__A);
				946
				947	return (__m64) result[0];
				948	}
				949
				950	extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				951	_mm_cvtsi128_si32 (__m128i __A)
				952	{
				953	return ((__v4si)__A)[0];
				954	}
				955
				956	#ifdef _ARCH_PWR8
				957	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				958	_mm_cvtpi32_pd (__m64 __A)
				959	{
				960	__v4si temp;
				961	__v2di tmp2;
				962	__v2df result;
				963
				964	temp = (__v4si)vec_splats (__A);
				965	tmp2 = (__v2di)vec_unpackl (temp);
				966	result = vec_ctf ((__vector signed long long) tmp2, 0);
				967	return (__m128d)result;
				968	}
				969	#endif
				970
				971	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				972	_mm_cvtps_epi32 (__m128 __A)
				973	{
				974	__v4sf rounded;
				975	__v4si result;
				976
				977	rounded = vec_rint((__v4sf) __A);
				978	result = vec_cts (rounded, 0);
				979	return (__m128i) result;
				980	}
				981
				982	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				983	_mm_cvttps_epi32 (__m128 __A)
				984	{
				985	__v4si result;
				986
				987	result = vec_cts ((__v4sf) __A, 0);
				988	return (__m128i) result;
				989	}
				990
				991	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				992	_mm_cvtps_pd (__m128 __A)
				993	{
				994	/* Check if vec_doubleh is defined by <altivec.h>. If so use that. */
				995	#ifdef vec_doubleh
				996	return (__m128d) vec_doubleh ((__v4sf)__A);
				997	#else
				998	/* Otherwise the compiler is not current and so need to generate the
				999	equivalent code. */
				1000	__v4sf a = (__v4sf)__A;
				1001	__v4sf temp;
				1002	__v2df result;
				1003	#ifdef __LITTLE_ENDIAN__
				1004	/* The input float values are in elements {[0], [1]} but the convert
				1005	instruction needs them in elements {[1], [3]}, So we use two
				1006	shift left double vector word immediates to get the elements
				1007	lined up. */
				1008	temp = __builtin_vsx_xxsldwi (a, a, 3);
				1009	temp = __builtin_vsx_xxsldwi (a, temp, 2);
				1010	#else
				1011	/* The input float values are in elements {[0], [1]} but the convert
				1012	instruction needs them in elements {[0], [2]}, So we use two
				1013	shift left double vector word immediates to get the elements
				1014	lined up. */
				1015	temp = vec_vmrghw (a, a);
				1016	#endif
				1017	__asm__(
				1018	" xvcvspdp %x0,%x1"
				1019	: "=wa" (result)
				1020	: "wa" (temp)
				1021	: );
				1022	return (__m128d) result;
				1023	#endif
				1024	}
				1025
				1026	extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1027	_mm_cvtsd_si32 (__m128d __A)
				1028	{
				1029	__v2df rounded = vec_rint((__v2df) __A);
				1030	int result = ((__v2df)rounded)[0];
				1031
				1032	return result;
				1033	}
				1034	/* Intel intrinsic. */
				1035	extern __inline long long __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1036	_mm_cvtsd_si64 (__m128d __A)
				1037	{
				1038	__v2df rounded = vec_rint ((__v2df) __A );
				1039	long long result = ((__v2df) rounded)[0];
				1040
				1041	return result;
				1042	}
				1043
				1044	/* Microsoft intrinsic. */
				1045	extern __inline long long __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1046	_mm_cvtsd_si64x (__m128d __A)
				1047	{
				1048	return _mm_cvtsd_si64 ((__v2df)__A);
				1049	}
				1050
				1051	extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1052	_mm_cvttsd_si32 (__m128d __A)
				1053	{
				1054	int result = ((__v2df)__A)[0];
				1055
				1056	return result;
				1057	}
				1058
				1059	/* Intel intrinsic. */
				1060	extern __inline long long __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1061	_mm_cvttsd_si64 (__m128d __A)
				1062	{
				1063	long long result = ((__v2df)__A)[0];
				1064
				1065	return result;
				1066	}
				1067
				1068	/* Microsoft intrinsic. */
				1069	extern __inline long long __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1070	_mm_cvttsd_si64x (__m128d __A)
				1071	{
				1072	return _mm_cvttsd_si64 (__A);
				1073	}
				1074
				1075	extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1076	_mm_cvtsd_ss (__m128 __A, __m128d __B)
				1077	{
				1078	__v4sf result = (__v4sf)__A;
				1079
				1080	#ifdef __LITTLE_ENDIAN__
				1081	__v4sf temp_s;
				1082	/* Copy double element[0] to element [1] for conversion. */
				1083	__v2df temp_b = vec_splat((__v2df)__B, 0);
				1084
				1085	/* Pre-rotate __A left 3 (logically right 1) elements. */
				1086	result = __builtin_vsx_xxsldwi (result, result, 3);
				1087	/* Convert double to single float scalar in a vector. */
				1088	__asm__(
				1089	"xscvdpsp %x0,%x1"
				1090	: "=wa" (temp_s)
				1091	: "wa" (temp_b)
				1092	: );
				1093	/* Shift the resulting scalar into vector element [0]. */
				1094	result = __builtin_vsx_xxsldwi (result, temp_s, 1);
				1095	#else
				1096	result [0] = ((__v2df)__B)[0];
				1097	#endif
				1098	return (__m128) result;
				1099	}
				1100
				1101	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1102	_mm_cvtsi32_sd (__m128d __A, int __B)
				1103	{
				1104	__v2df result = (__v2df)__A;
				1105	double db = __B;
				1106	result [0] = db;
				1107	return (__m128d)result;
				1108	}
				1109
				1110	/* Intel intrinsic. */
				1111	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1112	_mm_cvtsi64_sd (__m128d __A, long long __B)
				1113	{
				1114	__v2df result = (__v2df)__A;
				1115	double db = __B;
				1116	result [0] = db;
				1117	return (__m128d)result;
				1118	}
				1119
				1120	/* Microsoft intrinsic. */
				1121	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1122	_mm_cvtsi64x_sd (__m128d __A, long long __B)
				1123	{
				1124	return _mm_cvtsi64_sd (__A, __B);
				1125	}
				1126
				1127	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1128	_mm_cvtss_sd (__m128d __A, __m128 __B)
				1129	{
				1130	#ifdef __LITTLE_ENDIAN__
				1131	/* Use splat to move element [0] into position for the convert. */
				1132	__v4sf temp = vec_splat ((__v4sf)__B, 0);
				1133	__v2df res;
				1134	/* Convert single float scalar to double in a vector. */
				1135	__asm__(
				1136	"xscvspdp %x0,%x1"
				1137	: "=wa" (res)
				1138	: "wa" (temp)
				1139	: );
				1140	return (__m128d) vec_mergel (res, (__v2df)__A);
				1141	#else
				1142	__v2df res = (__v2df)__A;
				1143	res [0] = ((__v4sf)__B) [0];
				1144	return (__m128d) res;
				1145	#endif
				1146	}
				1147
				1148	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1149	_mm_shuffle_pd(__m128d __A, __m128d __B, const int __mask)
				1150	{
				1151	__vector double result;
				1152	const int litmsk = __mask & 0x3;
				1153
				1154	if (litmsk == 0)
				1155	result = vec_mergeh (__A, __B);
				1156	#if __GNUC__ < 6
				1157	else if (litmsk == 1)
				1158	result = vec_xxpermdi (__B, __A, 2);
				1159	else if (litmsk == 2)
				1160	result = vec_xxpermdi (__B, __A, 1);
				1161	#else
				1162	else if (litmsk == 1)
				1163	result = vec_xxpermdi (__A, __B, 2);
				1164	else if (litmsk == 2)
				1165	result = vec_xxpermdi (__A, __B, 1);
				1166	#endif
				1167	else
				1168	result = vec_mergel (__A, __B);
				1169
				1170	return result;
				1171	}
				1172
				1173	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1174	_mm_unpackhi_pd (__m128d __A, __m128d __B)
				1175	{
				1176	return (__m128d) vec_mergel ((__v2df)__A, (__v2df)__B);
				1177	}
				1178
				1179	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1180	_mm_unpacklo_pd (__m128d __A, __m128d __B)
				1181	{
				1182	return (__m128d) vec_mergeh ((__v2df)__A, (__v2df)__B);
				1183	}
				1184
				1185	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1186	_mm_loadh_pd (__m128d __A, double const *__B)
				1187	{
				1188	__v2df result = (__v2df)__A;
				1189	result [1] = *__B;
				1190	return (__m128d)result;
				1191	}
				1192
				1193	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1194	_mm_loadl_pd (__m128d __A, double const *__B)
				1195	{
				1196	__v2df result = (__v2df)__A;
				1197	result [0] = *__B;
				1198	return (__m128d)result;
				1199	}
				1200
				1201	#ifdef _ARCH_PWR8
				1202	/* Intrinsic functions that require PowerISA 2.07 minimum. */
				1203
				1204	/* Creates a 2-bit mask from the most significant bits of the DPFP values. */
				1205	extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1206	_mm_movemask_pd (__m128d __A)
				1207	{
				1208	__vector unsigned long long result;
				1209	static const __vector unsigned int perm_mask =
				1210	{
				1211	#ifdef __LITTLE_ENDIAN__
				1212	0x80800040, 0x80808080, 0x80808080, 0x80808080
				1213	#else
				1214	0x80808080, 0x80808080, 0x80808080, 0x80804000
				1215	#endif
				1216	};
				1217
				1218	result = ((__vector unsigned long long)
				1219	vec_vbpermq ((__vector unsigned char) __A,
				1220	(__vector unsigned char) perm_mask));
				1221
				1222	#ifdef __LITTLE_ENDIAN__
				1223	return result[1];
				1224	#else
				1225	return result[0];
				1226	#endif
				1227	}
				1228	#endif /* _ARCH_PWR8 */
				1229
				1230	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1231	_mm_packs_epi16 (__m128i __A, __m128i __B)
				1232	{
				1233	return (__m128i) vec_packs ((__v8hi) __A, (__v8hi)__B);
				1234	}
				1235
				1236	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1237	_mm_packs_epi32 (__m128i __A, __m128i __B)
				1238	{
				1239	return (__m128i) vec_packs ((__v4si)__A, (__v4si)__B);
				1240	}
				1241
				1242	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1243	_mm_packus_epi16 (__m128i __A, __m128i __B)
				1244	{
				1245	return (__m128i) vec_packsu ((__v8hi) __A, (__v8hi)__B);
				1246	}
				1247
				1248	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1249	_mm_unpackhi_epi8 (__m128i __A, __m128i __B)
				1250	{
				1251	return (__m128i) vec_mergel ((__v16qu)__A, (__v16qu)__B);
				1252	}
				1253
				1254	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1255	_mm_unpackhi_epi16 (__m128i __A, __m128i __B)
				1256	{
				1257	return (__m128i) vec_mergel ((__v8hu)__A, (__v8hu)__B);
				1258	}
				1259
				1260	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1261	_mm_unpackhi_epi32 (__m128i __A, __m128i __B)
				1262	{
				1263	return (__m128i) vec_mergel ((__v4su)__A, (__v4su)__B);
				1264	}
				1265
				1266	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1267	_mm_unpackhi_epi64 (__m128i __A, __m128i __B)
				1268	{
				1269	return (__m128i) vec_mergel ((__vector long long) __A,
				1270	(__vector long long) __B);
				1271	}
				1272
				1273	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1274	_mm_unpacklo_epi8 (__m128i __A, __m128i __B)
				1275	{
				1276	return (__m128i) vec_mergeh ((__v16qu)__A, (__v16qu)__B);
				1277	}
				1278
				1279	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1280	_mm_unpacklo_epi16 (__m128i __A, __m128i __B)
				1281	{
				1282	return (__m128i) vec_mergeh ((__v8hi)__A, (__v8hi)__B);
				1283	}
				1284
				1285	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1286	_mm_unpacklo_epi32 (__m128i __A, __m128i __B)
				1287	{
				1288	return (__m128i) vec_mergeh ((__v4si)__A, (__v4si)__B);
				1289	}
				1290
				1291	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1292	_mm_unpacklo_epi64 (__m128i __A, __m128i __B)
				1293	{
				1294	return (__m128i) vec_mergeh ((__vector long long) __A,
				1295	(__vector long long) __B);
				1296	}
				1297
				1298	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1299	_mm_add_epi8 (__m128i __A, __m128i __B)
				1300	{
				1301	return (__m128i) ((__v16qu)__A + (__v16qu)__B);
				1302	}
				1303
				1304	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1305	_mm_add_epi16 (__m128i __A, __m128i __B)
				1306	{
				1307	return (__m128i) ((__v8hu)__A + (__v8hu)__B);
				1308	}
				1309
				1310	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1311	_mm_add_epi32 (__m128i __A, __m128i __B)
				1312	{
				1313	return (__m128i) ((__v4su)__A + (__v4su)__B);
				1314	}
				1315
				1316	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1317	_mm_add_epi64 (__m128i __A, __m128i __B)
				1318	{
				1319	return (__m128i) ((__v2du)__A + (__v2du)__B);
				1320	}
				1321
				1322	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1323	_mm_adds_epi8 (__m128i __A, __m128i __B)
				1324	{
				1325	return (__m128i) vec_adds ((__v16qi)__A, (__v16qi)__B);
				1326	}
				1327
				1328	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1329	_mm_adds_epi16 (__m128i __A, __m128i __B)
				1330	{
				1331	return (__m128i) vec_adds ((__v8hi)__A, (__v8hi)__B);
				1332	}
				1333
				1334	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1335	_mm_adds_epu8 (__m128i __A, __m128i __B)
				1336	{
				1337	return (__m128i) vec_adds ((__v16qu)__A, (__v16qu)__B);
				1338	}
				1339
				1340	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1341	_mm_adds_epu16 (__m128i __A, __m128i __B)
				1342	{
				1343	return (__m128i) vec_adds ((__v8hu)__A, (__v8hu)__B);
				1344	}
				1345
				1346	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1347	_mm_sub_epi8 (__m128i __A, __m128i __B)
				1348	{
				1349	return (__m128i) ((__v16qu)__A - (__v16qu)__B);
				1350	}
				1351
				1352	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1353	_mm_sub_epi16 (__m128i __A, __m128i __B)
				1354	{
				1355	return (__m128i) ((__v8hu)__A - (__v8hu)__B);
				1356	}
				1357
				1358	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1359	_mm_sub_epi32 (__m128i __A, __m128i __B)
				1360	{
				1361	return (__m128i) ((__v4su)__A - (__v4su)__B);
				1362	}
				1363
				1364	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1365	_mm_sub_epi64 (__m128i __A, __m128i __B)
				1366	{
				1367	return (__m128i) ((__v2du)__A - (__v2du)__B);
				1368	}
				1369
				1370	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1371	_mm_subs_epi8 (__m128i __A, __m128i __B)
				1372	{
				1373	return (__m128i) vec_subs ((__v16qi)__A, (__v16qi)__B);
				1374	}
				1375
				1376	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1377	_mm_subs_epi16 (__m128i __A, __m128i __B)
				1378	{
				1379	return (__m128i) vec_subs ((__v8hi)__A, (__v8hi)__B);
				1380	}
				1381
				1382	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1383	_mm_subs_epu8 (__m128i __A, __m128i __B)
				1384	{
				1385	return (__m128i) vec_subs ((__v16qu)__A, (__v16qu)__B);
				1386	}
				1387
				1388	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1389	_mm_subs_epu16 (__m128i __A, __m128i __B)
				1390	{
				1391	return (__m128i) vec_subs ((__v8hu)__A, (__v8hu)__B);
				1392	}
				1393
				1394	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1395	_mm_madd_epi16 (__m128i __A, __m128i __B)
				1396	{
				1397	__vector signed int zero = {0, 0, 0, 0};
				1398
				1399	return (__m128i) vec_vmsumshm ((__v8hi)__A, (__v8hi)__B, zero);
				1400	}
				1401
				1402	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1403	_mm_mulhi_epi16 (__m128i __A, __m128i __B)
				1404	{
				1405	__vector signed int w0, w1;
				1406
				1407	__vector unsigned char xform1 = {
				1408	#ifdef __LITTLE_ENDIAN__
				1409	0x02, 0x03, 0x12, 0x13, 0x06, 0x07, 0x16, 0x17,
				1410	0x0A, 0x0B, 0x1A, 0x1B, 0x0E, 0x0F, 0x1E, 0x1F
				1411	#else
				1412	0x00, 0x01, 0x10, 0x11, 0x04, 0x05, 0x14, 0x15,
				1413	0x08, 0x09, 0x18, 0x19, 0x0C, 0x0D, 0x1C, 0x1D
				1414	#endif
				1415	};
				1416
				1417	w0 = vec_vmulesh ((__v8hi)__A, (__v8hi)__B);
				1418	w1 = vec_vmulosh ((__v8hi)__A, (__v8hi)__B);
				1419	return (__m128i) vec_perm (w0, w1, xform1);
				1420	}
				1421
				1422	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1423	_mm_mullo_epi16 (__m128i __A, __m128i __B)
				1424	{
				1425	return (__m128i) ((__v8hi)__A * (__v8hi)__B);
				1426	}
				1427
				1428	extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1429	_mm_mul_su32 (__m64 __A, __m64 __B)
				1430	{
				1431	unsigned int a = __A;
				1432	unsigned int b = __B;
				1433
				1434	return ((__m64)a * (__m64)b);
				1435	}
				1436
				1437	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1438	_mm_mul_epu32 (__m128i __A, __m128i __B)
				1439	{
				1440	#if __GNUC__ < 8
				1441	__v2du result;
				1442
				1443	#ifdef __LITTLE_ENDIAN__
				1444	/* VMX Vector Multiply Odd Unsigned Word. */
				1445	__asm__(
				1446	"vmulouw %0,%1,%2"
				1447	: "=v" (result)
				1448	: "v" (__A), "v" (__B)
				1449	: );
				1450	#else
				1451	/* VMX Vector Multiply Even Unsigned Word. */
				1452	__asm__(
				1453	"vmuleuw %0,%1,%2"
				1454	: "=v" (result)
				1455	: "v" (__A), "v" (__B)
				1456	: );
				1457	#endif
				1458	return (__m128i) result;
				1459	#else
				1460	return (__m128i) vec_mule ((__v4su)__A, (__v4su)__B);
				1461	#endif
				1462	}
				1463
				1464	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1465	_mm_slli_epi16 (__m128i __A, int __B)
				1466	{
				1467	__v8hu lshift;
				1468	__v8hi result = { 0, 0, 0, 0, 0, 0, 0, 0 };
				1469
				1470	if (__B >= 0 && __B < 16)
				1471	{
				1472	if (__builtin_constant_p(__B))
				1473	lshift = (__v8hu) vec_splat_s16(__B);
				1474	else
				1475	lshift = vec_splats ((unsigned short) __B);
				1476
				1477	result = vec_sl ((__v8hi) __A, lshift);
				1478	}
				1479
				1480	return (__m128i) result;
				1481	}
				1482
				1483	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1484	_mm_slli_epi32 (__m128i __A, int __B)
				1485	{
				1486	__v4su lshift;
				1487	__v4si result = { 0, 0, 0, 0 };
				1488
				1489	if (__B >= 0 && __B < 32)
				1490	{
				1491	if (__builtin_constant_p(__B) && __B < 16)
				1492	lshift = (__v4su) vec_splat_s32(__B);
				1493	else
				1494	lshift = vec_splats ((unsigned int) __B);
				1495
				1496	result = vec_sl ((__v4si) __A, lshift);
				1497	}
				1498
				1499	return (__m128i) result;
				1500	}
				1501
				1502	#ifdef _ARCH_PWR8
				1503	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1504	_mm_slli_epi64 (__m128i __A, int __B)
				1505	{
				1506	__v2du lshift;
				1507	__v2di result = { 0, 0 };
				1508
				1509	if (__B >= 0 && __B < 64)
				1510	{
				1511	if (__builtin_constant_p(__B) && __B < 16)
				1512	lshift = (__v2du) vec_splat_s32(__B);
				1513	else
				1514	lshift = (__v2du) vec_splats ((unsigned int) __B);
				1515
				1516	result = vec_sl ((__v2di) __A, lshift);
				1517	}
				1518
				1519	return (__m128i) result;
				1520	}
				1521	#endif
				1522
				1523	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1524	_mm_srai_epi16 (__m128i __A, int __B)
				1525	{
				1526	__v8hu rshift = { 15, 15, 15, 15, 15, 15, 15, 15 };
				1527	__v8hi result;
				1528
				1529	if (__B < 16)
				1530	{
				1531	if (__builtin_constant_p(__B))
				1532	rshift = (__v8hu) vec_splat_s16(__B);
				1533	else
				1534	rshift = vec_splats ((unsigned short) __B);
				1535	}
				1536	result = vec_sra ((__v8hi) __A, rshift);
				1537
				1538	return (__m128i) result;
				1539	}
				1540
				1541	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1542	_mm_srai_epi32 (__m128i __A, int __B)
				1543	{
				1544	__v4su rshift = { 31, 31, 31, 31 };
				1545	__v4si result;
				1546
				1547	if (__B < 32)
				1548	{
				1549	if (__builtin_constant_p(__B))
				1550	{
				1551	if (__B < 16)
				1552	rshift = (__v4su) vec_splat_s32(__B);
				1553	else
				1554	rshift = (__v4su) vec_splats((unsigned int)__B);
				1555	}
				1556	else
				1557	rshift = vec_splats ((unsigned int) __B);
				1558	}
				1559	result = vec_sra ((__v4si) __A, rshift);
				1560
				1561	return (__m128i) result;
				1562	}
				1563
				1564	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1565	_mm_bslli_si128 (__m128i __A, const int __N)
				1566	{
				1567	__v16qu result;
				1568	const __v16qu zeros = { 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0 };
				1569
				1570	if (__N < 16)
				1571	result = vec_sld ((__v16qu) __A, zeros, __N);
				1572	else
				1573	result = zeros;
				1574
				1575	return (__m128i) result;
				1576	}
				1577
				1578	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1579	_mm_bsrli_si128 (__m128i __A, const int __N)
				1580	{
				1581	__v16qu result;
				1582	const __v16qu zeros = { 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0 };
				1583
				1584	if (__N < 16)
				1585	#ifdef __LITTLE_ENDIAN__
				1586	if (__builtin_constant_p(__N))
				1587	/* Would like to use Vector Shift Left Double by Octet
				1588	Immediate here to use the immediate form and avoid
				1589	load of __N * 8 value into a separate VR. */
				1590	result = vec_sld (zeros, (__v16qu) __A, (16 - __N));
				1591	else
				1592	#endif
				1593	{
				1594	__v16qu shift = vec_splats((unsigned char)(__N*8));
				1595	#ifdef __LITTLE_ENDIAN__
				1596	result = vec_sro ((__v16qu)__A, shift);
				1597	#else
				1598	result = vec_slo ((__v16qu)__A, shift);
				1599	#endif
				1600	}
				1601	else
				1602	result = zeros;
				1603
				1604	return (__m128i) result;
				1605	}
				1606
				1607	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1608	_mm_srli_si128 (__m128i __A, const int __N)
				1609	{
				1610	return _mm_bsrli_si128 (__A, __N);
				1611	}
				1612
				1613	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1614	_mm_slli_si128 (__m128i __A, const int _imm5)
				1615	{
				1616	__v16qu result;
				1617	const __v16qu zeros = { 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0 };
				1618
				1619	if (_imm5 < 16)
				1620	#ifdef __LITTLE_ENDIAN__
				1621	result = vec_sld ((__v16qu) __A, zeros, _imm5);
				1622	#else
				1623	result = vec_sld (zeros, (__v16qu) __A, (16 - _imm5));
				1624	#endif
				1625	else
				1626	result = zeros;
				1627
				1628	return (__m128i) result;
				1629	}
				1630
				1631	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1632
				1633	_mm_srli_epi16 (__m128i __A, int __B)
				1634	{
				1635	__v8hu rshift;
				1636	__v8hi result = { 0, 0, 0, 0, 0, 0, 0, 0 };
				1637
				1638	if (__B < 16)
				1639	{
				1640	if (__builtin_constant_p(__B))
				1641	rshift = (__v8hu) vec_splat_s16(__B);
				1642	else
				1643	rshift = vec_splats ((unsigned short) __B);
				1644
				1645	result = vec_sr ((__v8hi) __A, rshift);
				1646	}
				1647
				1648	return (__m128i) result;
				1649	}
				1650
				1651	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1652	_mm_srli_epi32 (__m128i __A, int __B)
				1653	{
				1654	__v4su rshift;
				1655	__v4si result = { 0, 0, 0, 0 };
				1656
				1657	if (__B < 32)
				1658	{
				1659	if (__builtin_constant_p(__B))
				1660	{
				1661	if (__B < 16)
				1662	rshift = (__v4su) vec_splat_s32(__B);
				1663	else
				1664	rshift = (__v4su) vec_splats((unsigned int)__B);
				1665	}
				1666	else
				1667	rshift = vec_splats ((unsigned int) __B);
				1668
				1669	result = vec_sr ((__v4si) __A, rshift);
				1670	}
				1671
				1672	return (__m128i) result;
				1673	}
				1674
				1675	#ifdef _ARCH_PWR8
				1676	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1677	_mm_srli_epi64 (__m128i __A, int __B)
				1678	{
				1679	__v2du rshift;
				1680	__v2di result = { 0, 0 };
				1681
				1682	if (__B < 64)
				1683	{
				1684	if (__builtin_constant_p(__B))
				1685	{
				1686	if (__B < 16)
				1687	rshift = (__v2du) vec_splat_s32(__B);
				1688	else
				1689	rshift = (__v2du) vec_splats((unsigned long long)__B);
				1690	}
				1691	else
				1692	rshift = (__v2du) vec_splats ((unsigned int) __B);
				1693
				1694	result = vec_sr ((__v2di) __A, rshift);
				1695	}
				1696
				1697	return (__m128i) result;
				1698	}
				1699	#endif
				1700
				1701	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1702	_mm_sll_epi16 (__m128i __A, __m128i __B)
				1703	{
				1704	__v8hu lshift;
				1705	__vector __bool short shmask;
				1706	const __v8hu shmax = { 15, 15, 15, 15, 15, 15, 15, 15 };
				1707	__v8hu result;
				1708
				1709	#ifdef __LITTLE_ENDIAN__
				1710	lshift = vec_splat ((__v8hu) __B, 0);
				1711	#else
				1712	lshift = vec_splat ((__v8hu) __B, 3);
				1713	#endif
				1714	shmask = vec_cmple (lshift, shmax);
				1715	result = vec_sl ((__v8hu) __A, lshift);
				1716	result = vec_sel ((__v8hu) shmask, result, shmask);
				1717
				1718	return (__m128i) result;
				1719	}
				1720
				1721	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1722	_mm_sll_epi32 (__m128i __A, __m128i __B)
				1723	{
				1724	__v4su lshift;
				1725	__vector __bool int shmask;
				1726	const __v4su shmax = { 32, 32, 32, 32 };
				1727	__v4su result;
				1728	#ifdef __LITTLE_ENDIAN__
				1729	lshift = vec_splat ((__v4su) __B, 0);
				1730	#else
				1731	lshift = vec_splat ((__v4su) __B, 1);
				1732	#endif
				1733	shmask = vec_cmplt (lshift, shmax);
				1734	result = vec_sl ((__v4su) __A, lshift);
				1735	result = vec_sel ((__v4su) shmask, result, shmask);
				1736
				1737	return (__m128i) result;
				1738	}
				1739
				1740	#ifdef _ARCH_PWR8
				1741	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1742	_mm_sll_epi64 (__m128i __A, __m128i __B)
				1743	{
				1744	__v2du lshift;
				1745	__vector __bool long long shmask;
				1746	const __v2du shmax = { 64, 64 };
				1747	__v2du result;
				1748
				1749	lshift = vec_splat ((__v2du) __B, 0);
				1750	shmask = vec_cmplt (lshift, shmax);
				1751	result = vec_sl ((__v2du) __A, lshift);
Sasha Smundak	33d5ddd	2020-05-04 13:37:26 -0700	[diff] [blame]	1752	result = (__v2du)vec_sel ((__v2df) shmask, (__v2df)result, shmask);
Logan Chien	df4f766	2019-09-04 16:45:23 -0700	[diff] [blame]	1753
				1754	return (__m128i) result;
				1755	}
				1756	#endif
				1757
				1758	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1759	_mm_sra_epi16 (__m128i __A, __m128i __B)
				1760	{
				1761	const __v8hu rshmax = { 15, 15, 15, 15, 15, 15, 15, 15 };
				1762	__v8hu rshift;
				1763	__v8hi result;
				1764
				1765	#ifdef __LITTLE_ENDIAN__
				1766	rshift = vec_splat ((__v8hu)__B, 0);
				1767	#else
				1768	rshift = vec_splat ((__v8hu)__B, 3);
				1769	#endif
				1770	rshift = vec_min (rshift, rshmax);
				1771	result = vec_sra ((__v8hi) __A, rshift);
				1772
				1773	return (__m128i) result;
				1774	}
				1775
				1776	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1777	_mm_sra_epi32 (__m128i __A, __m128i __B)
				1778	{
				1779	const __v4su rshmax = { 31, 31, 31, 31 };
				1780	__v4su rshift;
				1781	__v4si result;
				1782
				1783	#ifdef __LITTLE_ENDIAN__
				1784	rshift = vec_splat ((__v4su)__B, 0);
				1785	#else
				1786	rshift = vec_splat ((__v4su)__B, 1);
				1787	#endif
				1788	rshift = vec_min (rshift, rshmax);
				1789	result = vec_sra ((__v4si) __A, rshift);
				1790
				1791	return (__m128i) result;
				1792	}
				1793
				1794	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1795	_mm_srl_epi16 (__m128i __A, __m128i __B)
				1796	{
				1797	__v8hu rshift;
				1798	__vector __bool short shmask;
				1799	const __v8hu shmax = { 15, 15, 15, 15, 15, 15, 15, 15 };
				1800	__v8hu result;
				1801
				1802	#ifdef __LITTLE_ENDIAN__
				1803	rshift = vec_splat ((__v8hu) __B, 0);
				1804	#else
				1805	rshift = vec_splat ((__v8hu) __B, 3);
				1806	#endif
				1807	shmask = vec_cmple (rshift, shmax);
				1808	result = vec_sr ((__v8hu) __A, rshift);
				1809	result = vec_sel ((__v8hu) shmask, result, shmask);
				1810
				1811	return (__m128i) result;
				1812	}
				1813
				1814	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1815	_mm_srl_epi32 (__m128i __A, __m128i __B)
				1816	{
				1817	__v4su rshift;
				1818	__vector __bool int shmask;
				1819	const __v4su shmax = { 32, 32, 32, 32 };
				1820	__v4su result;
				1821
				1822	#ifdef __LITTLE_ENDIAN__
				1823	rshift = vec_splat ((__v4su) __B, 0);
				1824	#else
				1825	rshift = vec_splat ((__v4su) __B, 1);
				1826	#endif
				1827	shmask = vec_cmplt (rshift, shmax);
				1828	result = vec_sr ((__v4su) __A, rshift);
				1829	result = vec_sel ((__v4su) shmask, result, shmask);
				1830
				1831	return (__m128i) result;
				1832	}
				1833
				1834	#ifdef _ARCH_PWR8
				1835	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1836	_mm_srl_epi64 (__m128i __A, __m128i __B)
				1837	{
				1838	__v2du rshift;
				1839	__vector __bool long long shmask;
				1840	const __v2du shmax = { 64, 64 };
				1841	__v2du result;
				1842
				1843	rshift = vec_splat ((__v2du) __B, 0);
				1844	shmask = vec_cmplt (rshift, shmax);
				1845	result = vec_sr ((__v2du) __A, rshift);
Sasha Smundak	33d5ddd	2020-05-04 13:37:26 -0700	[diff] [blame]	1846	result = (__v2du)vec_sel ((__v2df) shmask, (__v2df)result, shmask);
Logan Chien	df4f766	2019-09-04 16:45:23 -0700	[diff] [blame]	1847
				1848	return (__m128i) result;
				1849	}
				1850	#endif
				1851
				1852	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1853	_mm_and_pd (__m128d __A, __m128d __B)
				1854	{
				1855	return (vec_and ((__v2df) __A, (__v2df) __B));
				1856	}
				1857
				1858	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1859	_mm_andnot_pd (__m128d __A, __m128d __B)
				1860	{
				1861	return (vec_andc ((__v2df) __B, (__v2df) __A));
				1862	}
				1863
				1864	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1865	_mm_or_pd (__m128d __A, __m128d __B)
				1866	{
				1867	return (vec_or ((__v2df) __A, (__v2df) __B));
				1868	}
				1869
				1870	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1871	_mm_xor_pd (__m128d __A, __m128d __B)
				1872	{
				1873	return (vec_xor ((__v2df) __A, (__v2df) __B));
				1874	}
				1875
				1876	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1877	_mm_and_si128 (__m128i __A, __m128i __B)
				1878	{
				1879	return (__m128i)vec_and ((__v2di) __A, (__v2di) __B);
				1880	}
				1881
				1882	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1883	_mm_andnot_si128 (__m128i __A, __m128i __B)
				1884	{
				1885	return (__m128i)vec_andc ((__v2di) __B, (__v2di) __A);
				1886	}
				1887
				1888	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1889	_mm_or_si128 (__m128i __A, __m128i __B)
				1890	{
				1891	return (__m128i)vec_or ((__v2di) __A, (__v2di) __B);
				1892	}
				1893
				1894	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1895	_mm_xor_si128 (__m128i __A, __m128i __B)
				1896	{
				1897	return (__m128i)vec_xor ((__v2di) __A, (__v2di) __B);
				1898	}
				1899
				1900	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1901	_mm_cmpeq_epi8 (__m128i __A, __m128i __B)
				1902	{
				1903	return (__m128i) vec_cmpeq ((__v16qi) __A, (__v16qi)__B);
				1904	}
				1905
				1906	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1907	_mm_cmpeq_epi16 (__m128i __A, __m128i __B)
				1908	{
				1909	return (__m128i) vec_cmpeq ((__v8hi) __A, (__v8hi)__B);
				1910	}
				1911
				1912	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1913	_mm_cmpeq_epi32 (__m128i __A, __m128i __B)
				1914	{
				1915	return (__m128i) vec_cmpeq ((__v4si) __A, (__v4si)__B);
				1916	}
				1917
				1918	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1919	_mm_cmplt_epi8 (__m128i __A, __m128i __B)
				1920	{
				1921	return (__m128i) vec_cmplt ((__v16qi) __A, (__v16qi)__B);
				1922	}
				1923
				1924	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1925	_mm_cmplt_epi16 (__m128i __A, __m128i __B)
				1926	{
				1927	return (__m128i) vec_cmplt ((__v8hi) __A, (__v8hi)__B);
				1928	}
				1929
				1930	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1931	_mm_cmplt_epi32 (__m128i __A, __m128i __B)
				1932	{
				1933	return (__m128i) vec_cmplt ((__v4si) __A, (__v4si)__B);
				1934	}
				1935
				1936	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1937	_mm_cmpgt_epi8 (__m128i __A, __m128i __B)
				1938	{
				1939	return (__m128i) vec_cmpgt ((__v16qi) __A, (__v16qi)__B);
				1940	}
				1941
				1942	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1943	_mm_cmpgt_epi16 (__m128i __A, __m128i __B)
				1944	{
				1945	return (__m128i) vec_cmpgt ((__v8hi) __A, (__v8hi)__B);
				1946	}
				1947
				1948	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1949	_mm_cmpgt_epi32 (__m128i __A, __m128i __B)
				1950	{
				1951	return (__m128i) vec_cmpgt ((__v4si) __A, (__v4si)__B);
				1952	}
				1953
				1954	extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1955	_mm_extract_epi16 (__m128i const __A, int const __N)
				1956	{
				1957	return (unsigned short) ((__v8hi)__A)[__N & 7];
				1958	}
				1959
				1960	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1961	_mm_insert_epi16 (__m128i const __A, int const __D, int const __N)
				1962	{
				1963	__v8hi result = (__v8hi)__A;
				1964
				1965	result [(__N & 7)] = __D;
				1966
				1967	return (__m128i) result;
				1968	}
				1969
				1970	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1971	_mm_max_epi16 (__m128i __A, __m128i __B)
				1972	{
				1973	return (__m128i) vec_max ((__v8hi)__A, (__v8hi)__B);
				1974	}
				1975
				1976	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1977	_mm_max_epu8 (__m128i __A, __m128i __B)
				1978	{
				1979	return (__m128i) vec_max ((__v16qu) __A, (__v16qu)__B);
				1980	}
				1981
				1982	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1983	_mm_min_epi16 (__m128i __A, __m128i __B)
				1984	{
				1985	return (__m128i) vec_min ((__v8hi) __A, (__v8hi)__B);
				1986	}
				1987
				1988	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				1989	_mm_min_epu8 (__m128i __A, __m128i __B)
				1990	{
				1991	return (__m128i) vec_min ((__v16qu) __A, (__v16qu)__B);
				1992	}
				1993
				1994
				1995	#ifdef _ARCH_PWR8
				1996	/* Intrinsic functions that require PowerISA 2.07 minimum. */
				1997
				1998	/* Creates a 4-bit mask from the most significant bits of the SPFP values. */
				1999	extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2000	_mm_movemask_epi8 (__m128i __A)
				2001	{
				2002	__vector unsigned long long result;
				2003	static const __vector unsigned char perm_mask =
				2004	{
				2005	0x78, 0x70, 0x68, 0x60, 0x58, 0x50, 0x48, 0x40,
				2006	0x38, 0x30, 0x28, 0x20, 0x18, 0x10, 0x08, 0x00
				2007	};
				2008
				2009	result = ((__vector unsigned long long)
				2010	vec_vbpermq ((__vector unsigned char) __A,
				2011	(__vector unsigned char) perm_mask));
				2012
				2013	#ifdef __LITTLE_ENDIAN__
				2014	return result[1];
				2015	#else
				2016	return result[0];
				2017	#endif
				2018	}
				2019	#endif /* _ARCH_PWR8 */
				2020
				2021	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2022	_mm_mulhi_epu16 (__m128i __A, __m128i __B)
				2023	{
				2024	__v4su w0, w1;
				2025	__v16qu xform1 = {
				2026	#ifdef __LITTLE_ENDIAN__
				2027	0x02, 0x03, 0x12, 0x13, 0x06, 0x07, 0x16, 0x17,
				2028	0x0A, 0x0B, 0x1A, 0x1B, 0x0E, 0x0F, 0x1E, 0x1F
				2029	#else
				2030	0x00, 0x01, 0x10, 0x11, 0x04, 0x05, 0x14, 0x15,
				2031	0x08, 0x09, 0x18, 0x19, 0x0C, 0x0D, 0x1C, 0x1D
				2032	#endif
				2033	};
				2034
				2035	w0 = vec_vmuleuh ((__v8hu)__A, (__v8hu)__B);
				2036	w1 = vec_vmulouh ((__v8hu)__A, (__v8hu)__B);
				2037	return (__m128i) vec_perm (w0, w1, xform1);
				2038	}
				2039
				2040	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2041	_mm_shufflehi_epi16 (__m128i __A, const int __mask)
				2042	{
				2043	unsigned long element_selector_98 = __mask & 0x03;
				2044	unsigned long element_selector_BA = (__mask >> 2) & 0x03;
				2045	unsigned long element_selector_DC = (__mask >> 4) & 0x03;
				2046	unsigned long element_selector_FE = (__mask >> 6) & 0x03;
				2047	static const unsigned short permute_selectors[4] =
				2048	{
				2049	#ifdef __LITTLE_ENDIAN__
				2050	0x0908, 0x0B0A, 0x0D0C, 0x0F0E
				2051	#else
				2052	0x0809, 0x0A0B, 0x0C0D, 0x0E0F
				2053	#endif
				2054	};
				2055	__v2du pmask =
				2056	#ifdef __LITTLE_ENDIAN__
				2057	{ 0x1716151413121110UL, 0UL};
				2058	#else
				2059	{ 0x1011121314151617UL, 0UL};
				2060	#endif
				2061	__m64_union t;
				2062	__v2du a, r;
				2063
				2064	t.as_short[0] = permute_selectors[element_selector_98];
				2065	t.as_short[1] = permute_selectors[element_selector_BA];
				2066	t.as_short[2] = permute_selectors[element_selector_DC];
				2067	t.as_short[3] = permute_selectors[element_selector_FE];
				2068	pmask[1] = t.as_m64;
				2069	a = (__v2du)__A;
				2070	r = vec_perm (a, a, (__vector unsigned char)pmask);
				2071	return (__m128i) r;
				2072	}
				2073
				2074	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2075	_mm_shufflelo_epi16 (__m128i __A, const int __mask)
				2076	{
				2077	unsigned long element_selector_10 = __mask & 0x03;
				2078	unsigned long element_selector_32 = (__mask >> 2) & 0x03;
				2079	unsigned long element_selector_54 = (__mask >> 4) & 0x03;
				2080	unsigned long element_selector_76 = (__mask >> 6) & 0x03;
				2081	static const unsigned short permute_selectors[4] =
				2082	{
				2083	#ifdef __LITTLE_ENDIAN__
				2084	0x0100, 0x0302, 0x0504, 0x0706
				2085	#else
				2086	0x0001, 0x0203, 0x0405, 0x0607
				2087	#endif
				2088	};
				2089	__v2du pmask =
				2090	#ifdef __LITTLE_ENDIAN__
				2091	{ 0UL, 0x1f1e1d1c1b1a1918UL};
				2092	#else
				2093	{ 0UL, 0x18191a1b1c1d1e1fUL};
				2094	#endif
				2095	__m64_union t;
				2096	__v2du a, r;
				2097	t.as_short[0] = permute_selectors[element_selector_10];
				2098	t.as_short[1] = permute_selectors[element_selector_32];
				2099	t.as_short[2] = permute_selectors[element_selector_54];
				2100	t.as_short[3] = permute_selectors[element_selector_76];
				2101	pmask[0] = t.as_m64;
				2102	a = (__v2du)__A;
				2103	r = vec_perm (a, a, (__vector unsigned char)pmask);
				2104	return (__m128i) r;
				2105	}
				2106
				2107	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2108	_mm_shuffle_epi32 (__m128i __A, const int __mask)
				2109	{
				2110	unsigned long element_selector_10 = __mask & 0x03;
				2111	unsigned long element_selector_32 = (__mask >> 2) & 0x03;
				2112	unsigned long element_selector_54 = (__mask >> 4) & 0x03;
				2113	unsigned long element_selector_76 = (__mask >> 6) & 0x03;
				2114	static const unsigned int permute_selectors[4] =
				2115	{
				2116	#ifdef __LITTLE_ENDIAN__
				2117	0x03020100, 0x07060504, 0x0B0A0908, 0x0F0E0D0C
				2118	#else
				2119	0x00010203, 0x04050607, 0x08090A0B, 0x0C0D0E0F
				2120	#endif
				2121	};
				2122	__v4su t;
				2123
				2124	t[0] = permute_selectors[element_selector_10];
				2125	t[1] = permute_selectors[element_selector_32];
				2126	t[2] = permute_selectors[element_selector_54] + 0x10101010;
				2127	t[3] = permute_selectors[element_selector_76] + 0x10101010;
				2128	return (__m128i)vec_perm ((__v4si) __A, (__v4si)__A, (__vector unsigned char)t);
				2129	}
				2130
				2131	extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2132	_mm_maskmoveu_si128 (__m128i __A, __m128i __B, char *__C)
				2133	{
				2134	__v2du hibit = { 0x7f7f7f7f7f7f7f7fUL, 0x7f7f7f7f7f7f7f7fUL};
				2135	__v16qu mask, tmp;
				2136	__m128i_u p = (__m128i_u)__C;
				2137
				2138	tmp = (__v16qu)_mm_loadu_si128(p);
				2139	mask = (__v16qu)vec_cmpgt ((__v16qu)__B, (__v16qu)hibit);
				2140	tmp = vec_sel (tmp, (__v16qu)__A, mask);
				2141	_mm_storeu_si128 (p, (__m128i)tmp);
				2142	}
				2143
				2144	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2145	_mm_avg_epu8 (__m128i __A, __m128i __B)
				2146	{
				2147	return (__m128i) vec_avg ((__v16qu)__A, (__v16qu)__B);
				2148	}
				2149
				2150	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2151	_mm_avg_epu16 (__m128i __A, __m128i __B)
				2152	{
				2153	return (__m128i) vec_avg ((__v8hu)__A, (__v8hu)__B);
				2154	}
				2155
				2156
				2157	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2158	_mm_sad_epu8 (__m128i __A, __m128i __B)
				2159	{
				2160	__v16qu a, b;
				2161	__v16qu vmin, vmax, vabsdiff;
				2162	__v4si vsum;
				2163	const __v4su zero = { 0, 0, 0, 0 };
				2164	__v4si result;
				2165
				2166	a = (__v16qu) __A;
				2167	b = (__v16qu) __B;
				2168	vmin = vec_min (a, b);
				2169	vmax = vec_max (a, b);
				2170	vabsdiff = vec_sub (vmax, vmin);
				2171	/* Sum four groups of bytes into integers. */
				2172	vsum = (__vector signed int) vec_sum4s (vabsdiff, zero);
				2173	/* Sum across four integers with two integer results. */
				2174	result = vec_sum2s (vsum, (__vector signed int) zero);
				2175	/* Rotate the sums into the correct position. */
				2176	#ifdef __LITTLE_ENDIAN__
				2177	result = vec_sld (result, result, 4);
				2178	#else
				2179	result = vec_sld (result, result, 6);
				2180	#endif
				2181	/* Rotate the sums into the correct position. */
				2182	return (__m128i) result;
				2183	}
				2184
				2185	extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2186	_mm_stream_si32 (int *__A, int __B)
				2187	{
				2188	/* Use the data cache block touch for store transient. */
				2189	__asm__ (
				2190	"dcbtstt 0,%0"
				2191	:
				2192	: "b" (__A)
				2193	: "memory"
				2194	);
				2195	*__A = __B;
				2196	}
				2197
				2198	extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2199	_mm_stream_si64 (long long int *__A, long long int __B)
				2200	{
				2201	/* Use the data cache block touch for store transient. */
				2202	__asm__ (
				2203	" dcbtstt 0,%0"
				2204	:
				2205	: "b" (__A)
				2206	: "memory"
				2207	);
				2208	*__A = __B;
				2209	}
				2210
				2211	extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2212	_mm_stream_si128 (__m128i *__A, __m128i __B)
				2213	{
				2214	/* Use the data cache block touch for store transient. */
				2215	__asm__ (
				2216	"dcbtstt 0,%0"
				2217	:
				2218	: "b" (__A)
				2219	: "memory"
				2220	);
				2221	*__A = __B;
				2222	}
				2223
				2224	extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2225	_mm_stream_pd (double *__A, __m128d __B)
				2226	{
				2227	/* Use the data cache block touch for store transient. */
				2228	__asm__ (
				2229	"dcbtstt 0,%0"
				2230	:
				2231	: "b" (__A)
				2232	: "memory"
				2233	);
				2234	(__m128d)__A = __B;
				2235	}
				2236
				2237	extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2238	_mm_clflush (void const *__A)
				2239	{
				2240	/* Use the data cache block flush. */
				2241	__asm__ (
				2242	"dcbf 0,%0"
				2243	:
				2244	: "b" (__A)
				2245	: "memory"
				2246	);
				2247	}
				2248
				2249	extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2250	_mm_lfence (void)
				2251	{
				2252	/* Use light weight sync for load to load ordering. */
				2253	__atomic_thread_fence (__ATOMIC_RELEASE);
				2254	}
				2255
				2256	extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2257	_mm_mfence (void)
				2258	{
				2259	/* Use heavy weight sync for any to any ordering. */
				2260	__atomic_thread_fence (__ATOMIC_SEQ_CST);
				2261	}
				2262
				2263	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2264	_mm_cvtsi32_si128 (int __A)
				2265	{
				2266	return _mm_set_epi32 (0, 0, 0, __A);
				2267	}
				2268
				2269	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2270	_mm_cvtsi64_si128 (long long __A)
				2271	{
				2272	return __extension__ (__m128i)(__v2di){ __A, 0LL };
				2273	}
				2274
				2275	/* Microsoft intrinsic. */
				2276	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2277	_mm_cvtsi64x_si128 (long long __A)
				2278	{
				2279	return __extension__ (__m128i)(__v2di){ __A, 0LL };
				2280	}
				2281
				2282	/* Casts between various SP, DP, INT vector types. Note that these do no
				2283	conversion of values, they just change the type. */
				2284	extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2285	_mm_castpd_ps(__m128d __A)
				2286	{
				2287	return (__m128) __A;
				2288	}
				2289
				2290	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2291	_mm_castpd_si128(__m128d __A)
				2292	{
				2293	return (__m128i) __A;
				2294	}
				2295
				2296	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2297	_mm_castps_pd(__m128 __A)
				2298	{
				2299	return (__m128d) __A;
				2300	}
				2301
				2302	extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2303	_mm_castps_si128(__m128 __A)
				2304	{
				2305	return (__m128i) __A;
				2306	}
				2307
				2308	extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2309	_mm_castsi128_ps(__m128i __A)
				2310	{
				2311	return (__m128) __A;
				2312	}
				2313
				2314	extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
				2315	_mm_castsi128_pd(__m128i __A)
				2316	{
				2317	return (__m128d) __A;
				2318	}
				2319
Logan Chien	bedbf4f	2020-01-06 19:35:19 -0800	[diff] [blame]	2320	#else
				2321	#include_next <emmintrin.h>
				2322	#endif /* defined(__linux__) && defined(__ppc64__) */
				2323
Logan Chien	df4f766	2019-09-04 16:45:23 -0700	[diff] [blame]	2324	#endif /* EMMINTRIN_H_ */