aacc + bbdd SkMatrix::mapPts() using aacc/bbdd was always worse than using badc(): - On Intel, it was faster than exisiting swizzle, but badc() is 10% faster still (one pshufd instead of two). - On ARM, existing swizzle < badc() < aacc()+bbdd(), even though aacc() then bbdd() is really a single vtrn instruction. I will revert SkMatrix.cpp before submitting. Just thought you might like to look. Will think more and try to gear up Instruments on ARM. BUG=skia: Review URL: https://codereview.chromium.org/1012573003

commit: 470fa6f74b8ed08d85af463d5b3ef6f19ed6522a [log] [tgz]
author: mtklein <mtklein@chromium.org> Tue Mar 24 06:16:30 2015 -0700
committer: Commit bot <commit-bot@chromium.org> Tue Mar 24 06:16:30 2015 -0700
tree: 28df8d183fbf66776eb5e4e6ee886ed9168beca9
parent: 92b47c49016749249ff8521e424c4373b4a74241 [diff] [blame]
diff --git a/tests/Sk4xTest.cpp b/tests/Sk4xTest.cpp
index cbae492..4dc4c36 100644
--- a/tests/Sk4xTest.cpp
+++ b/tests/Sk4xTest.cpp

@@ -136,6 +136,10 @@
 
 DEF_TEST(Sk4x_Swizzle, r) {
     ASSERT_EQ(Sk4f(1,2,3,4).badc(), Sk4f(2,1,4,3));
+    ASSERT_EQ(Sk4f(1,2,3,4).aacc(), Sk4f(1,1,3,3));
+    ASSERT_EQ(Sk4f(1,2,3,4).bbdd(), Sk4f(2,2,4,4));
 
     ASSERT_EQ(Sk4i(1,2,3,4).badc(), Sk4i(2,1,4,3));
+    ASSERT_EQ(Sk4i(1,2,3,4).aacc(), Sk4i(1,1,3,3));
+    ASSERT_EQ(Sk4i(1,2,3,4).bbdd(), Sk4i(2,2,4,4));
 }
commit	470fa6f74b8ed08d85af463d5b3ef6f19ed6522a	[log] [tgz]
author	mtklein <mtklein@chromium.org>	Tue Mar 24 06:16:30 2015 -0700
committer	Commit bot <commit-bot@chromium.org>	Tue Mar 24 06:16:30 2015 -0700
tree	28df8d183fbf66776eb5e4e6ee886ed9168beca9
parent	92b47c49016749249ff8521e424c4373b4a74241 [diff] [blame]