[Support] Add a Unicode conversion wrapper from UTF16 to UTF8 This is to support parsing UTF16 response files in LLVM/lib/Option for lld and clang. Reviewers: hans Differential Revision: http://llvm-reviews.chandlerc.com/D1138 git-svn-id: https://llvm.org/svn/llvm-project/llvm/trunk@186426 91177308-0d34-0410-b5e6-96231b3b80d8

commit: 06c847e83e558f0cc6fea742498b2730eb6837c6 [log] [tgz]
author: Reid Kleckner <reid@kleckner.net> Tue Jul 16 17:14:33 2013 +0000
committer: Reid Kleckner <reid@kleckner.net> Tue Jul 16 17:14:33 2013 +0000
tree: 8f823c8d8da88e220787734872375279ef139d94
parent: 5a5ebb7f9fa7fa82c0c466a36a90e5c18bb13073 [diff]
diff --git a/unittests/Support/CMakeLists.txt b/unittests/Support/CMakeLists.txt
index fedfb3d..2cbe730 100644
--- a/unittests/Support/CMakeLists.txt
+++ b/unittests/Support/CMakeLists.txt

@@ -12,6 +12,7 @@
   CommandLineTest.cpp
   CompressionTest.cpp
   ConstantRangeTest.cpp
+  ConvertUTFTest.cpp
   DataExtractorTest.cpp
   EndianTest.cpp
   ErrorOrTest.cpp

diff --git a/unittests/Support/ConvertUTFTest.cpp b/unittests/Support/ConvertUTFTest.cpp
new file mode 100644
index 0000000..13ea75b
--- /dev/null
+++ b/unittests/Support/ConvertUTFTest.cpp

@@ -0,0 +1,65 @@
+//===- llvm/unittest/Support/ConvertUTFTest.cpp - ConvertUTF tests --------===//
+//
+//                     The LLVM Compiler Infrastructure
+//
+// This file is distributed under the University of Illinois Open Source
+// License. See LICENSE.TXT for details.
+//
+//===----------------------------------------------------------------------===//
+
+#include "llvm/Support/ConvertUTF.h"
+#include "gtest/gtest.h"
+#include <string>
+
+using namespace llvm;
+
+TEST(ConvertUTFTest, ConvertUTF16LittleEndianToUTF8String) {
+  // Src is the look of disapproval.
+  static const char Src[] = "\xff\xfe\xa0\x0c_\x00\xa0\x0c";
+  ArrayRef<char> Ref(Src, sizeof(Src) - 1);
+  std::string Result;
+  bool Success = convertUTF16ToUTF8String(Ref, Result);
+  EXPECT_TRUE(Success);
+  std::string Expected("\xe0\xb2\xa0_\xe0\xb2\xa0");
+  EXPECT_EQ(Expected, Result);
+}
+
+TEST(ConvertUTFTest, ConvertUTF16BigEndianToUTF8String) {
+  // Src is the look of disapproval.
+  static const char Src[] = "\xfe\xff\x0c\xa0\x00_\x0c\xa0";
+  ArrayRef<char> Ref(Src, sizeof(Src) - 1);
+  std::string Result;
+  bool Success = convertUTF16ToUTF8String(Ref, Result);
+  EXPECT_TRUE(Success);
+  std::string Expected("\xe0\xb2\xa0_\xe0\xb2\xa0");
+  EXPECT_EQ(Expected, Result);
+}
+
+TEST(ConvertUTFTest, OddLengthInput) {
+  std::string Result;
+  bool Success = convertUTF16ToUTF8String(ArrayRef<char>("xxxxx", 5), Result);
+  EXPECT_FALSE(Success);
+}
+
+TEST(ConvertUTFTest, Empty) {
+  std::string Result;
+  bool Success = convertUTF16ToUTF8String(ArrayRef<char>(), Result);
+  EXPECT_TRUE(Success);
+  EXPECT_TRUE(Result.empty());
+}
+
+TEST(ConvertUTFTest, HasUTF16BOM) {
+  bool HasBOM = hasUTF16ByteOrderMark(ArrayRef<char>("\xff\xfe", 2));
+  EXPECT_TRUE(HasBOM);
+  HasBOM = hasUTF16ByteOrderMark(ArrayRef<char>("\xfe\xff", 2));
+  EXPECT_TRUE(HasBOM);
+  HasBOM = hasUTF16ByteOrderMark(ArrayRef<char>("\xfe\xff ", 3));
+  EXPECT_TRUE(HasBOM); // Don't care about odd lengths.
+  HasBOM = hasUTF16ByteOrderMark(ArrayRef<char>("\xfe\xff\x00asdf", 6));
+  EXPECT_TRUE(HasBOM);
+
+  HasBOM = hasUTF16ByteOrderMark(ArrayRef<char>());
+  EXPECT_FALSE(HasBOM);
+  HasBOM = hasUTF16ByteOrderMark(ArrayRef<char>("\xfe", 1));
+  EXPECT_FALSE(HasBOM);
+}
commit	06c847e83e558f0cc6fea742498b2730eb6837c6	[log] [tgz]
author	Reid Kleckner <reid@kleckner.net>	Tue Jul 16 17:14:33 2013 +0000
committer	Reid Kleckner <reid@kleckner.net>	Tue Jul 16 17:14:33 2013 +0000
tree	8f823c8d8da88e220787734872375279ef139d94
parent	5a5ebb7f9fa7fa82c0c466a36a90e5c18bb13073 [diff]