Преобразование строки UTF-8 Unicode в ASCII Unicode спасся строки

Обновить

November 2018

Просмотры

5.1k раз

1

Мне нужно преобразовать юникод строку в строку, которая есть не-ASCII символы в кодировке Unicode. Например, строка "漢字 Max" должен быть представлен как "\ u6F22 \ u5B57 Max".

То, что я пробовал:

  1. Differenct комбинации

    Новая строка (sourceString.getBytes (encoding1), encoding2)

  2. Apache StringEscapeUtils, который ускользает также ASCii символы, такие как двойные кавычки

    StringEscapeUtils.escapeJava (источник)

Есть простой способ кодирования такой строки? В идеале только Java 6 SE или Apache Commons должны быть использованы для достижения желаемого результата.

4 ответы

5

Это вид простого кода Джон Скит имел в виду в своем комментарии:

final String in = "šđčćasdf";
final StringBuilder out = new StringBuilder();
for (int i = 0; i < in.length(); i++) {
  final char ch = in.charAt(i);
  if (ch <= 127) out.append(ch);
  else out.append("\\u").append(String.format("%04x", (int)ch));
}
System.out.println(out.toString());

Как сказал Джон, суррогатные пары будут представлены в виде пару \uпобегов.

0

Гуава беглец На основании решения:

Это избегает любых не-ASCII символы в управляющие последовательности Unicode.

import static java.lang.String.format;    
import com.google.common.escape.CharEscaper;

public class NonAsciiUnicodeEscaper extends CharEscaper
{
    @Override
    protected char[] escape(final char c)
    {
        if (c >= 32 && c <= 127) { return new char[]{c}; }
        else { return format("\\u%04x", (int) c).toCharArray(); }
    }
}
0

Гуава беглец На основании решения:

Это избегает любых не-ASCII символы в управляющие последовательности Unicode.

import static java.lang.String.format;    
import com.google.common.escape.CharEscaper;

public class NonAsciiUnicodeEscaper extends CharEscaper
{
    @Override
    protected char[] escape(final char c)
    {
        if (c >= 32 && c <= 127) { return new char[]{c}; }
        else { return format("\\u%04x", (int) c).toCharArray(); }
    }
}
0

Гуава беглец На основании решения:

Это избегает любых не-ASCII символы в управляющие последовательности Unicode.

import static java.lang.String.format;    
import com.google.common.escape.CharEscaper;

public class NonAsciiUnicodeEscaper extends CharEscaper
{
    @Override
    protected char[] escape(final char c)
    {
        if (c >= 32 && c <= 127) { return new char[]{c}; }
        else { return format("\\u%04x", (int) c).toCharArray(); }
    }
}