Core Java Technologies Tech Tips에 참고할만한 자료가 있어 (첫 번째 주제만) 기록해둠. 친절한 용환씨가 주관적으로 직역, 의역, 오역을 섞어가며 기록한 내용임을 밝힘. :)
원문: Strings - Core Java Technologies Technical Tips (By John O'Conner, August 24, 2006)
문자열의 길이가 얼마나 되는가?
어떤 문자열 입력값이 데이터 필드의 길이제한을 초과하지 않는지 검증하기 위해서는 그 문자열의 길이을 알아야 한다. 데이터베이스의 텍스트 필드는 보통 그 내용의 길이가 제한되므로, 저장하기 전에 문자열의 길이를 확인할 필요가 있다. 어쨌든 프로그래밍을 하다 보면 종종 문자열의 길이를 알아야 하는 경우가 있는데, 보통 String object의 length 메서드로 그 값을 알 수 있다. 대부분의 경우 length 메서드로 문제를 해결할 수 있지만 String object의 길이를 측정하는 방법은 length 메서드가 유일한 것은 아니며, 항상 정확한 것도 아니다.
Java에서 문자열의 길이를 측정하는 방식은 적어도 3가지가 존재한다.
- char 단위의 개수 측정방식
- 문자단위의 개수 측정방식
- byte의 개수 측정방식
char 단위의 개수 측정방식
Java에서는 Unicode 표준으로 문자열을 정의한다. Unicode 표준은 한 때 U+0000에서 U+FFFF까지의 16-bit fixed-width 값으로 문자들을 정의했었다. 'U+' 표기는 16진수의 유효한 Unicode 문자값을 의미한다. Java 언어는 char 타입에 이 fixed-width 표준을 적용했고, char 값은 모든 16-bit Unicode 문자를 표현할 수 있었다.
대부분의 프로그래머들은 length 메서드에 익숙하다. 아래 예제코드는 문자열에 포함된 char의 개수를 출력하는데, 예제로 사용된 String object는 몇몇 간단한 문자들과 Java 언어의 '\u' 표기로 정의된 문자들로 이루어져있다. '\u'표기는 Unicode 표준의 'U+' 표기와 유사하게 16-bit char 값을 16진수로 정의한다.
private String testString = "abcd\u5B66\uD800\uDF30";
int charCount = testString.length();
System.out.printf("char count: %d\n", charCount);
length 메서드는 String 객체가 가지고 있는 char의 개수를 반환하므로 예제코드의 출력은 아래와 같다.
char count: 7
문자단위의 개수 측정방식
Unicode 4.0에서 U+FFFF보다 큰 값을 가지는 새로운 문자들을 정의하게 되자, 16-bit의 char 타입으로는 더이상 모든 문자를 표현할 수 없게 되었다. 이에따라 Java 2 Platform, Standard Edition 5.0 (J2SE 5.0)부터는 이런 새로운 Unicode 문자들을 'surrogate pair'라고 부르는, 한 쌍으로 이루어진 16-bit char 값으로 표현하기 시작했다. U+10000부터 U+10FFFF에 이르는 Unicode 문자들을 두 개의 char로 대체하여 표현하는 것이다. 이 범위에 해당하는 문자들을 'supplementary character'라고 부른다.
물론 하나의 char는 여전히 U+FFFF 이하의 Unicode 문자들만 표현가능하지만, surrogate pair 형태를 사용해 supplementary character를 표현할 수 있다. Surrogate pair의 첫번째 char는 U+D800~U+DBFF 범위의 값을 가지고, 두번째 char는 U+DC00~U+DFFF 범위의 값을 가진다. Unicode 표준은 이 두 범위의 문자값들을 surrogate pair를 위해 할당해두었으며, surrogate pair를 U+FFFF보다 큰 문자값으로 매핑하는 알고리즘을 정의하고 있다. Surrogate pair를 이용하면 Unicode 표준의 어떠한 문자도 표현이 가능하다. 이러한 16-bit 표현법을 'UTF-16'이라고 부르며, Java에서는 Unicode 문자들을 표현하기 위해 UTF-16 방식을 사용한다. 따라서 char 타입은 UTF-16 코드단위이며 항상 의미있는 Unicode 문자를 표현하는 것은 아니다.
String의 length 메서드는 char 개수만을 반환하기 때문에 supplementary character의 개수를 제대로 파악할 수 없다. 다행히 J2SE 5.0 API는 String의 codePointCount(int beginIndex, int endIndex)라는 새로운 메서드를 제공한다. 이 메서드는 인자로 전달된 두 지점 사이에 존재하는 Unicode 문자의 개수를 반환한다. 측정 시작지점과 종료지점을 의미하는 beginIndex와 endIndex는 문자단위가 아닌, 코드단위 또는 char의 위치를 가리킨다. codePointCount 메서드가 반환하는 값은 length 메서드가 반환하는 값과 항상 같지는 않다. 즉, 문자열에 surrogate pair가 존재하는 경우, length 메서드와 codePointCount 메서드는 서로 다른 값을 반환하게 된다. Surrogate pair는 하나의 문자코드(code point)를 가리키지만, 두 개의 char 단위로 구성되기 때문이다.
codePointCount 메서드를 이용하여 문자열이 가지고 있는 Unicode 문자코드의 개수를 확인해보자.
private String testString = "abcd\u5B66\uD800\uDF30";
int charCount = testString.length();
int characterCount = testString.codePointCount(0, charCount);
System.out.printf("character count: %d\n", characterCount);
위 예제코드의 출력은 다음과 같다.
character count: 6
예제코드에서 사용된 testString 변수는 두 개의 흥미로운 문자를 가지고 있는데, 하나는 '배움'을 의미하는 한자 '学'이고, 또 하나는 GOTHIC LETTER AHSA라는 문자이다. '学'이라는 한자는 Unicode 문자코드가 U+5B66이며 textString에 포함된 '\u5B66'에 해당한다. Ahsa는 surrogate pair로 표현되며 testString의 '\uD800\uDF30'에 해당한다. testString의 ahsa는 하나의 Unicode 문자코드이지만 두 개의 char 값으로 표현되었고, 따라서 textString 전체의 문자코드 개수는 7이 아니라 6이 된다.
Byte의 개수 측정방식
문자열이 몇 byte로 이루어져 있는가? 그 답은 사용된 character set의 byte-oriented 인코딩에 따라 다르다. 데이터베이스에 입력할 문자열의 길이가 그 제한을 초과하지 않는지 검증하는 경우 문자열에 사용된 byte가 몇 개인 지 확인할 필요가 있다. String에 정의된 getBytes 메서드는 Unicode 문자로 이루어진 문자열을 byte-oriented 인코딩으로 변환하고 그 결과를 byte 배열 형태로 반환한다. UTF-8은 다른 대부분의 byte-oriented 인코딩과는 달리 모든 Unicode 문자코드를 정확하게 표현할 수 있다.
아래 예제코드는 문자열을 byte 배열로 변환한다.
byte[] utf8 = null;
int byteCount = 0;
try {
utf8 = str.getBytes("UTF-8");
byteCount = utf8.length;
} catch (UnsupportedEncodingException ex) {
ex.printStackTrace();
}
System.out.printf("UTF-8 Byte Count: %d\n", byteCount);
getBytes 메서드의 인자는 문자열 변환에 사용할 character set을 지칭하며, 생성되는 byte 배열의 길이를 결정하게 된다. UTF-8 인코딩은 하나의 Unicode 문자코드를 1~4개의 코드단위(byte)로 기록한다. 앞선 예제의 문자열에 포함된 'a', 'b', 'c', 'd'는 4 bytes(각 1 byte씩)가 소요되고, 일본어 한자 '学'은 3 bytes, ahsa는 4 bytes가 소요된다. 따라서 예제코드의 결과는 아래와 같이 출력된다.
UTF-8 Byte Count: 11
Figure 1. 측정방식에 따른 문자열의 길이
요약
문자열에 supplementary character가 포함되지 않은 경우 length 메서드와 codePointCount 메서드는 항상 같은 값을 반환한다. 하지만 아시아 문자처럼 U+FFFF보다 큰 값의 문자가 포함된 경우에는 두 메서드의 반환값이 달라지게 되므로, 그 용도에 따라 적절한 메서드를 선택해야 한다. 데이터베이스 character set 인코딩이나 직렬화 포맷의 경우, 대부분 UTF-8이 최적의 선택이다. 이런 경우에도 역시 문자열의 길이는 측정방식에 따라 달라지게 되므로, 다양한 측정방식 중 용도에 따라 알맞은 방식을 선택하면 된다.
부가정보
이 기술문서의 내용과 관련하여 보다 많은 정보를 원한다면 아래의 자료들을 살펴보자.