UTF8 Archives - 내일은 치킨집 CEO

	Byte Order Mark	문자 길이	HEX 코드 ( # )	HEX 코드 ( 가 )	HEX 코드 ( 핣 )
UTF16BE	FE FF	4 Byte	23 00	AC 00	D8 A9
UTF16LE	FF FE	4 Byte	00 23	AC 00	D8 A9
UTF8(BOM)	EF BB BF	1 ~ 3 Byte	23	EA B0 80	ED 95 A3
UTF8	-	1 ~ 3 Byte	23	EA B0 80	ED 95 A3
ASCII	1 Byte	23	표현 불가
UTF32BE	FE FF 00 00	8 Byte	23 00 00 00	AC 00 00 00	D8 A9 00 00
UTF32LE	00 00 FF FE	8 Byte	00 00 00 23	00 00 AC 00	00 00 D8 A9

Byte
Order
Mark

문자 길이

HEX 코드
( # )

HEX 코드
( 가 )

HEX 코드
( 핣 )

UTF16BE

FE FF

4 Byte

23 00

AC 00

D8 A9

UTF16LE

FF FE

4 Byte

00 23

AC 00

D8 A9

UTF8(BOM)

EF BB BF

1 ~ 3 Byte

EA B0 80

ED 95 A3

UTF8

1 ~ 3 Byte

EA B0 80

ED 95 A3

ASCII

1 Byte

표현 불가

UTF32BE

FE FF 00 00

8 Byte

23 00 00 00

AC 00 00 00

D8 A9 00 00

UTF32LE

00 00 FF FE

8 Byte

00 00 00 23

00 00 AC 00

00 00 D8 A9

EUC-KR 에서 UTF-8 로 DB마이그레이션을 진행할때 캐릭터셋 전환에 따라 일부 문자가 유실 되거나 깨지게 되어 dump된 파일의 복구가 곤란한 경우가 발생하였다.

sql은 복원중 에러가 발생을 할경우 하위 내용을 복구를 하지 않기 때문에..
이러한 경우 보통 sql 파일을 하나하나 수정해가면서 다시 부어넣는 짓을 해야한다 =_=a

DB용량이 작다면 하나하나 수정해줄수 있지만 100M단위를 넘어가는 파일을 변경하긴 어렵다.
때문에 테이블 생성정보와 데이터를 따로 따로 백업을 하고 먼저 테이블을 생성한뒤에 복구하는 방법을 쓰기로 하고 스크립트를 작성하였다.

1 2	~]# mysqldump -u아이디 -p 데이터베이스명 --add-drop-database -d > 테이블.sql ~]# mysqldump -u아이디 -p 데이터베이스명 --skip-extended-insert --no-create-info -c > 데이터.sql

위와 같이 원본서버에서 백업을 할때 데이터를 분리 한뒤에 iconv를 이용해서 캐릭터셋 치환을 하고 캐릭터셋 선언을 바꾸어 준다.

~]# sed -i 's/DEFAULT CHARSET=euckr/DEFAULT CHARSET=utf8/g;1 i\SET NAMES UTF8;' 테이블.sql

~]# iconv -fEUCKR -tUTF8 -c 테이블.sql > 새테이블.sql

~]# iconv -fEUCKR -tUTF8 -c 데이터.sql > 새데이터.sql

이중 -c 옵션은 에러가 나는 문자열을 제외하고 치환하는 옵션이다.
가급적 에러가 나지 않는게 좋겠지만 ‘ㅅ’…

새로운 데이터 베이스에 먼저 테이블 복원을 한다.

1	~]# mysql -u[아이디] -p [데이터베이스명] < 새테이블.sql

아래와 같은 스크립트작성을 한 뒤에 실행한다.

#!/bin/bash

sqlfile="새데이터.sql"

IFS=$'\n'

for a in $(grep ^INSERT $sqlfile)

mysql -u[아이디] -p[데이터베이스패스워드] [데이터베이스명] -s -N -e "$a"

if [[ $? -eq 1 ]];then

echo $c >> error_query.sql

done

IFS 를 통해 구분자를 엔터(\n) 으로 지정한뒤 for 문을 돌려 한줄한줄 복원을 시도 하고
에러가나는 구분은 error_query.sql 파일로 별도 저장을 한다.

추후 error_query.sql 파일을 분석하여 쿼리문을 완성 시켜 재 복원을 하거나… 버리거나.. 할수 있겠다.

테이블 복원중 VARCHAR(255) UTF8 is too long for key, but max length is 1000 bytes 가 나오는 경우가 발생할수 있다.

key로 사용되는 컬럼의 길이가 1000byte를 넘어가면 안된다는 메세지 이다.
(Mysql에서 UTF8의 경우 문자당 3byte 를 사용한다 – utf8mb4 = 4Byte 를 쓴다..)

이경우 key로 사용되는 컬럼의 varchar 값을 최대치인 333이하를 쓰도록 한다.
일반적으로 2개 이상의 컬럼은 하나의 키로 사용하는 부분에서 에러가 난다. 그때는 사용된 컬럼의 합이 333 이하여야 하겠다.

utf8mb4의 경우에는 200 이하로 해야겠고.. 그래서 대략 아래와 같이… 큰 varchar 컬럼을 앞95자까지 인식하도록 하게 한다.

컬럼A varchar(255)

컬럼B varchar(255)

KEY `키명` (`컬럼A`(95),`컬럼B`(95)),

태그 Archives: UTF8

유니코드 문서의 Byte Order Mark

데이터베이스 마이그레이션