Sms service
Overview
문자 전송 서비스 구현 방법 소개.
Payload
원문은 이곳<ref>http://spin.atomicobject.com/2011/04/20/concatenated-sms-messages-and-character-counts/</ref>에서 확인할 수 있다.
Standard
기본 SMS Payload 는 140 bytes(1120 bits) 이다.
만약 GSM 7-bit character 인코딩을 사용한다면, 한번에 최대 160 character 를 전송할 수 있다.
1120 bits / (7 bits/character) = 160 characters
유니코드(16-bit character 인코딩을 사용하는 유니코드)의 경우, 최대 70 character 를 전송할 수 있다.
1120 bits / (16 bits/character) = 70 characters
Segmentation(concatenated SMS)
기본 SMS는 한번에 최대 140 bytes(160 GSM 7 bits characters)만 전송할 수 있다.
그러나, 실제 사용하는 휴대폰으로 얼마든지 140 bytes(160 GSM 7 bits characters) 이상의 데이터를 전송할 수 있는 것을 확인할 수 있다. 하지만 이는 SMS 단편화(Segmentation, concatenated SMS) 때문이다.
한번에 140 bytes 이상의 데이터를 전송하게 되는 경우, 내부적으로 단편화(Segmentation)가 일어나게 된다.<ref>http://help.cardboardfish.com/?q=ConcatenatedAndLongSMS</ref>
간단하게, 휴대폰에서 한번에 140 bytes(160 GSM 7 bits characters) 이상의 데이터를 전송하게 되면 내부적으로 이를 여러개의 SMS 으로 분할한 뒤, 전송하게 되는 것이다. 참고로, 요즘의 휴대폰으로는 이를 확인하기가 어렵다. 이를 확인하기 위해서는 GSM 모듈단의 접근이 필요하다.
그리고, 메시지 단편화가 발생하게 되면, 각각의 메시지에 User Data Header(UDH)라고 하고 특수 헤더가 붙게 된다. 이 헤더에는 SMS 메시지의 ID, 순서번호가 포함되게 된다. UDH 는 6 bytes(48 bits) 의 공간을 차지하게 되며, 이로 인해, 데이터 payload 가 줄어들게 된다. 따라서 단편화 발생시, 사용가능한 payload 의 크기는 다음과 같다.
1120 bits - 48 bits = 1072 bits
그리고 GSM은 GSM-7 bit encoding 을 사용하기 때문에, 단편화시, 전송하능한 문자 갯수는 다음과 같다.
1072 bits / (7 bits/character) = 153 characters Note: 153 * 7 bits/character = 1071 bits 이다. 하지만, 남은 나머지 1 bit 로는 GSM-7 bit encoding 에서 어떠한 문자도 표현할 수 없기에, padding 으로 사용된다.
마찬가지 이유로, 16-bit character encoding 유니코드의 경우는 다음과 같다.
1072 bits / (16 bits/character) = 67 characters
그리고, 메시지 단편화가 발생되게 되면, 48 bits(6 bytes)의 추가 헤더 정보를 포함해야 하기 때문에 메시지 하나에 포함 가능한 데이터의 크기는 153 characters(GSM 7 bits characters) 줄어들게 된다. 실제 전송되는 SMS 메시지 갯수를 확인하기 위해서는 다음의 공식을 이용하면 된다.
Nc = Total number of characters in message Nx = Characters from extended GSM table (|^{}[]~\ and euro) L = Message length in 7-bit characters M = Number of messages L = Nc + Nx L > 160: M = L / 153 [rounded up] L <= 160: M = 1
GSM 7 bit Basic 에 있는 character 는 7 bits 로 표현이 가능하다. 하지만 Extension 에 있는 문자들을 표현하기 위해서는 7 bits + 7 bits 가 필요하다.
GSM
GSM 에서의 SMS Charset 규격은 GSM 03.38 혹은 3GPP 23.038 을 사용한다.
GSM 7 bit
SMS 메시지는 한번에 최대 140 byte 만 전송할 수 있다. 하지만 표현되는 문자의 범위가 다르다.
흔히들 ASCII code를 알고 있다. 하지만, 이는 컴퓨터 통신에서 사용되는 하나의 데이터 표현 규약 일 뿐이다. GSM SMS 통신에서는 사용하는 규약이 다르다.
GSM 에서는 GSM 7 bit 라는 규약을 사용한다. 그리고 GSM 을 이용해서 정확한 SMS을 전송하기 위해서는 전송하는 문자가 GSM 7 bit에 포함되는 문자여야 한다.
사실, 보다 근본적으로 살펴보면 SMS가 전달하는 것은 메시지가 아니라 데이터이다. 그리고, 송/수신되는 0과 1의 데이터를 GSM 7 bit 테이블 표에 의해 표현하는 것이다. 즉, 이 뜻은 GSM 7 bit 에 포함된 글자만 전송된다는 것이 아니라는 뜻이다.
다만, 통신사 내부 구현 방식에 의해서 내부적으로 메시지가 Encode/Decode 될 수가 있다. 그런데, Encode/Decode 되는 과정에서, GSM 표준을 벗어나는 글자(한글, 한자, 일본어)들은 오류가 발생할 수 있다. 이렇게 메시지 상에서 오류가 발생하게 되면 수신시 ??? 등으로 표시된다.(TDC에는 ??? 혹은 ㅁㅁㅁ 로 나타났음.)
- GSM 7 bit
|
|
Available characters in TDC
덴마크 통신사 TDC에서는 다음의 캐릭터 들만 허용한다(그리스 문자들은 허용하지 않는다).
|
|
주요 서비스 사
Korea
- SK
- KT
- LG
Denmark
- TDC
Study
- SMS
- SMS wiki
- Why text messages are limited to 160 characters?
- GSM SMS specification(GSM 03.40, 3GPP TS 23.040)
- GSM SMS character set(GSM 03.38, 3GPP 23.038)
References
<references />