Sms service

From 탱이의 잡동사니
Jump to: navigation, search

Overview

문자 전송 서비스 구현 방법 소개.

Payload

원문은 이곳[1]에서 확인할 수 있다.

Standard

기본 SMS Payload 는 140 bytes(1120 bits) 이다.

만약 GSM 7-bit character 인코딩을 사용한다면, 한번에 최대 160 character 를 전송할 수 있다.

1120 bits / (7 bits/character) = 160 characters

유니코드(16-bit character 인코딩을 사용하는 유니코드)의 경우, 최대 70 character 를 전송할 수 있다.

1120 bits / (16 bits/character) = 70 characters

Segmentation(concatenated SMS)

기본 SMS는 한번에 최대 140 bytes(160 GSM 7 bits characters)만 전송할 수 있다.

그러나, 실제 사용하는 휴대폰으로 얼마든지 140 bytes(160 GSM 7 bits characters) 이상의 데이터를 전송할 수 있는 것을 확인할 수 있다. 하지만 이는 SMS 단편화(Segmentation, concatenated SMS) 때문이다.

한번에 140 bytes 이상의 데이터를 전송하게 되는 경우, 내부적으로 단편화(Segmentation)가 일어나게 된다.[2]

간단하게, 휴대폰에서 한번에 140 bytes(160 GSM 7 bits characters) 이상의 데이터를 전송하게 되면 내부적으로 이를 여러개의 SMS 으로 분할한 뒤, 전송하게 되는 것이다. 참고로, 요즘의 휴대폰으로는 이를 확인하기가 어렵다. 이를 확인하기 위해서는 GSM 모듈단의 접근이 필요하다.

그리고, 메시지 단편화가 발생하게 되면, 각각의 메시지에 User Data Header(UDH)라고 하고 특수 헤더가 붙게 된다. 이 헤더에는 SMS 메시지의 ID, 순서번호가 포함되게 된다. UDH 는 6 bytes(48 bits) 의 공간을 차지하게 되며, 이로 인해, 데이터 payload 가 줄어들게 된다. 따라서 단편화 발생시, 사용가능한 payload 의 크기는 다음과 같다.

1120 bits - 48 bits = 1072 bits

그리고 GSM은 GSM-7 bit encoding 을 사용하기 때문에, 단편화시, 전송하능한 문자 갯수는 다음과 같다.

1072 bits / (7 bits/character) = 153 characters

Note: 153 * 7 bits/character = 1071 bits 이다. 하지만, 남은 나머지 1 bit 로는 GSM-7 bit encoding 에서 어떠한 문자도 표현할 수 없기에, padding 으로 사용된다.

마찬가지 이유로, 16-bit character encoding 유니코드의 경우는 다음과 같다.

1072 bits / (16 bits/character) = 67 characters

그리고, 메시지 단편화가 발생되게 되면, 48 bits(6 bytes)의 추가 헤더 정보를 포함해야 하기 때문에 메시지 하나에 포함 가능한 데이터의 크기는 153 characters(GSM 7 bits characters) 줄어들게 된다. 실제 전송되는 SMS 메시지 갯수를 확인하기 위해서는 다음의 공식을 이용하면 된다.

Nc = Total number of characters in message
Nx = Characters from extended GSM table (|^{}[]~\ and euro)
L = Message length in 7-bit characters
M = Number of messages

L = Nc + Nx
L > 160:  M = L / 153 [rounded up]
L <= 160: M = 1

GSM 7 bit Basic 에 있는 character 는 7 bits 로 표현이 가능하다. 하지만 Extension 에 있는 문자들을 표현하기 위해서는 7 bits + 7 bits 가 필요하다.

GSM

GSM 에서의 SMS Charset 규격은 GSM 03.38 혹은 3GPP 23.038 을 사용한다.

GSM 7 bit

SMS 메시지는 한번에 최대 140 byte 만 전송할 수 있다. 하지만 표현되는 문자의 범위가 다르다.

흔히들 ASCII code를 알고 있다. 하지만, 이는 컴퓨터 통신에서 사용되는 하나의 데이터 표현 규약 일 뿐이다. GSM SMS 통신에서는 사용하는 규약이 다르다.

GSM 에서는 GSM 7 bit 라는 규약을 사용한다. 그리고 GSM 을 이용해서 정확한 SMS을 전송하기 위해서는 전송하는 문자가 GSM 7 bit에 포함되는 문자여야 한다.

사실, 보다 근본적으로 살펴보면 SMS가 전달하는 것은 메시지가 아니라 데이터이다. 그리고, 송/수신되는 0과 1의 데이터를 GSM 7 bit 테이블 표에 의해 표현하는 것이다. 즉, 이 뜻은 GSM 7 bit 에 포함된 글자만 전송된다는 것이 아니라는 뜻이다.

다만, 통신사 내부 구현 방식에 의해서 내부적으로 메시지가 Encode/Decode 될 수가 있다. 그런데, Encode/Decode 되는 과정에서, GSM 표준을 벗어나는 글자(한글, 한자, 일본어)들은 오류가 발생할 수 있다. 이렇게 메시지 상에서 오류가 발생하게 되면 수신시 ??? 등으로 표시된다.(TDC에는 ??? 혹은 ㅁㅁㅁ 로 나타났음.)

  • GSM 7 bit
Basic Character Set[3]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ Δ SP 0 ¡ P ¿ p
0x01 £ _ ! 1 A Q a q
0x02 $ Φ " 2 B R b r
0x03 ¥ Γ # 3 C S c s
0x04 è Λ ¤ 4 D T d t
0x05 é Ω % 5 E U e u
0x06 ù Π & 6 F V f v
0x07 ì Ψ ' 7 G W g w
0x08 ò Σ ( 8 H X h x
0x09 Ç Θ ) 9 I Y i y
0x0A LF Ξ * : J Z j z
0x0B Ø ESC + ; K Ä k ä
0x0C ø Æ , < L Ö l ö
0x0D CR æ - = M Ñ m ñ
0x0E Å ß . > N Ü n ü
0x0F å É / ? O § o à
  • LF is a Line Feed control.
  • CR is a Carriage Return control, or filler.
  • ESC is an Escape control.
  • SP is a Space character.
Basic Character Set Extension[3]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00         |      
0x01                
0x02                
0x03                
0x04   ^            
0x05              
0x06                
0x07                
0x08     {          
0x09     }          
0x0A FF              
0x0B   SS2            
0x0C       [        
0x0D CR2     ~        
0x0E       ]        
0x0F     \          
  • FF is a Page Break control. If not recognized, it shall be treated like LF.
  • CR2 is a control character. No language specific character shall be encoded at this position.
  • SS2 is a second Single Shift Escape control reserved for future extensions.

Available characters in TDC

덴마크 통신사 TDC에서는 다음의 캐릭터 들만 허용한다(그리스 문자들은 허용하지 않는다).

Basic Character Set
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ SP 0 ¡ P ¿ p
0x01 £ _ ! 1 A Q a q
0x02 $ " 2 B R b r
0x03 ¥ # 3 C S c s
0x04 è ¤ 4 D T d t
0x05 é % 5 E U e u
0x06 ù & 6 F V f v
0x07 ì ' 7 G W g w
0x08 ò ( 8 H X h x
0x09 Ç ) 9 I Y i y
0x0A LF * : J Z j z
0x0B Ø ESC + ; K Ä k ä
0x0C ø Æ , < L Ö l ö
0x0D CR æ - = M Ñ m ñ
0x0E Å ß . > N Ü n ü
0x0F å É / ? O § o à
  • LF is a Line Feed control.
  • CR is a Carriage Return control, or filler.
  • ESC is an Escape control.
  • SP is a Space character.
Basic Character Set Extension
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00         |      
0x01                
0x02                
0x03                
0x04   ^            
0x05              
0x06                
0x07                
0x08     {          
0x09     }          
0x0A FF              
0x0B   SS2            
0x0C       [        
0x0D CR2     ~        
0x0E       ]        
0x0F     \          
  • FF is a Page Break control. If not recognized, it shall be treated like LF.
  • CR2 is a control character. No language specific character shall be encoded at this position.
  • SS2 is a second Single Shift Escape control reserved for future extensions.

주요 서비스 사

Korea

  • SK
http://bizmsg.skbroadband.com
  • KT
http://www.xroshot.com/XroshotBIZ/product.jsp
  • LG
http://www.uplus.co.kr/biz/ebiz/agem/RetrieveBzEbBmSmsServer.hpi

Denmark

  • TDC
http://tdc.dk
http://cpservice.tdctech.dk/portal/tws_tdc/Forum

Study

  • SMS
http://en.wikipedia.org/wiki/Short_Message_Service
  • SMS wiki
http://www.sms-wiki.org/p_10-home-sms.html
  • Why text messages are limited to 160 characters?
http://latimesblogs.latimes.com/technology/2009/05/invented-text-messaging.html
  • GSM SMS specification(GSM 03.40, 3GPP TS 23.040)
http://en.wikipedia.org/wiki/GSM_03.40#Message_Content
  • GSM SMS character set(GSM 03.38, 3GPP 23.038)
http://en.wikipedia.org/wiki/GSM_03.38

References

  1. http://spin.atomicobject.com/2011/04/20/concatenated-sms-messages-and-character-counts/
  2. http://help.cardboardfish.com/?q=ConcatenatedAndLongSMS
  3. 3.0 3.1 Alphabets and language-specific information (3G TS 23.038 version 10.0.0) (zipped .doc file), ETSI, March 2011.