노이즈 개념

[ 최종 수정 - 20x0507(목)05:33 ]

노이즈(Noise)개념

퀀트(Quant)들의 계량적 시장분석에 대한 이야기들을 살피다 보면 [ 노이즈 ]라는 표현이 심심찮게 등장한다. 클로드 섀넌의 [ 정보이론 ]에서 등장하는 정보( 비트, 시그널 )의 개념을 파악해 두면 이 표현이 가지는 문맥상의 의미를 제대로 이해하는 데 도움이 된다. [ ○○은 노이즈다. ]라는 표현속에는 이 글에서 단계적으로 정리해 놓은 사항들에 대한 이해가 깔려 있다.

1.정보이론 기초 공식과 Noise

 (정보)통신이론(communication theory)의 기초를 이루고 있는 것이 클로드 섀넌의 정보이론(information theory)인데 이 이론은 아래의 단순한 정보량 산출 공식을 출발점으로 전개된다.



 여기서 E는 어떤 사건(event)이며 p(E)는 E가 일어날 확률(probability)이다. 이 식은 섀넌이 1948년, 32세에 제안한 정보량(information content)의 정의이자 이를 계량적으로 산출해 내기위한 공식이다.
 단순한 로그 함수(logarithmic function)로 구성된 이 정보량의 개념을 기초로 통신이론에서는 약방의 감초처럼 활용되는 섀넌–하틀리 정리(Shannon–Hartley theorem)가 유도된다.



 여기서 C는 채널 용량(channel capacity), B는 대역폭(bandwidth), S/N은 신호 대 잡음비(SNR: Signal to Noise Ratio)이다. 섀넌–하틀리 정리에 등장하는 괄호 속 분모 N이 이 글에서 정리하려고 하는 노이즈개념이다.

2.정보이론의 의미

[사진] 개 (출처 : ko.wikipedia.org)
첫번째 식에서 표현된 정보량에 대한 섀넌의 정의는 스무고개(Twenty Questions)와 동일한 논리에 따르고 있다. 스무고개는 예, 아니오만 답할 수 있는 질문을 상대방에게 계속해서 특정 사물을 찾아내는 놀이이다. 예를 들어 내가 생각하는 답이 [사진]과 같이 개인 경우 상대방은 아래와 같은 질문을 해서 답을 맞출 수 있다.
1. 무생물입니까? No → 생물이군.
2. 동물입니까? Yes → 동물이군.
3. 야생입니까? No → 키우는 동물이군.
4. 새끼를 낳습니까? Yes → 포유류 군.
5. 어린이보다 덩치가 작습니까? Yes → 개나 고양이나 토끼나 등등..
6. 개입니까? Yes → 목적한 정보 도달.
만약 이런 질문을 통해 개라는 답을 찾은 경우 
이 답의 정보량은 얼마인가?
여기에 대한 수학적인 답으로 제시된 것이 
섀넌의 정보량 정의식이다. 
예, 아니오만 답할 수 있음은 
이진수(binary number)인 비트(binary digit, bit)를 의미한다.
위에 제시한 스무고개에서 

6번의 질문만에 답을 맞추었으므로 정보량은 6비트이다.

이 개념을 일반화 시키면
어떤 사건이 발생하고 이 사건의 정보량을 알기 위해서는 스무고개를 해야한다.
1. 어떤 사건이 자주 일어난다면
   몇 번 질문할 필요없이 쉽게 답을 맞출 수 있고
2. 아주 드물게 일어난다면 많은 질문을 해야 답을 찾을 수 있다.
   그래서, 섀넌도 
   답을 찾기 위해 Yes or No 질문을 하는 회수의 평균을 
   정보량으로 정의했다.

예를 들어
1. 개는 흔한 동물 이름이기 때문에 
   스무고개에 등장하면 쉽게 답을 맞출 수 있지만,
2. 내가 생각하는 답이 
   생전 처음 들어보는 원소인 
   모스코븀(Moscovium · 원소기호 Mc)이라면
0. 답을 맞추기가 매우 어렵다.

그래서, 정보량이라는 개념은 희소성(rareness), 놀라움(surprisal),
불확실성(uncertainty), 무작위성(randomness)과 밀접한 관계를 가지게 되고
이를 계량적으로 다루기 위해 확률적 접근이 들어가게 된다.

섀넌이 일반화시킨 정보량의 확률적 산정공식을 이해하기 위해
확률의 초보적 정의부터 다시 살펴 보기로 한다.
사건 A가 일어날 확률 P(A)는 다음과 같다.



 여기서 N은 일어날 수 있는 모든 경우의 수[ 전사건 total event의 개수 ], n은 사건 A가 발생하는 경우의 수이고, 모든 사건은 공평하게 발생한다고 가정한다면 식에서 n이 작아질수록 우리는 사건 A가 희소성이 있고 놀라우며  매우 높은 불확실성을 가지는 사건이라고 알 수 있다. 첫번째 정보량 정의식과 관련하여 P(A)는 우리가 정보를 발견할 가능성. 정보 전달에 성공할 가능성. 정보의 간결한 수준을 의미하게 되는데, 즉 P(A)의 역수는 사건 발생의 희소성을 의미하게 되고 그 희소성의 강도는 위에서 말한 필요로 하는 스무고개 질문의 수로 결정된다. 이것을 섀넌의 정보량 정의식에 위 식을 대입하는 형태로 적어보면 다음과 같다.


 이걸 조금 더 쉽게 풀어 설명하면 아래 [그림]과 같이 예 혹은 아니오를 통해 [혹은 이분법을 통해] 나눌 수 있는 가지수 [혹은 비트수]로 정보량을 측정할 수 있다는 의미가 된다.
[그림] 트리(tree) 구조(출처: wikipedia.org)
 클로드 섀넌이 제안한 [ 정보량 ]이란 메시지가 가지는 발생의 희소성 또는 무작위성의 강도를 이분법적(참or거짓) 논리 탐색을 통해 전달가능한 수준으로 가공하는 데 필요한 질문의 횟수로 계량화하여 정의한 개념이다.
 불확실성, 희소성, 무작위성이라는 모호한 기존 관념들 속에서 측정하고 관리하고 연산할 수 있는 대상인 [ 엔트로피=정보량 ]이라는 과학적 내지는 공학적 개념을 분리해 낸 것. 정보량이 낮은 메시지는 개연성이 높은 메시지이다. 이 정의된 정보량을 구성하는 정보 즉 시그널은 통신 이론을 통해 미리 정해놓은 체계화된 약속의 구조프로토콜 )를 참조하는 순수한 부울대수 값의 조립으로 전환될 수 있다. 이런 이론적 바탕에 0과 1로 표현되는 부울대수 값을 전자회로 상에서 연산할 수 있는 설계( : 역시 섀넌의 작품 )가 더해졌고, 그 결과물로 최초의 컴퓨터인 애니악이 탄생했다.

[참고문헌] C. E. Shannon, "A mathematical theory of communication", Bell System Tech. J., vol. 27, pp. 379–423, 623–656, July, Oct. 1948.
※ 클로드 섀넌의 간단한 이력과 퀀트 : Claude Elwood Shannon(1916–2001)은 1936년 미시간 대학교를 졸업하면서 전기공학 및 수학에서 두 개의 학사 학위를 받았다. 졸업 후에는 MIT에서 전기공학으로 석사과정을 공부했는데 1937년 《계전기와 스위치로 이루어진 회로의 기호학적 분석》이라는 논문으로 석사 학위를 받았다. 이 논문에서 섀넌은 전화 교환기에 사용되는 계전기와 스위치만으로 불 논리 및 이진수의 사칙연산을 수행할 수 있음을 증명했다. 이 업적을 인정받아 1940년에는 프린스턴 고등연구소에 초빙되었다. 이곳에서 헤르만 바일이나 존 폰 노이만 등의 수학자들과 같이 연구할 기회를 얻었고, 이 시기에 정보 이론으로 발전하게 될 중요한 아이디어들을 얻게 되었다.
벨 연구소로 옮긴 섀넌은 2차 세계대전 기간 동안 화기 제어 시스템과 암호학을 연구하고 있었는데, 이 기간에 당시 암호 해석학자로 활동 중이던 영국의 앨런 튜링과 교류할 기회를 얻는다. 그의 튜링 기계 이론을 접하면서, 자신의 이론과의 깊은 연관성을 발견하게 되었고, 여기서 탄생한 것이 1945년 9월 벨 연구소에 제출된 《암호학의 수학적 기반》이라는 보고서이다. 이 문서는 1949년 기밀이 해제되어 《보안 시스템의 통신에 관한 이론》이라는 제목으로 발표되었다.이 연구를 통해 정리된 논문이 위에 [ 참고문헌 ]으로 제시된 《통신의 수학적 이론》으로 《벨시스템 기술 저널》을 통해 1948년 7월과 10월 두 차례에 걸쳐 발표되면서 세상에 알려진다. 그리고 여기서 제안된 [ 정보=엔트로피 ]의 개념은 이 후 전개된 모든 정보통신 이론의 기반이 되고 있다. 섀넌은 또한 샘플링 이론을 창안하여, 당시까지 아날로그로만 이루어지던 전자기 통신을 디지털 정보통신으로 변화시킬 수 있는 공학적 기반도 제공했다.
벨 연구소 시절 동료였던 켈리는 섀넌의 정보이론을 가공하여 1956년 《정보율의 새로운 해석》이라는 논문을 발표하게 되는데 섀넌의 균형복원포트폴리오라는 아이디어를 일반화하여 켈리공식을 찾아내고 정리한 것. 이 베팅기법을 받아들여 적극 투자에 접목한 사람이 블랙잭에서 카드카운팅이라는 기술을 사용하여 카지노들을 털고다닌 걸로 유명한 에드 소프라는 MIT 교수이다. 영화로도 나올 정도로 널리 알려진 일화이다. 
에드 소프가 운영했던 펀드인 P/NP( Princeton/Newport_Partners )는 이론을 검증하는 학자적인 발상에서 시작된 금융시장에 대한 적용이었는데 이를 통해 20년에 걸쳐 달성해낸 성과는 역사 최초로 시장을 확실하게 이긴 사례로 평가되고 있다. [확실하게] 부분이 포인트이다. 이런 P/NP의 성공사례를 기반으로 금융시장에 대한 수학적 확률적 계량적 접근인 퀀트의 열풍이 일어나게 되었다. 최초의 퀀트가 에드 소프였다. 지금이 와서는 이미 월가 헤지펀드 업계는 퀀트가 대세가 된지 오래다. 현역으로 활동 중인 퀀트 중에서 가장 주목받는 인물이 르네상스 펀드의 짐 사이먼스James Harris Simons )이다.

3.SNR( Signal to Noise Ratio )

섀넌–하틀리 정리(Shannon–Hartley theorem)는 대역폭과 SNR을 변수로 하여 채널용량을 알아내기 위한 공식이다. 여기 등장하는 변수인 SNR에서 Signal에 해당하는 것이 위에서 살펴본 정보. 비트이고. 그 정보의 량을 측정하는 것이 첫번째 식이고. 첫번째 식을 통해 정보량은 비트수로 측정된다는 것을 지금까지 살펴 보았다. 노이즈란 통신채널을 통과하는 데이터 집합 중에서 이 시그널에 해당하는 요소를 제외한 나머지를 말한다. 이미 송수신자 양측에 알려진 내용. 확실한 것. 통신의 목적달성에 기여하지 못하는 부분들. 즉 통신에서 의미없는 것으로 취급되는 것이라는 의미를 가진다.

정리 : 퀀트는 무엇을 Noise라고 부를까?

퀀트(Quant : 수학·통계지식을 이용해서 투기 내지 투자에서의 유리한 결과를 얻고자 하는 사람들 ). 하도 여러 부류가 있어서 한마디로 딱 찝어 묘사하기는 애매한데. 보통 [ 계량적 접근 ]이라고 불리는 부류들이고. 봇을 활용하는 알고리즘 매매, 시스템 매매 등과 연결된다. 최상위 레벨의 투기자들이 이 영역에서 쏟아져 나오고 있다.
퀀트가 시장의 움직임을 파악하여 투자전략을 수립하고 실행하는 과정은 시장의 방향성에 대한 확률적 예측값을 찾아 내는 노력들로 구성된다. 그리고 여기에 필요한 방대한 영역의 방대한 데이터를 계량화하여 취급하려는 접근은 통신에서 잡음을 제거하고 시그널을 도출하는 접근과 일치한다. 그래서 이와 관련된 이야기들에서는 끝없이 언급될 수 밖에 없는 술어가 노이즈이다. 정리를 하자면 계량화된 관찰에서 배제되어야 할 요소들에 대한 통칭이 [ 노이즈 ]이다.

Plus1 : 

 수집된 어떤 데이타 집합에서 노이즈의 영역에 속하는 것을 찾아 내려면 우선 조사대상을 시그널로 가정하고 검증을 거친다. 여기서 의미없음이 판명되면 이후의 정보가공 과정에서는 버려진다. 전통적인 [ 매매 ]에서 오랫동안 많은 사람들에게서 의미있게 여기져 온 [ 예측의 잣대 ]들 중에는 이런 검증을 통과하지 못하고 노이즈의 영역에 속하는 것으로 이미 판명된 것도 많다.

Plus2 : 

 위에서 살펴본 정보이론이 도박, 투기, 투자의 영역에서 기대수익을 극대화하는 베팅기법으로 가공된 것이 켈리공식인데 현대의 투기판 내지는 투자영역에서 계량적 접근을 제대로 도입하는 경우 1. 노이즈를 검증하는 체계를 갖출 수 있고, 2. 가공된 시그널에서 도출된 확률적 예측값에서 켈리공식에서 말하는 [ 우위 ]를 산정해 낼 수 있고, 3. [ 우위 ]가 있는 경우에만 [ 우위 ]를 활용하여 얻어낼 수 있는 기대값을 최대로 하는 켈리비율을 적용하는 베팅을 자동으로 구사하는 시스템을 구축할 수 있다.

댓글

이 블로그의 인기 게시물

디자인 패턴

비잔틴 장군 문제

개미의 현명함