[ 클러스터링 웹환경에서의 로그 데이터 분석 준비 ]
로그분석 목적중 제일 큰 것은 웹서버와 웹페이지와의 관계에서 다양한 웹페이지중 관심도와 발전성있는 컨텐츠, 서비스에 대한 접근 패턴을 찾아내는 일이라 할 수 있다.
이러한 필요한 정보를 얻는데에 딱 꼬집어 짚어주는 것이라면 좋겠지만...로그저장툴이나 분석툴은 사실상 그러한 것을 알아서 꼬집어 주지 못한다. 불필요한 항목들가지 전부 수집할때에는 웬만한 웹사이트의 경우 웹로그의 버릴수도 버리지도 못하는 로그덕에 아주 골아픈 경험을 하게 될 것이다.
이에 어떠한 로그정보가 필요하고 가장 필요한 로그정보를 가지고 효율적으로 관리할 수 있는지를 알아야 될 필요가 생긴다.
성공적인 로그 분석을 위해서는 기본 데이터인 로그데이터에 대해서 명확히 알고 있는 것이 필요하다. 단지, 운영중인 웹 서버의 로그데이터의 기본적인 지식이 아니라 그 사이트 특성에 다라 로그데이터가 어덯게 저장되는지를 명확히 알고 있어야 한다.
또한 이것을 가지고 분석을 하는 과정은 더욱 긴 시간을 요구한다. 오프라인환경에서 분석 데이터를 모으는작업이 분석 작업에서 상당 기간을 차지하겠지만 웹로그데이터는 바로바로 얻을수 있는 장점이 있다.
기업에서 두대 이상의 웹서버를 사용하여 웹서비스를 제공하는 형태의 멀티웹서버환경을 클러스터링 웹서버라 부른다. 클러스터링 웹환경에서는 웹서비스를 제공하는 서버가 각각의 스케쥴에 의해 작동하기 때문에 한개의 동일한 웹사이트를 위한 시스템인 경우, 로그분석의 통합분석은 매우 어려워 진다. 따라서 2대~백대이상의 웹서버를 운영하는 클러스터링 환경에서의 웹서비스를 이해 할 수 있어야 한다.
클러스터링 방식은 두가지로 존재한다.
1. 고정방식
실 서비스를 제공하는 서버, 즉 실행서버의 위치가 고정되어 있어 여러대의 웹 서버가
순차적으로 방문객에게 제공되는 형태
2. 동적방식
매 방문때마다 실행서버의 역할이 바뀌는 방식.
고정방식의 클러스터링 웹 서버는 고정되어 있는 실행서버들의 순번을 웹 방문객이 정하면 방문객지정방식, 실행서버의 대표서버가 정하면 서버지지정방식으로 나눌 수 있고, 다시 지정하는 방법 또한 IP지정방식과 DNS변환방식의 두 가지가 많이 사용된다.
클러스터링 웹 서버가 동적으로 구성되는 경우에는 클러스터링의 대표서버인 게이트웨이 컴퓨터가 실행서버들의 순번을 정해주면 된다.
이때 방문객은 단지 게이트웨이 컴퓨터만을 의식하게됨으로 게이트웨이서버가 다운되거나 포화상태가되면 전체서비스가 마비되는 위험한 상황이 오게 된다. 이러한 이유로 게이트웨이 서버으 미러링도 고려되고 있다.
게이트웨이 서버는 자신이 관리하는 모든 실행 서버들의 부하상태를 모니터링 하며 가장 효율적으로 선택해야하는 반면, 실행서버 역시 요청 받은 서비스를 웹 방문객에게 전달하고, 동시에 자신의 부하상태를 게이트웨이 컴퓨터에 보고하도록 되어있다.
이와같은 클러스터링 웹서비스환경에서 로드벨런스, 캐시서버, 백업서버, 미러링서버등도 함께 구성이 되어야 더욱 효율적인 클러스터링 웹서비스 환경이 조성된다.
더 깊이 들어가면 네트워 어드민이 될 이야기가 될듯 하다. 기획자로서 클러스터링이 무엇이고 어떻게 구성이 되는가와 이에다른 로드벨런스, 캐시, 미러링의 사용에 대한 이해만 해두자.




