lxie [363746] · 쪽지

2011-11-15 01:09:27
조회수 10,514

배치표와 통계에 대해서

게시글 주소: https://cheetar.orbi.kr/0002075425


  매년 오르비를 포함한 각종 입시사이트에서는 각 대학교의 합격선을 추정해서 발표합니다. 우선적으로 원점수를 기준으로 한 배치표를 작성하고, 그 다음 소위 '합격 예측 서비스'를 통해서 각 과 별 합격선에 대한 개별적인 추정치들을 내놓지요. 이때, 모든 배치표와 자료에서 쓰이는 도구는 다름 아닌 통계입니다. 그런데, 오르비를 이용하시는 분들의 대부분이, 특히 문과분들이 통계에 대해서 잘 모르고 계신 것 같습니다. 물론 고등학교 때 통계를 제대로 배우셨다면 제가 앞으로 쓰는 글은 이미 다 알고 계실테니 그냥 뒤로가기를 누르시면 됩니다.


통계는 새빨간 거짓말이다.


  아시다시피, 통계적 추정의 가장 기본이 되는 개념은 오차와 신뢰도로 이루어집니다. 합격선을 X 라고 추정 했을 때, 모든 추정에는 반드시 +-a의 오차가 존재합니다. 예를 들어서, 작년 연세대 경영 대학 합격선을 348점이라고 추정한 경우 여기서 +-a 의 차이는 당연히 나게 마련이고, 오차의 범위 내에서 합격선을 추정한 경우는 당연하지만 제대로 된 추정입니다. 그러나 +-a 의 변동으로 한 명의 수험생이 떨어지는 것이 입시입니다. 게다가 신뢰도의 개념이 들어가면 더 복잡해집니다. 신뢰도가 95%라는 것은 수많은 신뢰 구간 중 약 95%가 최대 허용 오차 내에서 합격선을 포함하고 있다는 것을 말합니다. 우리가 합격선을 추정해 내놓을 때는 수많은 신뢰 구간 중 하나를 골라서 보여주는 것입니다. 이것이 95%에 속할지, 5%에 속할지는 아무도 모릅니다. 

  입시 기관들도 바보가 아니기에, 다양한 방법을 이용해서 오차를 줄이고 신뢰도를 높히려고 합니다. 작년에 Fait 논란이 있고나서 올라온 글을 읽어보셨다면, 아마도 이런 논리를 발견하실 수 있으셨을겁니다. "......이번 배치표가 잘못된 것은 인정한다. 그러나 오르비는 다른 여타 기관들보다 더 정확한 합격선 예측을 해오고 있다. 우리의 통계 시스템은 매년도 오차를 줄여나가는 방식을 취하고 있다. 이를 통해 점점 더 정확하게 배치표를 만들어낼 수 있다......" 이게 무슨 말이나면, 작년에 합격점수를 3점 높게 추정한 경우를 +3이라고 가정합시다. 그렇다면 작년의 경험을 적용해 올해 합격선을 2점 낮게 추정한 경우는 -2가 되고, 합격선 추정은 조금 더 정확해진 것입니다. 그러나 아시겠지만, 이 과정에서 많은 수험생들이 약간의 합격선 차이로 합격하기도하고, 떨어지기도 합니다. 게다가, 사실상 정말로 완벽한 추정치를 내놓는 것은 불가능한 것입니다. 작년에 더 정확하게 예측했던 기관이 올해도 더 정확하게 예측하리라는 보장은 없습니다. 한 마디로 정리하면, 통계적 자료들은 어떤 기관이 내놓았던 언제, 어느 상황에서도 결코 100% 맞는 것이 아닙니다. 언제나 방어적으로 바라보아야하는 것입니다.


오르비가 예측하면 미래는 현실이 된다.
 -그러나 예측된 미래는 더 이상 옳은 미래가 아니다.

    게다가 입시에는 한 가지 변수가 더 해지게 됩니다. 바로, 그 유명한 '지원자들의 심리'입니다. 여러분들이 흔히 던지는 질문입니다. "작년에 연대 경영이 폭발했으니, 올해는 고대 경영에 지원자가 몰려서 역으로 폭발이 나지 않을까요? 그럼 역시 연대 경영을 써야하나요?" 결론부터 말씀드리면, 그건 누구도 모르는 일입니다. 상식적으로 생각해봐도 답이 없는 문제라는 것쯤은 알 수 있습니다. 기본적으로 이것은 과거의 사례들로 현재가 어떻게 될지 예상하려는 오류를 범하고 있습니다. 때로는 옳을 때도 있겠지만, 때로는 틀릴 때도 있습니다. 아무런 가치가 없는 사례들입니다. 그나마 의미가 있다고 생각하는 정보는 넓게 보아 "'대략적으로' 어느 대학교에 가려면 이 정도 백분위를 맞아야 하더라." 혹은, "'대체로' 상경 계열 지원자들의 점수 분포대가 인문 계열의 지원자들보다 높더라." 정도일뿐입니다.

    작년에 라끄리님께서는 이런 말씀을 하신 적이 있습니다. "내가 올바른 합격선을 추정했다고 하자. 하지만 이 합격선을 발표하면 지원자들은 이에 영향을 받아 의사 결정을 바꾸게 된다. 결과적으로 다시 올바른 합격선은 이동하게 되고, 내가 기존에 추정한 합격선은 더 이상 올바른 것이 아닌 것이다." 딜레마입니다. 마치 물리학에서 관측 자체가 입자에 영향을 줘서 100% 정확한 관측을 하지 못하는 상황과도 같습니다. 이까지 고려해서 올바른 합격선 추정을 '배타적'으로 '일부' 사람들에게만 제공하여 추정의 정확성을 높이겠다는 논리가 Fait에 깃들어있습니다. Fait를 구입하시면, 결코 Fait 분석 결과를 다른 사람에게 공개하지 말라는 경고 문구가 있는 것을 보실 수 있을 겁니다. 과연 이것이 얼마나 정확성을 높일 수 있을지는 잘 모르겠습니다.(부정적인 뉘앙스가 아닙니다. 저는 정말로 모르겠습니다. 아마도 정확성이 높아지니 그런 문구를 삽입한 것이겠지요.) 모두들 생각해보시기 바랍니다.

    그러니 다시 반복해 말하건데, 어떤 통계이든, 어떤 배치표이든, 어떤 합격 예측이든 읽을 때는 반드시 주의하셔야합니다. 분명 각각의 통계 자료들은 여러분들의 의사 결정에 근거가 되어야합니다. 평가원이 1등부터 줄세워서 몇 등인지 알려주지 않는 한, 의지할 수 있는 자료는 통계적 추정치들뿐이기 때문입니다. 하지만 앞서 서술했듯이, 통계를 맹신하는 것은 어리석습니다. 언제나 틀릴 수 있다는 생각을 해둔 채로 통계를 바라보십시오. 그리고 직관 따위는 사고 속에서 지워버리십시오. 이 게시판에는 하루에도 수십개씩 "100/96/100/50/48 연대 갈 수 있나요?" 류의 질문들이 올라옵니다. 그리고 '재미있게도' "연대 떡치겠네요. 발씻고 주무세요." 혹은 "서성한까지 생각해두셔야할 듯 ㅜㅡ 물수능 짜증나네여."와 같은 답변이 올라옵니다. 그러나 질문도, 답변도 하등의 의미가 없는 것들입니다. 혹시라도 이런 게시판 분위기가 '수험생들의 심리'라는 변수에 영향을 끼칠 수 있지 않느냐고 반론하실지 모르겠습니다. 그러나 그것이 과연 어떤 방향으로 영향을 끼칠 것인지는 아무도 모르는 일입니다. 아무 의미가 없는 일입니다. 

   그러니 제 개인적인 소견으로는, 수시 준비를 하신다거나 하는 일이 아닌 이상은 다른 의미있는 일들을 찾아 하셨으면 좋겠습니다. 의미있는 일에는 당연히 휴식도 포함이 될 것입니다. 여러분들은 곧 대한민국의 최고 지성인들의 집단에 속하게 될 예비 대학생들이십니다. 그러나 대학교에 진학하신다고 해서 여러분들이 모두 지성인이 될 수 있는 것은 아닙니다. 연세대학교 홍석민 교수님이 이런 말씀을 자주 하십니다. "대학은 그저 대충 학점이나 잘받으러 다니려면 정말로 할 것이 없는 곳이고, 반대로 공부를 하려고만 한다면 정말 끝도 없이 할 것이 많은 곳이다." 대한민국 사회에서 지성인이라는 타이틀 이전에, 최소한 여러분들이 바라는 '폼나는 삶'이라도 살기 위해서는 갖추어야할 것이 너무나 많습니다. 지나치게 의미없는 일에 여러분이 골몰하지 않기를 바라며 글 한 편 남깁니다.
  

0 XDK (+0)

  1. 유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.