높새언덕

..허술한 제가 경애하는?! 김은화 선생님의 말씀에 의하면 ...

"경영학은 경험과학이니 통계를 위한 검증이 필수지 Try it!!"....여기서 it은 통계학이에요...

통계학

통계학에서는 조사대상으로 삼아야 할 집단을 '모집단', 모집단에서 추출된 몇몇 개체집단을 '표본'이라고 한다. 통계학은 표본조사를 통해 모집단의 상황을 파악하는 학문이다.

 

1. 데이터의 종류

1. 카테고리 데이터와 수량 데이터

1. 카테고리 데이터(측정 불가,급과 급 사이의 간격이 일정하지 않음)

- 유도의 단수, 날씨, 출신지,혈액형, ~에대한평가

2. 수량 데이터(측정 가능, 급과 급 사이의 간격이 일정함)

- 기온, 체중, 발행 부수, ~의 최적온도, ~의 시간기록

 

2. 수량 데이터의 전체적인 분위기 알기

데이터의 전체적인 분위기를 직감적으로 파악하기 위해 도수분포표나 히스토그램을 사용한다.

1. 도수분포표와 히스토그램

1. 계급 : 범위에 따라 구별해 놓는것(ex. 6000원이상~7000원미만, 7000원이상~8000원미만...)

2. 계급값 : 계급의 평균값(ex. 6500원, 7500원)

3. 도수 : 각 계급에 속해 있는 빈도값(ex. 6000원이상~7000원미만에 7종)

4. 상대도수: 전체를 1로 봤을 때의 비율. 각 계급에 속한 데이터 개수/전체 데이터 개수(%일경우X100)

5. 히스토그램: 수치 데이터의 전체를 직감적으로 파악하기 위해 그래프로 표현함

(ex. 나는 변수-가격별x로 도수-판매량y을 알고 싶다.)

-가로축(변수)

변수 : 가로축(가격)

계급의 크기 : 막대의 폭을 결정함

계급값 : 막대 중앙부분에 표시

 

-세로축(구하고자 하는 값)

도수 or 상대도수

2. 평균

1. 평균(흔히알려진) : 엄밀히 '산술평균 또는 '상가평균' 이라 함.

2. 평균(몰라도되는) : '기하평균'(='상승평균'), '조화평균'

3. 중앙값(지나치게 크거나 작은 데이터가 있어서 평균값의 수치가 무의미할때 선택)

1. 데이터를 순서대로 늘어놓았을 때 그 중간에 오는 값

- 데이터의 개수가 홀수일 경우, 가장 중앙에 있는 데이터(16. 19, 30일때, 중앙값은 19)

- 데이터의 개수가 짝수일 경우, 중앙에 있는 두 값의 평균 

4. 표준편차(평균에서 얼마나 떨어져 있는지를 나타내는 지표)

평균에서 분포된 정도를 표시하는 것. 모집단이 아닌 표본의 표준편차를 계산할 때에는 데이터 개수에서 1을 뺀다. 

5. 도수분포표에서 계급의 크기

계급의 개수와 크기를 구하는 공식이 존재 하지만, 실용에서 '계급'의 폭을 어느정도로 할 것인지는 분석자 의 판단으로 정해진다.

6. 추측통계학과 기술(記述)통계학

추측통계학 : 표본 집단의 표본 정보를 통해 모집단의 상황을 유추해 내는 학문

기술통계학 : 집단의상황을 정리된 데이터로써 가능한한 간결하고 명확하게 나타내는 통계학

 

3. 카테고리 데이터의 전체적인 분위기 알기

1. 단순집계표

데이터의 전체적인 분위기 파악을 위해 명목y별 도수와x 비율x을 알 수 있는 표를 작성한다.

 

4. 표준값과 편차값

1. 표준화와 표준값

1. 표준화 : 평균에서 떨어진 정도나 데이터의'분포된 정도'를 바탕으로 수치의 가치를 검토하기 쉽게 해 주는 데이터 변환

2. 표준값 : 표준화된 데이터

만점에 관한 기준이 달라지더라도 그 표준값의 평균은 반드시 0. 표준편차는 반드시 1이다.

어떤 단위의 변수라도 그 표준값의 평균은 반드시 0, 표준편차는 반드시 1이다.

3. 편차값

만점에 관한 기준이 달라지더라도 그 표준값의 평균은 반드시 50. 표준편차는 반드시 10이다.

어떤 단위의 변수라도 그 표준값의 평균은 반드시 50, 표준편차는 반드시 10이다.

4. 편차값의 해석

 

 

편차값의 비교는 평균과 표준편차를 구한 범위가 같을때 가능하다.

5. 확률을 구하자(대표적인 확률 밀도 함수)

1. 확률밀도함수

데이타를 시각자료인 히스토그램으로 표현할 때 계급의 크기를 극한까지 작게 한 곡선의

2. 정규분포

정규분포의 확률밀도함수의 그래프는

1. 평균을 중심으로 좌우대칭이다.

2. 평균과 표준편차의 영향을 받는다.

 

x의 확률밀도함수가

일때,

"x는 평균이ㅇㅇ이고 표준편차가 xx인 정규 분포를 따른다"라고 표현한다.

 

3. 표준정규분포

x의 확률밀도함수가일때,

통계학에서는 "x는 평균이 0이고, 표준편차가 1인 정규분포를 따른다."라고 하지 않고, "x는 표준정규분포를 따른다"라고 표현한다.(넓이는 항상 1)

표준정규분포의 그래프에서 곡선과 가로축이 만나서 생긴 면의 넓이, 비율 또는 확률동일시할 수 있다.

Z는(Z는표준정규분포표-Z에 따른 넓이표-에서X축의 값의 표기법) 

넓이=비율=확률(확률밀도함수에서,표준정규분포에서)

가로축눈금에 대응하는 확률이 기록된 표

 

4. 카이제곱분포

x의 확률밀도함수가

 

 

일때, 통계학에서는 이를  "x는 자유도ㅇㅇ의 카이제곱분포를 따른다."라고 표현한다.

자유도:기울기(그래프의 형태에 영향을 끼치는 수치)

P: 카이제곱 보다 큰 부분의 확률(P=넓이,비율)

카이제곱 분포표 : 표준정규분포표가 가로축 눈금에 대응하는 확률이 기록된 표라고 한다면, 카이제곱분포표는 

확률에 대응하는 가록축의 눈금이 기록된 표이다.

 P에 대응하는 가로축의 눈금(카이제곱분포표에서 X축의 값,=카이제곱)의 수치를 기록한 표.


자유도(1,2,3,...)와 P(0.995, 0.99, 0.975, 0.95, 0.05, 0.025, 0.01, 0.005)값에 따라 표에서 확인한다.


5. t 분포

6. F분포

7. 'XX분포'와 Excel

 

 분포

함수 

함수의 특징 

정규분포

NORMDIST 

가로축 값에 대응하는 확률을 산출한다 .

정규분포

NORMINV

확률에 대응하는 가로축의 값을 산출한다. 

표준정규분포

NORMSDIST

가로축 값에 대응하는 확률을 산출한다. 

표준정규분포

NORMSINV 

확률에 대응하는 가로축의 값을 산출한다. 

카이제곱분포

CHIDIST 

가로축 값에 대응하는 확률을 산출한다. 

카이제곱분포

CHINV 

확률에 대응하는 가로축의 값을 산출한다. 

T분포

TDIST

가로축 값에 대응하는 확률을 산출한다. 

T분포

TINV

확률에 대응하는 가로축의 값을 산출한다. 

F분포

FDIST

가로축 값에 대응하는 확률을 산출한다. 

F분포

FINV

확률에 대응하는 가로축의 값을 산출한다. 

 

 

6. 이변수의 관련성에 대해 알아보자

교차집계표: 이변수를 서로 접목시킨 표. ex)'성별'과 '고백방법'의 교차집계표

 

 지표

수치범위

계산식 

수량 데이터와

수량 데이터

 상관계수

-1~1

수량 데이터와

카테고리 데이터

 상관비

0~1 

 카테고리 데이터와

 카테고리 데이터

 크래머의

연관계수

0~1

1. 상관계수

수량 데이터와 수량 데이터 간에 "직선적"인 관련이 있는지를 판단할 수 있게 해주는 지표.

상관계수가 플러스이면 '양의 상관관계'

상관계수가 마이너스이면 '음의 상관관계'

상관계수가 0이면 '상관관계가 없다'라고 한다.

 

상관계수의 절대값

 구체적인 표현

대략적인 표현

 1.0~0.9

 매우 강하게 관련되어 있다.

관련이 있다 

 0.9~0.7

 다소 강하게 관련되어 있다.

관련이 있다

 0.7~0.5

 다소 약하게 관련되어 있다.

관련이 있다 

 0.5미만

 매우 약하게 관련되어 있다.

관련이 없다.

 

2. 상관비

수량 데이터와 카테고리 데이터의 관련성 알기. 범위는 0~1, 1에 가까울수록 강하게 관련되어 있다.

 

상관비

구체적인 표현

대략적인 표현

 10.~0.8

매우 강하게 관련되어 있다. 

관련이 있다.

 0.8~0.5

다소 강하게 관련되어 있다.

관련이 있다.

 0.5~0.25

다소 약하게 관련되어 있다.

관련이 있다.

 0.25미만

매우 약하게 관련되어 있다.

관련이 없다.

 

3. 크래머의 연관계수(=크래머의 관련계수=크래머의V=독립계수)

카테고리 데이터와 카테고리 데이터의 관련성 알기.

1.0~0.8 >매우강하게 관련되어 있다(차이가 있다.)

0.8~0.5 >다소 강하게 관련되어 있다.

0.5~0.25 >다소 약하게 관련되어 있다.

0.25미만 >매우 약하게 관련되어 있다.(관련이 없다.동일하다)

 

7. 독립성 검정을 마스터하자

1. '검정'이란(통계적 가설 검정)

표본데이터를 기반으로, 분석자가 모집단에 대해 세운 가설이 옳은지 아닌지를 추측하는 분석 방법.

 '검정'의 예

 명칭

이용 가능한 예 

 독립성 검정

 모집단의 '성별'과 '받고 싶은 고백의 방법'의 크래머 연관계수가 0인지 아닌지 추측한다.

 상관비 검정

 모집단의 '선호하는 패션 브랜드드'와 '연령'의 상관비가 0인지 아닌지 추측한다.

 무상관 검정

 모집단의 '한 달간 소비하는 화장품값'과 '한 달간 소비하는 옷값'의 상관계수 수치가 0인지 아닌지 추측한다.

 모평균 검정

 서울 여고생과 부산 여고생의 '한 달 용돈'이 서로 다른지를 추측한다.(모집단)

 모비율 검정

 도시에 사는 유권자와 농촌에 사는 유권자의 'XX국회지지율'이 서로 다른지를 추측한다.(모집단)

 

'검정'의 순서 

 step 1

 모집단을 정의한다.

 step 2

 귀무가설과 대립가설을 세운다.

 step 3

 어떤 '검정'을 실시할지 선택한다.

 step 4 

 유의수준을 결정한다.

 step 5

 표본데이터의 검정통계량을 구한다.

 step 6

 [step5]에서 구한 검정통계량이 기각역 내에 드는지의 여부를 조사한다.

 step 7

 [step6]에서 검정통계량이 기각역 내에 존재한다면 '대립가설은 올바르다'라고 결론짓는다. 그렇지 않은 경우 '귀무가설이 틀렸다고는 할 수 없다'라고 결론짓는다.

 

2. 독립성 검정(카이제곱 검정)

'모집단의 크래머 연관계수가 적어도 0이 되지는 않을 것'이라는 사실을 추측하기 위한 분석 방법

1. 교차집계표 작성(모집단정의) 2, 가설(귀무가설-모집단의 크래머 연관계수는 0이다. 관련X, 대립가설- 모집단의 크래머 연관계수는 0보다 크다, 관련O) 3. 독립검정 실시-카이제곱값구하기. 4. 유의수준(0.05) 결정 5. 표본데이터에서 검정통계량을 구한다.(독립성겁정=카이제곱량) 6. 검정통계량이 기각역(ㅇㅇㅇ이상)에 포함되는지 조사7. 검정통계량의 값이 기각역의 범위 내에 들었다면, '대립가설이 옳다'라고 결론짓는다. 그렇지 않은 경우, '귀무가설이 틀렸다고는 할 수 없다'라고 결론 짓는다. 검정통계량 수치가 기각역의 범위 내에 들었다면 모집단의 크래머 연관계수가 0보다 크다.라고 볼 수 있고 두 이변수는 서로 관련이 있다라고 하는 대립가설이 옳다라고 할 수 있다.


5. P값이 유의수준보다 작으면"모집단의 크래머 연관계수는 0보다 크다"라고 결론짓는다. 유의수준은 0.05 또는 0.01로 잡는 것이 일반적인데, 어느 쪽을 택할지는 분석자의 마음이다.

 

3. 귀무가설과 대립가설

 

독립성검정 

 귀무가설

모딥단의 '성별'과 '받고 싶은 고백 방법'의 크래머 연관계수가 0이다.

 대립가설

모집단의 '성별'과 '받고 싶은 고백 방법'의 크래머 연관계수가 0보다 크다.

 

상관비검정 

 귀무가설

모집단의 '선호하는 패션 브랜드'와 '연령의 상관비가 0이다.

 대립가설

모집단의 '선호하는 패션 브랜드'와 '연령의 상관비가 0보다 크다

 

 무상관 검정

 귀무가설

모집단의 '한 달간 소비하는 화장품값'과 '한 달간 소비하는 옷값의 상관계수가 0이다

 대립가설

모집단의 '한 달간 소비하는 화장품값'과 '한 달간 소비하는 옷값'의 상관계수가 0이 아니다.

또는

모집단의 '한 달간 소비하는 화장품값'과 '한 달간 소비하는 옷값'의 상관계수가 0보다 크다.

또는

모집단의 '한 달간 소비하는 화장품값'과 '한 달간 소비하는 옷값'의 상간계수가 0보다 작다.

 

모평균 검정 

 귀무가설

서울 여고생과 부산 여고생의 '한달 용돈'이 같다.

 대립가설

서울 여고생과 부산 여고생의 '한 달 용돈'이 다르다.

또는

서울 여고생보다 부산 여고생의 '한 달 용돈'이 많다.

도는

서울 여고생보다 부산 여고생의 '한 달 용돈'이 적다.

 

 모비율 검정

 귀무가설

도시에 사는 유권자와 농촌에 사는 유권자의 'XX국회지지율'이 같다.

 대립가설

도시에 사는 유권자와 농촌에 사는 유권자의 'XX국회지지율'이 다르다.

또는

도시에 사는 유권자보다 농촌에 사는 유권자의 'XX국회지지율'이 높다.

또는

도시에 사는 유권자보다 농촌에 사는 유권자의 'XX국회지지율'이 낮다.

 

4. P값과 검정의 순서

검정결론의 근거로서 두가지중 한가지 이상을 채택한다.

1. 검정통계량의 값이 기각역 내에 포함되어 있는가?

2. 유의수준보다 P값이 작은가?

- 독립성검정에서 P값이란 귀무가설이 진실일 경우, 의 값이 이 때 구한 값과 같거나 그보다 클 확률을 의미한다. P값이 step6의 유의수준보다 작은 경우, "대립가설은 옳다."라고 결론 짓는다. 그렇지 않은 경우. "귀무가설이 틀렸다고는 할 수 없다."라고 결론 짓는다.(따라서 크래머 연관계수는 0보다 크다.='성별'과 '받고 싶은 고백 방법'은 서로 관련이 있다.(=귀무가설이 틀렸다고 할 수 없다.'(P값×100)%'

 

5. 독립성 검정과 동일성 검정

 

6. 검정 과정에서의 결론의 표현

 

검정통계량의 값이

기각역의 범위에 포함되어 있는 경우 

유의수준>P값

검정통계량의 값이

기각역의 범위에 포함되지 않는 경우 

유의수준<P

  • 대립가설은 옳다.
  • 의미가 있다.
  • 귀무가설을 기각한다.
  • 귀무가설이 틀렸다고는 할 수 없다.
  • 의미가 있지 않다.
  • 귀무가설을 기각할 수 있다.
  • 귀무가설을 보유한다.
  • 귀무가설이 진실이 아니라고 할수는 없다.
  • 귀무가설을 채택한다.

 

 

발췌 : 만화로 쉽게 배우는 통계학

위 내용의 저작권은 성안당출판사에게 있음.

 

여러분 나 이거 쓰느라 제법 고생했어...