본문 바로가기
LearnningPython

머신러닝 배우기 전 보는 기초 통계(집중 경향치 & 변산도)(교육통계)

by arbor 2022. 10. 30.

집중 경향치 : 한 분포에 들어 있는 여러 수치를 종합적으로 대표하는 수치, 한 분포가 어떤 경향으로 되어있는지 기술·파악

 

 

 
  최빈치(Mode) 중앙치(Median) 평균치(Mean)
개념 한 분포에서 가장 빈도가 많은 점수, 표본에 따라 하나 이상 나올 수 있다. 한 분포의 수치들은 낮은 데서부터 높은 순서로 배열했을 때 중간에 나오는 수치 한 분포의 모든 점수의 합을 사례 수로 나눈 것
용도 집단의 중심적 경향을 대강 짐작하고 싶을 때
주로 명명 변인(서울, 대전, 대구 부산과 같은) 대상으로 사용
다른 집중경향을 계산할 만한 시간적 여유가 없을 때
서열, 동간, 비율 측정치의 자료일 때
분포의 상반부와 하반부에 관심이 있을 때
평균을 구할만한 시간적 여유가 없고 분포가 심하게 편중될 때
양극단의 점수를 배제하고 싶을 때
동간, 비율, 측정치에 계산
가장 신뢰 있는 집중 경향치를 알고 싶을 때
분포가 좌우 대칭되어 정상분포에 가까울 때
다른 통계치의 기초자료로 삼고 싶을 때
통계적 정밀도 : 평균치 > 중앙치 > 평균치
안정성 정도 : 평균치 > 중앙치 > 평균치
계산의 간편성 : 최빈치> 중앙치 > 평균치


표집이 비교적 클 때, 평균치&중앙치&최빈치가 거의 일정하게 되므로 대표치로서 최빈치 사용 가능


명명 변인일 때 최빈치
서열 변인일 때 중앙치
동간 변인 & 비율 변인일 때 평균


양극단의 급 간이 개방 급 간 (급 간의 상한계·하한계가 없을 때)일 때, 평균을 구할 수 없다.
 

 

정적 분포
평균 = 중앙치 = 최빈치
양분(쌍분 분포)
최빈치 < 평균=중앙 < 최빈치


정적 편포
최빈값 < 중앙값 < 평균
부적 편포
평균 < 중앙값 < 최빈값
 
정상분포 - 평균을 중심으로 낮은 점수와 높은 점수가 일정하게 퍼져 있는 모습
- 개인차를 변별하는 데 활용
정적 편포 - 검사 내용이 대체로 쉬운 경우에 생길 수 있는 분포
- 많은 수의 학생들이 저조한 학업성취를 보일 때 분포
- 낮은 점수 수준에서는 개인차 변별이 어렵지만, 높은 점수 수준에서는 개인차 변별이 잘됨
부적 편포 - 검사 내용이 대체로 쉬운 경우에 생길 수 있는 분포
- 많은 수의 학생들이 높은 학업성취(완전 학습)를 보일 때 분포
- 낮은 점수 수준에서는 개인차 변별이 잘 되나 높은 점수 수준에서는 개인차 변별이 잘되지 않음
 

변산도

: 집중 경향치를 중심으로 얼마나 흩어져 있는가를 나타내며, 집단의 동질성이나 이질성을 파악하고, 개인차의 정도를 알려줌

 
범위 사분 편차 평균 편차 표준 편차
한 분포에서 최고점과 최하점의 차이
(범위 = 최고점 최하점 + 1)
한 분포의 중앙부에서 전체 사례의 50%가 차지하고 있는 점수 범위의 반 모든 편차의 절대치를 합해서 사례 수로 나눈 것(편차의 평균) 모든 편차를 자승(제곱)하여 합하고 이를 사례 수로 나누어 그 제곱근을 얻어낸 것
대강 신속히 알고자 할 때
극단적인 영향을 받아 안정성이 없음
대표치로서의 최빈치와 같은 성격
점수 분포가 극단적으로 편포 되어있을 때나 중앙치만 나타나 있을 때
중앙부 50%가 차지하는 실제의 점수 범위를 알고 싶을 때
양극단의 점수의 영향을 배제하거나 함이 목적
사분편차보다는 신뢰로우나 표준 편차와 같은 이론적 수리적 해석은 어려움
표준 편차처럼 자승(제곱)하지 않기 때문에 극단적인 영향을 덜 받음
가장 신뢰하는 변산도로서 정상 분포곡선과 관련한 추리통계에서 사용
분포상에 있는 모든 점수의 영향을 예민하게 받음(=평균)
표집오차가 가장 적음, 즉 신뢰도가 높음
 
   
       
표준 편차의 특징


극단적인 점수의 영향을 많이 받음
최소제곱법(최소제곱법) : 평균을 중심으로 얻어진 편차 점수 제곱의 합은 다른 어떤 값을 기준으로 얻은 편차 점수 제곱의 합보다 항상 작음
모든 점수에 일정한 수를 더하거나 빼더라도 표준 편차는 동일
모든 점수에 일정한 수 c를 곱하면 표준 편차는 c 배 많은 증가
( 곱하기 나누기만 영향을 받는다.)
표준 편차가 크면 집단이 이질적
표준 편차가 작으면 집단이 동질적
 

표준 편차와 정상분포 곡선과의 관계

정상분포

단위 정상분포 : 평균은 0, 표준 편차는 1인 분포

 

대부분 3 ~ +3 사이에 있음

곡선은 좌우대칭, 3개의 집중 경향치가 일치

곡선상 최고 높이는 평균(z=0)

곡선 아래 측의 전체 면적은 1

 

정상분포는 일반적으로 개인차 변별에 적합(ex. 상대평가)

 

평균치에서 ±1 δ 사이에 전체 사례 수의 약 68.2 % 분포

평균치에서 ±2 δ 사이에 전체 사례 수의 약 95.44% 분포

평균치에서 ±3 δ 사이에 전체 사례 수의 약 99.74% 분포

 

변별도 ( 수업 시간 상관계수 )

(기울기 크다 = 변별도 GOOD)

 

 

-1.00 ~ +1.00 사이에 분포

변별도 지수가(-) 이면, 하위자 정답자 수가 상위자 정답지수보다 많은 경우

0 또는 0에 가까우면 상위자 정답지수와 정답자 수가 비슷한 경우

양호한 변별도는 ±0.30 ~ ±0.70으로 그 값이 크게 나오는 것일수록 바람직

 

정상분포

단위 정상분포 : 평균은 0, 표준 편차는 1인 분포

 

대부분 3 ~ +3 사이에 있음

곡선은 좌우대칭, 3개의 집중 경향치가 일치

곡선상 최고 높이는 평균(z=0)

곡선 아래 측의 전체 면적은 1

 

정상분포는 일반적으로 개인차 변별에 적합(ex. 상대평가)

 

평균치에서 ±1 δ 사이에 전체 사례 수의 약 68.2 % 분포

평균치에서 ±2 δ 사이에 전체 사례 수의 약 95.44% 분포

평균치에서 ±3 δ 사이에 전체 사례 수의 약 99.74% 분포

 

변별도 ( 수업 시간 상관계수 )

 

(기울기 크다 = 변별도 GOOD)

 

 

-1.00 ~ +1.00 사이에 분포

변별도 지수가(-) 이면, 하위자 정답자 수가 상위자 정답지수보다 많은 경우

0 또는 0에 가까우면 상위자 정답지수와 정답자 수가 비슷한 경우

양호한 변별도는 ±0.30 ~ ±0.70으로 그 값이 크게 나오는 것일수록 바람직