머신러닝 배우기 전 보는 기초 통계(집중 경향치 & 변산도)(교육통계)

▶ 집중 경향치 :　한 분포에 들어 있는 여러 수치를 종합적으로 대표하는 수치, 한 분포가 어떤 경향으로 되어있는지 기술·파악

	최빈치(Mode)	중앙치(Median)	평균치(Mean)
개념	한 분포에서 가장 빈도가 많은 점수, 표본에 따라 하나 이상 나올 수 있다.	한 분포의 수치들은 낮은 데서부터 높은 순서로 배열했을 때 중간에 나오는 수치	한 분포의 모든 점수의 합을 사례 수로 나눈 것
용도	집단의 중심적 경향을 대강 짐작하고 싶을 때 주로 명명 변인(서울, 대전, 대구 부산과 같은) 대상으로 사용 다른 집중경향을 계산할 만한 시간적 여유가 없을 때	서열, 동간, 비율 측정치의 자료일 때 분포의 상반부와 하반부에 관심이 있을 때 평균을 구할만한 시간적 여유가 없고 분포가 심하게 편중될 때 양극단의 점수를 배제하고 싶을 때	동간, 비율, 측정치에 계산 가장 신뢰 있는 집중 경향치를 알고 싶을 때 분포가 좌우 대칭되어 정상분포에 가까울 때 다른 통계치의 기초자료로 삼고 싶을 때
① 통계적 정밀도 : 평균치 > 중앙치 > 평균치 ② 안정성 정도 : 평균치 > 중앙치 > 평균치 ③ 계산의 간편성 : 최빈치> 중앙치 > 평균치 표집이 비교적 클 때, 평균치&중앙치&최빈치가 거의 일정하게 되므로 대표치로서 최빈치 사용 가능 명명 변인일 때 최빈치 서열 변인일 때 중앙치 동간 변인 & 비율 변인일 때 평균 양극단의 급 간이 개방 급 간 (급 간의 상한계·하한계가 없을 때)일 때, 평균을 구할 수 없다.


정적 분포 평균 = 중앙치 = 최빈치			양분(쌍분 분포) 최빈치 < 평균=중앙 < 최빈치

정적 편포 최빈값 < 중앙값 < 평균		부적 편포 평균 < 중앙값 < 최빈값

정상분포	- 평균을 중심으로 낮은 점수와 높은 점수가 일정하게 퍼져 있는 모습 - 개인차를 변별하는 데 활용
정적 편포	- 검사 내용이 대체로 쉬운 경우에 생길 수 있는 분포 - 많은 수의 학생들이 저조한 학업성취를 보일 때 분포 - 낮은 점수 수준에서는 개인차 변별이 어렵지만, 높은 점수 수준에서는 개인차 변별이 잘됨
부적 편포	- 검사 내용이 대체로 쉬운 경우에 생길 수 있는 분포 - 많은 수의 학생들이 높은 학업성취(완전 학습)를 보일 때 분포 - 낮은 점수 수준에서는 개인차 변별이 잘 되나 높은 점수 수준에서는 개인차 변별이 잘되지 않음

▶ 변산도

: 집중 경향치를 중심으로 ‘얼마나 흩어져 있는가’를 나타내며, 집단의 동질성이나 이질성을 파악하고, 개인차의 정도를 알려줌

범위	사분 편차	평균 편차	표준 편차
한 분포에서 최고점과 최하점의 차이 (범위 = 최고점 –최하점 + 1)	한 분포의 중앙부에서 전체 사례의 50%가 차지하고 있는 점수 범위의 반	모든 편차의 절대치를 합해서 사례 수로 나눈 것(편차의 평균)	모든 편차를 자승(제곱)하여 합하고 이를 사례 수로 나누어 그 제곱근을 얻어낸 것
대강 신속히 알고자 할 때 극단적인 영향을 받아 안정성이 없음 대표치로서의 최빈치와 같은 성격	점수 분포가 극단적으로 편포 되어있을 때나 중앙치만 나타나 있을 때 중앙부 50%가 차지하는 실제의 점수 범위를 알고 싶을 때 양극단의 점수의 영향을 배제하거나 함이 목적	사분편차보다는 신뢰로우나 표준 편차와 같은 이론적 수리적 해석은 어려움 표준 편차처럼 자승(제곱)하지 않기 때문에 극단적인 영향을 덜 받음	가장 신뢰하는 변산도로서 정상 분포곡선과 관련한 추리통계에서 사용 분포상에 있는 모든 점수의 영향을 예민하게 받음(=평균) 표집오차가 가장 적음, 즉 신뢰도가 높음


▶ 표준 편차의 특징 극단적인 점수의 영향을 많이 받음 최소제곱법(최소제곱법) : 평균을 중심으로 얻어진 편차 점수 제곱의 합은 다른 어떤 값을 기준으로 얻은 편차 점수 제곱의 합보다 항상 작음 모든 점수에 일정한 수를 더하거나 빼더라도 표준 편차는 동일 모든 점수에 일정한 수 c를 곱하면 표준 편차는 c 배 많은 증가 ( 곱하기 나누기만 영향을 받는다.) 표준 편차가 크면 집단이 이질적 표준 편차가 작으면 집단이 동질적

▶ 표준 편차와 정상분포 곡선과의 관계

정상분포

단위 정상분포 : 평균은 0, 표준 편차는 1인 분포

대부분 –3 ~ +3 사이에 있음

곡선은 좌우대칭, 3개의 집중 경향치가 일치

곡선상 최고 높이는 평균(z=0)

곡선 아래 측의 전체 면적은 1

정상분포는 일반적으로 개인차 변별에 적합(ex. 상대평가)

평균치에서 ±1 δ 사이에 전체 사례 수의 약 68.2 % 분포

평균치에서 ±2 δ 사이에 전체 사례 수의 약 95.44% 분포

평균치에서 ±3 δ 사이에 전체 사례 수의 약 99.74% 분포

▶ 변별도 ( 수업 시간 상관계수 )

(기울기 크다 = 변별도 GOOD)

-1.00 ~ +1.00 사이에 분포

변별도 지수가(-) 이면, 하위자 정답자 수가 상위자 정답지수보다 많은 경우

0 또는 0에 가까우면 상위자 정답지수와 정답자 수가 비슷한 경우

양호한 변별도는 ±0.30 ~ ±0.70으로 그 값이 크게 나오는 것일수록 바람직

정상분포

단위 정상분포 : 평균은 0, 표준 편차는 1인 분포

대부분 –3 ~ +3 사이에 있음

곡선은 좌우대칭, 3개의 집중 경향치가 일치

곡선상 최고 높이는 평균(z=0)

곡선 아래 측의 전체 면적은 1

정상분포는 일반적으로 개인차 변별에 적합(ex. 상대평가)

평균치에서 ±1 δ 사이에 전체 사례 수의 약 68.2 % 분포

평균치에서 ±2 δ 사이에 전체 사례 수의 약 95.44% 분포

평균치에서 ±3 δ 사이에 전체 사례 수의 약 99.74% 분포

▶ 변별도 ( 수업 시간 상관계수 )

(기울기 크다 = 변별도 GOOD)

-1.00 ~ +1.00 사이에 분포

변별도 지수가(-) 이면, 하위자 정답자 수가 상위자 정답지수보다 많은 경우

0 또는 0에 가까우면 상위자 정답지수와 정답자 수가 비슷한 경우

양호한 변별도는 ±0.30 ~ ±0.70으로 그 값이 크게 나오는 것일수록 바람직

'LearnningPython' 카테고리의 다른 글

머신러닝 배우기 전 보는 기초 통계(통계 분석 & 방법)(교육통계) (0)	2022.10.30
머신러닝 배우기 전 보는 기초 통계(규준 점수 & 추리통계)(교육통계) (0)	2022.10.30

near and dear

머신러닝 배우기 전 보는 기초 통계(집중 경향치 & 변산도)(교육통계)

'LearnningPython' 카테고리의 다른 글

티스토리툴바

머신러닝 배우기 전 보는 기초 통계(집중 경향치 & 변산도)(교육통계)

'LearnningPython' 카테고리의 다른 글

관련글

티스토리툴바