본문 바로가기
LearnningPython

머신러닝 배우기 전 보는 기초 통계(통계 분석 & 방법)(교육통계)

by arbor 2022. 10. 30.

 
CR(Z) 검정
의미 z검정은 모수 통계로 어떤 집단의 특성이 특정수와 같은지 혹은 집단 간의 차이가 있는지를 밝히는 통계적 방법으로, 사례 수가 ‘30~40 이상은 되어야 함
조건 종속변수가 양적변수
종속변수에 대한 모집단 분포가 정규분포
두 집단 비교일 경우, 두 모집단 분포가 동일
모집단의 분산을 알고 있어야 함
유형 단일표본 Z 검정
모집단의 평균과 표준 편차를 알고 있을 때, 모집단의 속성을 특정 한 집단의 속성과 비교하는 경우
ex) 전국 초등학생의 IQ 평균과 표준 편차를 알 때
두 독립표본 Z 검정
두 모집단에서 추출된 표본들이 상호독립적이고, 두 모집단의 분산을 알고 있을 때 두 집단 간차이가 있는지 밝히기 위해 사용
ex ) 초등학교 남학생과 여학생의 어휘 능력 비교
두 종속표본 Z 검정
두 모집단에서 추출된 표본들이 서로 종속적이고, 두 모집단의 분산을 알고 있을 때 집단 간의 차이를 검증하기 위해 ex) 쌍둥이 남녀의 지능 비교
t 검정
의미 모집단의 분포가 정규분포이고, 종속변수가 양적변수일 때, 특정 수치 혹은 집단 가의 비교를 위해 사용하는 통계적 방법으로, ‘Z 검정과 다른 점은 오직 모집단의 분산을 모른다는 것
조건 모집단이 정규분포이어야 함
모집단의 표준 편차가 미지
표집 사례 수가 30~40 미만이어야 함(모집단 분산 모를 때)
유형 단일표본 T 검정
모집단과 표본의 차이를 알아보기 위해 모집단의 분산을 모를 때 사용하는 방법
ex) 프로그램을 개발하고 이 프로그램을 통해 학습한 집단 평균이 모집단의 평균으로 추측되는 점수와 같은지 검증
두 독립표본 T 검정
두 표본이 추출된 모집단이 상호독립적일 때, 두 집단의 평균 차이를 비교하고자 할 때 사용하는 방법으로, 두 모집단의 분산을 모르는 경우 사용
ex )남녀 학생의 시민의식에 관한 차이 연구
T 분포 자유도에 의해서 결정되는 분포로 자유도(주어진 조건으로 자유롭게 변화할 수 있는 변인)’가 무한한 경우에는 T 분포는 정상분포 Z와 일치하는 반면에 자유도가 적어짐에 따라 정상분포로부터 이탈됨
변량분석(분산분석, ANOVA, F 검정)
의미 분산분석은 2~3개 집단 간에 차이가 있는지 알아보기 위해
집단 간의 평균을 비교하여 검증하는 방법
조건 종속변수가 양적변수
각 모집단의 분포가 정규분포
모집단의 분산이 동일
유형 일원 분산분석
독립변수가 하나이니 경우 시행
ex) ‘교수법’ a, b, c를 투입한 후 학습효과 비교
이원분산분석
독립변수가 두 개인 경우 시행, 두 독립변수 간의 상호작용도 학습에 영향을 줌
ex ) 위의 예에 피드백 효과를 처치로 추가하면 독립변수가 되며, 이때 교수법과 피드백의 효과뿐만 아니라 두 처치의 상호작용도 분석할 수 있다. 교수법과 피드백의 상호작용이 학습에 영향을 주는 것을 상호작용 효과라고 한다.
삼원분산분석
두 모집단에서 추출된 표본들이 서로 종속적이고, 두 모집단의 분산을 알고 있을 때 집단 간의 차이를 검증하기 위해 ex) 쌍둥이 남녀의 지능 비교
다변량 분산분석
처치집단으로부터 두 가지 이상의 반응을 동시에 관찰하고자 할 때, 즉 종속변수가 두 개 이상일 때 집단 간의 차이가 있는지 비교 검정하는 분산분석 방법
ex) 세 가지 교수법에 따른 어린이의 영어 능력(말하기, 듣기, 문법, 어휘, 발음 등) 차이를 알아보고자 할 때
공분산 분석
종속변수에 큰 영향을 미치는 매개변수를 통계적으로 제거하는 방법
ex) 교수법에 따라 추론 능력에 차이가 있는지 알아보고자 할 때, 교수법을 투입한 후 측정한 추론점수에서 사전 추론 능력이라는 매개변수 영향을 공산 분석으로 제거하는 방법
의미 명명 변인에 대해 주로 활용하는 것으로, 표집을 통해 관찰한 값이 이론적으로 기대되는 값과 같은지 다른지 또는 그 차이가 우연한 것인지 의미 있는 것인지를 분석하는 방법
종속변수가 질적 변수이거나 범주 변수일 때 집단 간의 차이와 두 변수 관계를 알아보기 위한 방법(z 검정, t 검정, 분산분석은 종속변수가 양적변수일 때 사용)


ex) 새로운 교육정책에 대한 학년별 인식의 차이를 연구할 때

 

 

관계 분석을 위한 통계 방법

상관분석
개요 두 변인 간의 상호관련성 정도를 수리적으로 표현한 것
두 변인 간의 상관의 정도가 높을수록 한 변인을 알 때 다른 변인을 더 정확하게 예언
상관이 있다는 것은 두 변인 사이에 어떤 공통된 변인이 있음을 나타냄(인과 관계 X)
상관도와
상관계수
두 변인 간에 한 변인이 변함에 따라 다른 변인이 어떻게 변하느냐의 정도
상관계수 : -1.00 ~ +1.00 범위 내에 분포, 상관계수가 0이면 상관이 없음
결정계수 : ( ) - 어느 한 변인이 다른 변인을 예언 또는 설명해주는 정도
상관도 : +, - 는 상관의 방향을 제시, 절대치가 높을수록 두 변인 간의 상관관계가 높은 것
상관계수는 대소 관계는 따질 수 있으나 동간·비율 척도로는 따질 수 없음(가감승제를 할 수 없음)
상관계수
신뢰도
상관계수가 0.7이면 전체변량 중 설명되는 변량은 49%, 신뢰도가 0.7이면 설명되는 변량은 70%
, 상관계수와 신뢰도는 둘 다 같은 계산 공식을 이용하여 구해지는 값이기는 하지만, 해석할 때는 상관계수는 제곱하여 설명량으로 해석하고 신뢰도는 그 값을 그대로 해석
왜냐하면 상관관계는 서로 다른 두 변인간의 상호관련성을 의미하는 것이지만, 신뢰도는 서로 같은 변인끼리 상관을 의미하는 것이기 때문. , 이론적으로 신뢰도는 같은 검사의 반복측정 혹은 동형 검사를 통해 계산된다.
상관계수영향 주는 요인 점수분포의 정도(변산도), 극단한 점수의 영향, 집단의 통합, 중가분포 집단이 제외된 경우, 측정의 오차, 표집의 오차
 
회귀분석
의미 한 변인(독립변인)을 가지고 다른 변인(종속 변인)을 예측하는 방법
종속변수가 양적변수, 독립변수는 양적 또는 질적 변수
종류 단순회귀
분석
하나의 독립변인과 하나의 종속 변인 사이의 관계를 분석
두 변인 간의 관계가 직선으로 나타남 > 직선의 기울기 : 회귀계수(β)
ex) 대입 수능성적과 대학의 평균 학점과의 관계 분석
다중회귀
분석
여러 개의 독립 변인과 하나의 종속 변인 사이의 관계 분석
ex) 학생의 경제적 지위, 친구관계, 학교시설, 교사의 질 등이 학생의 학업성적에 어느 정도 영향을 미치는지를 분석하는 경우
 
요인분석
의미 이간의 한 특성이 지니고 있을 것으로 생각되는 여러 가지 하위요인들을 찾아내고 이들 간의 관계 ,이들이 특성에 영향을 미치는 정도를 규명
구인타당도 검증에 많이 사용
예시 주로 심리학에서 사용
지능의 특성을 나타낸다고 보이는 여러 변인들을 선정, 여러 변인들 간의 상관관계를 통해 공통성을 가지고 있는 변인들 끼리 묶어 잠재적 구인(요인)형성, 잠재적 구인들이 지능과 어떤 연관이 있는지 검사> 결과를 통계적으로 분석, 지능ㄱ와 상관관계가 높은 구인들을 지능 구성요인으로 결정