
전구를 만드는 공장에서 생산한 전구들을 수명 조사한 정규분포 표이다. 매우 많은 전구를 일일이 테스트하는 건 불가능하다. 이 테스트를 무한개 전구로 테스트하면 분포 곡선은 위 파란 선처럼 매끄럽게 그려질 것이다. 제한된 숫자로 전수조사를 하면 일반적으로 위와 같은 막대그래프 모양이 얻어진다. μ는 부드러운 가우스분포곡선에 제일 높은 지점이다.

가우스분포 곡선이 있을 때 표준편차 s라는 것은 너비(폭)이다. 표준편차는 가운데(평균)으로부터 얼마나 떨어져 있는지 알려준다. 표준편차의 값을 알면 면적을 구할 수 있다. 이 곡선의 폭이 넓다는 것은 분포가 넓다고 말한다.

모집단의 샘플 표준편차, 샘플의 표준편차를 안다고 가정하고 지금은 샘플 표준편차에 대한 얘기 하는 중! n 번의 측정 결과는 n 개의 샘플을 취해서 하나씩 측정하는 것은 n 번의 측정 결과가 나온다! 샘플의 하나를 취해 n 번 측정하는 것! 위와 같이 식이 나온다. 보통 평균은 측정값과 모두 더한 뒤 n으로 나눈다! 산술평균으로! 여기서는 n-1을 사용했다. 표준편차는 측정값이 평균으로부터 얼마나 멀리 떨어지는 보여주는 척도인데~ n을 쓰면 분모가 크니 전체 값이 줄어드는 것! 즉 표준편차가 작아진다.
n-1은 자유도이다! 샘플의 평균과 표준편차를 구해 모집단의 평균을 추론하는 것! 마찬가지로 샘플의 평균과 표준편차를 구하면 ±범위를 제시할 수 있다. 통계를 하는 목적은 그런 범위를 가지고 모평균을 추정하는 것이다. 이 범위 안에 모평균이 있을 확률이 얼마다~~ 그때 s가 넓으냐 좁으냐에 따라~ n-1 면 좀 넓고, n 이면 좀 좁고! ~ 정하느냐에 따라 답이 달라진다. n-1을 쓰는 이유는 보다 넓은 범위를 제시하고 그 안에 모평균이 있다고 말하고자 하기 위함이다. 안전하게 모평균이 더 넓은 범위에 있을 거라고 말하는 것이 더 좋다.
정리! n이 아닌 n-1이 들어가는 것은 샘플의 표준편차를 더 크게 잡아서 범위를 더 넓게 잡고 그 안에 모평균이 들어있을 확률이 얼마라고 말하기 위함이다. xi는 1회 측정값이고, x 바는 n 번 측정했을 때 측정값 평균이다. 표준편차를 백분율로 나타내는 것이 상대 표준편차이다. (표준편차 / 평균 x 100)

표준편차와 확률의 관계를 보여주고 있습니다. 표준편차는 확률과 대응하기 위해서는 정규화된 가우스 곡선을 알아야 합니다. 정규분포를 보면 종 아래 면적을 1이라 놓고, 그 가우스곡선의 식을 위와 같이 나타낸다. 앞의 계수 때문에 전체 면적이 1이 되는 것으로 정규화인자(nomalization factor)라고 합니다. Sigma(σ)와 mu(μ) 이런 모집단에 대한 내용이 있다. 샘플만으로 가우스 곡선을 만들 수 없다. 막대그래프는 일종에 샘플에 대한 얘기! 들쭉날쭉하고 종 모양의 곡선을 보이진 않았지만! 종 모양의 곡선을 갖는 경우는 모든 모집단에 들어있는 개체를 다 조사해서 곡선을 그린 것! (무수히 반복했다.) 무수히 반복 실험에 대한 모평균이 있고, 모평균의 표준편차에 대해 그렸을 때 가우스 곡선을 그릴 수 있고 정규화인자를 이용해서 정규화된 가우스 곡선을 표현할 수 있습니다. 위 함수식이 나타내는 분포는 정규분포라 할 수 있다. 슬라이드 마지막 줄은 다시 샘플로 돌아가 헷갈리는데, 1s를 sigma라고 할 것이다. ±1σ의 면적은 전체 면적에 67% 정도 되며 ±2σ의 면적은 전체에 95%로 0.95면적이 얻어진다.

가우스분포 아래 면적은 어떤 확률을 나타낸다. - 무한대부터 +무한대까지 곡선의 면적은 1을 갖는다. 어떤 측정을 통해서 표준편차를 얻었을 때 어떻게 표준편차로 확률을 구할 것인가? 그래서 우리가 z라는 변수를 도입한다.
z는 측정값
- 평균이 평균값으로부터 편차 와 표준편차 s(sigma)의 비율! z에 따르는 면적이 테이블로 주어져 있다. z 값을 알면 테이블을 이용해서 확률을 알 수 있다.
다시 말해 s를 알면 테이블을 이용해 확률을 알 수 있다. x 축의 값들이 표준편차(s or sigma) 값처럼 z의 값으로 변해 그 해당 면적을 구할 수 있다. z 값 -1, 0 사이 면적을 구하라 할 때 적분을 하기 어려우니 테이블 값을 이용해 구할 수 있다.
위 테이블을 보면 z 값이 절대값이지만(음도 있어서) 0부터 무한대까지 갈 때!
0일 경우 측정값의 종 모양의 봉우리일 때 측정값과 평균값 차이는 0 이니 z는 0이 된다. 그때에 면적은 당연 0 이 되며 표에서도 0임을 확인할 수 있다.
봉우리로부터 양의 방향으로 무한대일 경우 면적은 총 1의 반이 되니 0.5이다. 면적이 확률이다!!! z 값을 도입해서 앞에서 주어졌던 정규분포에 대한 식을 변형하게 되면 위 테이블 동그라미처럼 조금 더 간단해진다. 다른 말로 정규 오차곡선이라고 부른다. 테이블의 이런 값들은 위 식을 정적분해서 나온 것이다.

아까 전구에서 막대그래프 무시하고 선으로 된 종 모양의 가우스 분포함 수로 생각하고, 정규분포라 가정하자. 평균 수명이 845.2 시간으로 샘플의 평균인 x 바를 썼지만 엄격히 얘기하면 모집단의 평균이라고 얘기해야 한다. 이런 문제를 풀 때 가정을 해야 하는데, 정규분포 곡선은 모집단에 의해서 얻어진 것이긴 하지만 그것을 활용하여 면적이나 확률을 구할 때 샘플의 데이터를 활용한다는 것으로 이런 문제점을 잘 이해해야 한다. 샘플의 평균과 표준편차 값은 위 풀이와 같고 z 값은 -2.60이 나오고 표를 통해 면적(0.495 3)을 구하면 된다. 600시간 이내 타버리는 전구는 845.2 시간보다 한참 낮은 곳의 시간이다. 600시간 이내 타버리는 전구의 비율을 구하는 게 목적이니 600시간 보다 낮은 부분의 해당되는 곳은 0.5- 0.495 3 = 0.004 7에 해당하는 지역이다. 판매할 때 교환해야 할 0.47% 해당하는 4 700개를 만들어 구비하고 장사하면 좋을 것 같다.
'분석화학' 카테고리의 다른 글
분석화학 통계학 평균표준편차의 비교(F-test) #9 (0) | 2021.09.30 |
---|---|
분석화학 통계학 평균표준편차 #8 (0) | 2021.09.29 |
분석화학 계통오차의 불확정도 전파, 교정 #6 (0) | 2021.09.27 |
분석화학 우연오차로부터 불확정도 전파 #5 (0) | 2021.09.26 |
분석화학 계통오차 검출#4 (0) | 2021.09.25 |