-
ADP 실기 26회 복기 + 후기 (220925)리뷰 2022. 9. 26. 15:54
3번째 실기를 응시하며 ...
앞의 1,2번은 공부를 거의 안하고 봐서 불합격이라는 단어에 무던했는데,
이번에는 꼴에 공부 조금 했다고 아쉬운 것들이 한바가지 ...
<머신러닝>
1. onlineRetail.csv 데이터
1-1. 결측치 식별 후 처리하기
1-2. 이상치 제거하기
1-3. kmeans 혹은 DBSCAN 방법을 이용해서 군집화하기, 모델 선정 이유 서술하기
2. 1번 문제의 연장선
2-1. 군집 성능 지표
2-2. 군집별 추천 상품
2-3. KNN 통해서 특정 고객? '12413' 추천 결과
1번은 상당히 군집분석의 정석다운 문제이다. 1-1 1-2는 전처리하라는 거니까 패스하고,
1-3에서 나는 kmeans 이용해서 풀고자 했으나 시험장 환경이 좋지 않아서(ㅋㅋ ㄹㅇ임 7만원이나 받아먹으면서 환경 왜 요조랄) 자꾸 문제가 생겨서 그냥 머신러닝을 포기했다... 흐아앙
kmeans 군집분석은 데이터가 모두 수치형 변수여야 하기 때문에, 수치형인 Quantity와 UnitPrice를 이용하고자 했고
+ 추가로 제품분류(?) 변수가 20종이길래 라벨인코딩
+ Country 변수 더미화
로 진행하려 했다.
엘보우 방법으로 파악했을 때 최적 군집 수가 3개였던 것 같다.
<통계분석>
3. 불량률의 90% 추정오차한계 5%이내가 되는 적정 표본 크기 중 최소값
뭐라는거야 뭐라는거냐고 한국말맞냐고
이항분포인건 알았지만 푸는 법을 까먹어서 결국 백지로 냈다 ...
4. 시계열
1월 2월 3월 4월 5월 6월 7월 8월 9월 Price 22.9 23.4 21.1 25.7 27.4 30.6 31.8 30.2 41.1 4-1. 은(Silver) 가격에 대해 이동평균(N=3) 시계열 그래프 그리기
시계열은 안낼 줄 알았다 .. 25회에서 이미 시계열 문제가 나왔기 때문에 .. (물론 그땐 머신러닝으로 나왔던 것 같음)
MA모형으로 그리면 되었고, 나는 python에서 ARIMA(0,0,3) 넣어서 풀었는데 이게 맞는지는 모르겠다.
그리고 12월까지 그려야했던 것 같은데(N=3) 나는 무슨 정신인지 9월까지만 그림 엥 ~
4-2. 1월 대비 9월 은(Silver) 가격 얼마나 올랐는가
(41.1-22.9)/22.9 = 약 40% 정도로 나왔던 것 같음
5. 자치구별 지지율이 같은지에 대해서
A B C 찬성 176 193 159 반대 124 107 141 5-1. 가설 세우기: 연구가설 귀무가설
H0: 자치구별 지지율이 모두 동일하다.
H1: 자치구별 지지율이 적어도 하나는 다르다.
5-2. 검정통계량 구하고 결론내기
prop.test() 썼다.
x <- c(176, 193, 159) n <- c(176+124, 196+107, 159+141) prop.test(x=x, n=n) 3-sample test for equality of proportions without continuity correction data: x out of n X-squared = 7.1098, df = 2, p-value = 0.02858 alternative hypothesis: two.sided sample estimates: prop 1 prop 2 prop 3 0.5866667 0.6369637 0.5300000
카이제곱 검정통계량 7.11이고 p-value값이 유의수준 0.05보다 작으므로 귀무가설을 기각한다.
즉 자치구별 지지율이 적어도 하나는 다르다고 볼 수 있다.
6. 남학생 여학생 혈압 평균에 대한 검정 (정규성과 등분산성 만족한다는 전제조건이 깔려있던 것 같음) b_pressure.csv
데이터의 특징으로는, 남학생 수가 16명 여학생 수가 9명이었던 것 같다 (데이터 수가 다름)
6-1. 가설 세우기: 연구가설 귀무가설
H0: 남학생과 여학생의 혈압 평균은 차이가 없다.
H1: 먼소리냐 차이 있다
6-2. 검정통계량 구하고 결론내기
잘 기억이 안난다 급하게 풀어서 .. 아마
t.test(b_pressure$남학생, b_pressure$여학생, var.equal=TRUE)
이렇게 풀었던 것 같다.
t 검정통계량을 제시했고, p-value값이 유의수준 0.05보다 커서 귀무가설을 채택한다.
즉 남학생과 여학생의 평균 혈압은 차이가 없다.
6-3. 신뢰구간 통해서 6-2의 주장을 뒷받침해라
t.test(앞에서 한거)$conf
t.test()에 대한 결과에 신뢰구간도 함께 나온다.
구간에 0이 포함되어 있으므로 평균에 차이가 없다는 말을 뒷받침할 수 있다고 서술했다.
7. 베이지안회귀 .. 어쩌구 ..
읽자마자 기가차서 풀지도 않음 .. 고로 기억도 안남 ..
후기
필기 딴지 2년 다돼가서 이제 기회도 얼마 없다... 못따면 그냥 포기할까도 싶다 ㅠ
배점이나 문제 스타일이 너무 "이 중 하나라도 모르면 무조건 다음 기회에" 라서 너무 사람 진빠짐 엉엉
그냥 주어진 기회 내에서 최선을 다해서 기회 안에 미련없이 공부해보자 아좌좟 !
'리뷰' 카테고리의 다른 글
ADP 실기 28회 복기 + 후기 (230312) (2) 2023.03.14 ADP 실기 27회 복기 + 후기 (221126) (0) 2022.12.06