ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • ADP 실기 26회 복기 + 후기 (220925)
    리뷰 2022. 9. 26. 15:54

    3번째 실기를 응시하며 ...

    앞의 1,2번은 공부를 거의 안하고 봐서 불합격이라는 단어에 무던했는데,

    이번에는 꼴에 공부 조금 했다고 아쉬운 것들이 한바가지 ...

     

    <머신러닝>

    1. onlineRetail.csv 데이터

    1-1. 결측치 식별 후 처리하기

    1-2. 이상치 제거하기

    1-3. kmeans 혹은 DBSCAN 방법을 이용해서 군집화하기, 모델 선정 이유 서술하

     

    2. 1번 문제의 연장선

    2-1. 군집 성능 지표

    2-2. 군집별 추천 상품

    2-3. KNN 통해서 특정 고객? '12413' 추천 결과

     

    1번은 상당히 군집분석의 정석다운 문제이다. 1-1 1-2는 전처리하라는 거니까 패스하고,

    1-3에서 나는 kmeans 이용해서 풀고자 했으나 시험장 환경이 좋지 않아서(ㅋㅋ ㄹㅇ임 7만원이나 받아먹으면서 환경 왜 요조랄) 자꾸 문제가 생겨서 그냥 머신러닝을 포기했다... 흐아앙

     

    kmeans 군집분석은 데이터가 모두 수치형 변수여야 하기 때문에, 수치형인 Quantity와 UnitPrice를 이용하고자 했고

    + 추가로 제품분류(?) 변수가 20종이길래 라벨인코딩

    + Country 변수 더미화

    로 진행하려 했다.

     

    엘보우 방법으로 파악했을 때 최적 군집 수가 3개였던 것 같다.

     

    <통계분석>

    3. 불량률의 90% 추정오차한계 5%이내가 되는 적정 표본 크기 중 최소값

    뭐라는거야 뭐라는거냐고 한국말맞냐고

    이항분포인건 알았지만 푸는 법을 까먹어서 결국 백지로 냈다 ...

    https://support.minitab.com/ko-kr/minitab/20/help-and-how-to/statistics/power-and-sample-size/how-to/sample-size/sample-size-for-estimation/interpret-the-results/margin-of-error/

     

     

    4. 시계열

      1월 2월 3월 4월 5월 6월 7월 8월 9월
    Price 22.9 23.4 21.1 25.7 27.4 30.6 31.8 30.2 41.1

    4-1. 은(Silver) 가격에 대해 이동평균(N=3) 시계열 그래프 그리기

    시계열은 안낼 줄 알았다 .. 25회에서 이미 시계열 문제가 나왔기 때문에 .. (물론 그땐 머신러닝으로 나왔던 것 같음)

    MA모형으로 그리면 되었고, 나는 python에서 ARIMA(0,0,3) 넣어서 풀었는데 이게 맞는지는 모르겠다.

    그리고 12월까지 그려야했던 것 같은데(N=3) 나는 무슨 정신인지 9월까지만 그림 엥 ~

     

    4-2. 1월 대비 9월 은(Silver) 가격 얼마나 올랐는가

    (41.1-22.9)/22.9 = 약 40% 정도로 나왔던 것 같음

     

     

    5. 자치구별 지지율이 같은지에 대해서

      A B C
    찬성 176 193 159
    반대 124 107 141

    5-1. 가설 세우기: 연구가설 귀무가설

    H0: 자치구별 지지율이 모두 동일하다.

    H1: 자치구별 지지율이 적어도 하나는 다르다.

     

    5-2. 검정통계량 구하고 결론내기

    prop.test() 썼다.

    x <- c(176, 193, 159)
    n <- c(176+124, 196+107, 159+141)
    
    prop.test(x=x, n=n)
    
    	3-sample test for equality of proportions without continuity correction
    
    data:  x out of n
    X-squared = 7.1098, df = 2, p-value = 0.02858
    alternative hypothesis: two.sided
    sample estimates:
       prop 1    prop 2    prop 3 
    0.5866667 0.6369637 0.5300000

    카이제곱 검정통계량 7.11이고 p-value값이 유의수준 0.05보다 작으므로 귀무가설을 기각한다.

    즉 자치구별 지지율이 적어도 하나는 다르다고 볼 수 있다.

     

     

    6. 남학생 여학생 혈압 평균에 대한 검정 (정규성과 등분산성 만족한다는 전제조건이 깔려있던 것 같음) b_pressure.csv

    데이터의 특징으로는, 남학생 수가 16명 여학생 수가 9명이었던 것 같다 (데이터 수가 다름)

    6-1. 가설 세우기: 연구가설 귀무가설

    H0: 남학생과 여학생의 혈압 평균은 차이가 없다.

    H1: 먼소리냐 차이 있다

     

    6-2. 검정통계량 구하고 결론내기

    잘 기억이 안난다 급하게 풀어서 .. 아마

    t.test(b_pressure$남학생, b_pressure$여학생, var.equal=TRUE)

    이렇게 풀었던 것 같다.

    t 검정통계량을 제시했고, p-value값이 유의수준 0.05보다 커서 귀무가설을 채택한다.

    즉 남학생과 여학생의 평균 혈압은 차이가 없다.

     

    6-3. 신뢰구간 통해서 6-2의 주장을 뒷받침해라

    t.test(앞에서 한거)$conf

    t.test()에 대한 결과에 신뢰구간도 함께 나온다.

    구간에 0이 포함되어 있으므로 평균에 차이가 없다는 말을 뒷받침할 수 있다고 서술했다.

     

     

    7. 베이지안회귀 .. 어쩌구 ..

    읽자마자 기가차서 풀지도 않음 .. 고로 기억도 안남 .. 

     

     

    후기

    필기 딴지 2년 다돼가서 이제 기회도 얼마 없다... 못따면 그냥 포기할까도 싶다 ㅠ

    배점이나 문제 스타일이 너무 "이 중 하나라도 모르면 무조건 다음 기회에" 라서 너무 사람 진빠짐 엉엉

    그냥 주어진 기회 내에서 최선을 다해서 기회 안에 미련없이 공부해보자 아좌좟 !

    '리뷰' 카테고리의 다른 글

    ADP 실기 28회 복기 + 후기 (230312)  (2) 2023.03.14
    ADP 실기 27회 복기 + 후기 (221126)  (0) 2022.12.06

    댓글

Designed by Tistory.