ADSP 기출문제 유형 분석: 꼭 나오는 개념 TOP 10

ADSP 기출문제 유형 분석: 꼭 나오는 개념 TOP 10

데이터 분석 준전문가(ADSP) 자격증은 데이터 분석 역량을 증명하기 위한 필수 관문으로 자리 잡았습니다. 비전공자도 도전할 수 있는 난이도지만, 방대한 범위를 전략 없이 접근했다가는 과락의 늪에 빠지기 쉽습니다. 특히 1, 2과목은 암기 위주인 반면, 3과목(데이터 분석)은 통계적 지식과 R 프로그래밍 기초가 없으면 풀기 어려운 문제가 다수 출제됩니다.

합격의 열쇠는 ‘선택과 집중’입니다. 최근 5년 간의 기출문제를 분석해보면 매 회차 반복해서 출제되는 핵심 개념들이 존재합니다. 이 글에서는 시험 직전 반드시 숙지해야 할 ADSP 기출문제 유형 TOP 10을 과목별 비중과 중요도에 따라 심층 분석합니다.

1과목: 데이터 이해 – 기본기 다지기



1과목은 점수 밭입니다. 여기서 실수를 줄여야 안정적인 합격권에 들 수 있습니다. 데이터의 기본 정의와 빅데이터의 특징이 주된 출제 포인트입니다.

1. DIKW 피라미드 (Data, Information, Knowledge, Wisdom)

가장 기초적이면서 매 시험 1~2번 문제로 단골 출제되는 개념입니다. 데이터가 어떻게 지혜로 발전하는지의 계층 구조를 명확히 이해해야 합니다.

각 단계별 정의 및 예시

시험에서는 각 단계의 정의를 묻거나, 예시를 주고 어떤 단계에 해당하는지를 묻는 유형이 많습니다.

  • 데이터(Data): 가공되지 않은 순수한 수치나 기호. (예: A마트 100원, B마트 200원)
  • 정보(Information): 데이터의 가공 및 처리로 의미가 부여된 것. (예: A마트가 B마트보다 더 싸다.)
  • 지식(Knowledge): 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합한 것. (예: 물건을 싸게 사려면 A마트로 가야 한다.)
  • 지혜(Wisdom): 지식의 축적과 아이디어가 결합된 창의적 산물. (예: A마트가 저렴하므로 다른 물품도 A마트에서 구매하는 것이 이득일 것이다.)

2. 빅데이터의 특징 (3V + @)와 가치 산정의 어려움

빅데이터를 정의하는 3V(Volume, Variety, Velocity)와 4V(Value 추가)의 개념, 그리고 왜 빅데이터의 가치를 돈으로 환산하기 어려운지를 묻는 문제는 필수 유형입니다.

빅데이터의 3요소 (3V)

  • Volume (규모): 데이터의 양. 테라바이트(TB), 페타바이트(PB) 등.
  • Variety (다양성): 정형(DB), 반정형(HTML, XML), 비정형(영상, 이미지) 데이터의 혼재.
  • Velocity (속도): 데이터의 생성 및 처리 속도.

가치 산정이 어려운 이유 (서술형 대비)

객관식 보기로 자주 등장하는 항목입니다. 다음 세 가지 이유를 꼭 기억하십시오.
1. 데이터 활용 방식의 재사용성: 한 번 사용하고 버리는 것이 아니라, 누가 언제 어디서 다시 쓸지 모름.
2. 새로운 가치 창출: 기존에 없던 조합으로 새로운 가치가 계속 만들어짐.
3. 분석 기술의 발전: 현재 기술로는 가치가 없어도 미래 기술로는 가치가 생길 수 있음.

2과목: 데이터 분석 기획 – 방법론과 프로세스



2과목은 암기량이 많아 수험생들이 의외로 과락을 많이 겪는 구간입니다. 분석 방법론의 순서와 하향식/상향식 접근법의 차이를 명확히 구분해야 합니다.

3. 분석 방법론 비교: KDD vs CRISP-DM

데이터 분석 방법론 중 가장 대표적인 두 가지 모델의 단계별 순서를 묻거나, 특정 단계에서 하는 일을 묻는 문제가 반드시 나옵니다.

KDD (Knowledge Discovery in Databases)

분석 절차가 순차적이고 체계적입니다.
1. 데이터셋 선택 (Selection): 비즈니스 이해 및 데이터 선택.
2. 데이터 전처리 (Preprocessing): 노이즈 제거, 이상치 처리.
3. 데이터 변환 (Transformation): 변수 생성, 차원 축소.
4. 데이터 마이닝 (Data Mining): 패턴 탐색 및 모형 구축.
5. 결과 평가 (Interpretation/Evaluation): 결과 해석 및 활용.

CRISP-DM (Cross Industry Standard Process for Data Mining)

비즈니스 이해를 최우선으로 하며, 단계 간 피드백이 활발합니다. 6단계 순서를 외워야 합니다.
1. Business Understanding (업무 이해)
2. Data Understanding (데이터 이해)
3. Data Preparation (데이터 준비)
4. Modeling (모델링)
5. Evaluation (평가)
6. Deployment (전개)

핵심 포인트: KDD의 ‘데이터 전처리’와 CRISP-DM의 ‘데이터 준비’ 단계가 매핑된다는 점, 그리고 CRISP-DM은 모델링 과정에서 문제가 생기면 데이터 준비 단계로 되돌아가는 피드백 루프가 있다는 점이 중요합니다.

4. 하향식 접근법(Top-down) vs 상향식 접근법(Bottom-up)

문제를 해결하는 방식의 차이를 묻는 유형입니다.

  • 하향식 접근법 (Top-down): 문제가 주어져 있고, 해답을 찾기 위해 데이터를 분석하는 방식. (Problem Solving)
    • 단계: 문제 탐색 -> 문제 정의 -> 해결방안 탐색 -> 타당성 검토
  • 상향식 접근법 (Bottom-up): 문제는 모르지만 데이터 자체를 탐색하다가 인사이트를 발견하는 방식. (Problem Discovery)
    • 주로 비지도 학습(군집 분석 등)과 관련이 깊습니다.
    • “Design Thinking”의 발산 단계와 유사합니다.
ADSP 기출문제 유형 분석: 꼭 나오는 개념 TOP 10

3과목: 데이터 분석 – 합격의 승부처



가장 배점이 높고(50점), 난이도도 높은 과목입니다. R 기초 문법, 통계적 가설 검정, 그리고 데이터 마이닝 알고리즘의 세부 내용을 완벽히 숙지해야 합니다.

5. R 프로그래밍 기초 문법 및 데이터 구조

코딩을 직접 하는 실기 시험은 없지만, 주어진 R 코드를 보고 결과를 예측하거나, 잘못된 문법을 찾는 문제가 출제됩니다. 특히 벡터와 데이터 프레임 관련 함수는 필수입니다.

필수 암기 함수

  • c(): 벡터 생성.
  • data.frame(): 데이터 프레임 생성.
  • summary(): 기초 통계량(최소, 1사분위, 중앙값, 평균, 3사분위, 최대) 출력.
  • str(): 데이터 구조 확인.
  • head(), tail(): 데이터 상/하위 일부 출력.

코드 예시: 결측치 처리 및 요약

다음과 같은 코드가 주어졌을 때 mean 값이나 NA 처리 결과를 묻는 문제가 자주 나옵니다.

# 데이터 생성
age <- c(25, 30, NA, 40, 22)
salary <- c(3000, 4000, 3500, NA, 2800)
df <- data.frame(age, salary)

# 결측치가 포함된 상태에서의 평균 계산 (결과는 NA)
mean_age_na <- mean(df$age) 

# 결측치를 제외하고 평균 계산 (na.rm = TRUE)
mean_age_clean <- mean(df$age, na.rm = TRUE)

print(paste("NA 포함 평균:", mean_age_na)) # 결과: NA
print(paste("NA 제외 평균:", mean_age_clean)) # 결과: 29.25

6. 통계적 가설 검정 (p-value와 오류)

통계 파트에서 가장 어렵게 느껴지지만, 논리만 알면 가장 쉬운 부분입니다.

귀무가설(H0) vs 대립가설(H1)

  • 귀무가설: 차이가 없다, 효과가 없다. (기각하고 싶은 가설)
  • 대립가설: 차이가 있다, 효과가 있다. (주장하고 싶은 가설)

p-value (유의확률) 해석

  • p-value < 0.05 (유의수준): 귀무가설 기각 -> 대립가설 채택 (통계적으로 유의하다).
  • p-value >= 0.05: 귀무가설 채택 (통계적으로 유의하지 않다).
  • 팁: p값이 작을수록 “내 주장이 맞을 확률이 높다(귀무가설이 틀렸다)”고 기억하세요.

제1종 오류와 제2종 오류

  • 제1종 오류($\alpha$): 귀무가설이 참인데 기각하는 오류. (죄 없는 사람을 유죄 판결)
  • 제2종 오류($\beta$): 귀무가설이 거짓인데 채택하는 오류. (범인을 무죄 판결)

7. 데이터 전처리: 결측치와 이상치 처리

데이터 분석 전 가장 중요한 단계인 전처리 기법입니다.

결측치(Missing Value) 대체 방법

  • 단순 대치법:
    • Complete Analysis: 결측치가 있는 행 삭제.
    • 평균 대치법: 해당 변수의 평균으로 채움.
    • 단순 확률 대치법: Hot-deck 등.
  • 다중 대치법: MCMC 등을 이용해 여러 번 대치 후 결합.

이상치(Outlier) 판별 (Box Plot 기준)

  • IQR (Inter Quartile Range): Q3 – Q1
  • Lower Fence: Q1 – 1.5 * IQR
  • Upper Fence: Q3 + 1.5 * IQR
  • 이 범위를 벗어나는 값을 이상치로 규정합니다. Box Plot 해석 문제가 매우 빈번하게 출제됩니다.

8. 분류 분석 (Classification): 의사결정나무와 앙상블

지도 학습의 대표 주자인 분류 분석에서는 알고리즘의 원리와 장단점을 묻습니다.

의사결정나무 (Decision Tree)

  • 특징: 해석이 용이함(White Box). 비선형 데이터 처리가 가능.
  • 분리 기준 (불순도 측정 지표):
    • 지니 지수 (Gini Index): 작을수록 불순도가 낮음(좋음).
    • 엔트로피 지수 (Entropy): 무질서도. 작을수록 좋음.
    • 카이제곱 통계량: p-value가 작을수록 좋음.

앙상블 (Ensemble) 기법 비교

아래 표의 내용을 구분하는 것은 3과목 고득점의 핵심입니다.

구분배깅 (Bagging)부스팅 (Boosting)랜덤 포레스트 (Random Forest)
핵심 원리복원 추출(Bootstrap) 후 병렬 학습오답에 가중치를 주어 순차 학습배깅 + 변수 무작위 선택
대표 알고리즘Random Forest의 기본 원리AdaBoost, XGBoost, GBMRandom Forest
특징분산(Variance) 감소 효과편향(Bias) 감소 효과, 과적합 주의배깅보다 성능 우수, 해석 어려움

9. 군집 분석 (Clustering): 비지도 학습

정답(Label)이 없는 데이터에서 패턴을 찾는 군집 분석입니다.

계층적 군집 vs 비계층적 군집

  • 계층적 군집: 덴드로그램(Dendrogram)으로 시각화 가능. 거리 측정 방식(최단, 최장, 평균, 와드 연결법 등)이 출제 포인트.
  • 비계층적 군집 (K-means):
    • K(군집 수)를 미리 정해야 함.
    • 거리 기반이므로 이상치에 민감함.
    • 초기 중심값(Seed) 위치에 따라 결과가 달라짐.

거리 측도

  • 유클리드 거리: 가장 일반적인 직선 거리.
  • 맨하탄 거리: 격자 거리 (직각 이동).
  • 마할라노비스 거리: 공분산(상관관계)을 고려한 거리.

10. 모형 평가 지표 (혼동 행렬과 ROC 커브)

분류 모델이 얼마나 잘 맞췄는지를 평가하는 지표입니다. 계산 문제가 반드시 나옵니다.

혼동 행렬 (Confusion Matrix)

TP, FN, FP, TN의 위치를 정확히 파악해야 합니다.

  • 정확도 (Accuracy): 전체 중 정답을 맞춘 비율. $(TP + TN) / (TP + FN + FP + TN)$
  • 정밀도 (Precision): 모델이 True라고 예측한 것 중 실제 True인 비율. $TP / (TP + FP)$
  • 재현율 (Recall/Sensitivity): 실제 True인 것 중 모델이 True라고 맞춘 비율. $TP / (TP + FN)$
  • F1-Score: 정밀도와 재현율의 조화 평균. $2 * (Precision * Recall) / (Precision + Recall)$

R 코드 예시: 혼동 행렬 계산을 위한 caret 패키지 활용

실제 시험에서는 caret 패키지의 결과값이 텍스트로 주어지고 해석하라는 경우가 많습니다.

library(caret)

# 실제값(Reference)과 예측값(Prediction) 예시
actual <- as.factor(c("Yes", "No", "Yes", "Yes", "No", "No"))
pred <- as.factor(c("Yes", "No", "No", "Yes", "Yes", "No"))

# 혼동 행렬 생성
cm <- confusionMatrix(pred, actual)

# 결과 해석의 포인트
# 1. Confusion Matrix and Statistics 표 확인
# 2. Accuracy 수치 확인
# 3. Sensitivity(민감도)와 Specificity(특이도) 확인

ROC 커브와 AUROC

  • X축: 1 – 특이도 (FPR)
  • Y축: 민감도 (TPR)
  • AUC (Area Under Curve): 곡선 아래의 면적. 1에 가까울수록 좋은 모델이며, 0.5 이하는 쓸모없는 모델입니다.

마무리하며: 기출문제 풀이 전략

ADSP 시험은 문제은행 방식의 성격이 강합니다. 위에서 언급한 TOP 10 개념은 매 시험마다 형태만 조금씩 바뀌어 출제됩니다. 이론을 완벽하게 파고들기보다는, 기출문제를 풀면서 위의 개념들이 어떤 ‘오답 보기’로 변형되어 나오는지 패턴을 익히는 것이 단기 합격의 지름길입니다.

특히 3과목의 R 코드 문제와 통계 계산 문제는 눈으로만 보지 말고, 손으로 직접 공식을 써가며 계산해보는 연습이 필요합니다. 여러분의 ADSP 합격을 진심으로 응원합니다.

관련 글 보기