본문 바로가기

Data Analysis/Deep Learning

Intra-class Variability / Inter-class Variability

딥러닝은 Feature Learning이다. Feature를 스스로 찾아주지만, 많은 데이터를 필요로 한다. 최대한 좋은 피쳐를 찾아서 데이터 셋을 구성해야 효율이 올라간다.

 

- Intra-class Variability: 개별 Class의 분산

- Inter-class Variability: Class 간의 분산

Classification의 성능이 가장 높게 나오는 경우는 1,1 배열에 있는 경우이다. 일반적인 Real Data는 2,2 배열에 있는 경우와 같이 각 데이터의 필드가 섞여있다. 모델의 목적에 따라 Inter-class Variability는 작고, Intra-class Variability는 큰 데이터 셋으로 정돈하여 Input을 만들어주는 것이 중요하다.

 

 

예시)

성적(Y)를 예측하라.

X: 키, 몸무게, 사교육, IQ, 부모의 소득, 형제 유무, 형제의 성적, 여자친구 유무, 인터넷 사용시간, 모바일 사용시간, 게임 접속시간, 월간 소비금액, 싸움 순위, 외모 순위, 신발 사이즈, 주거 형태 등등...

 

이런 경우, High Dimensional Vector로 이루어진 데이터셋의 경우 데이터 사이즈가 커야한다.

 

feature selection과 feature extraction을 통해 데이터를 정제하는 과정이 꼭 필요하다.

 

Reference

Terry's Deep Learning Talk

'Data Analysis > Deep Learning' 카테고리의 다른 글

Keras / Sequential Model vs Functional Model  (0) 2024.05.19
Long Short-Term Memory(LSTM)  (0) 2024.05.11
Recurrent Neural Network(RNN)  (0) 2024.05.11
딥러닝과 머신러닝  (0) 2024.05.11