전이 학습과 정형 데이터

귀납 편향 (Inductive Bias)

정의: 모델이 학습하지 않은 데이터에 대해 예측하기 위해 데이터의 구조에 대해 가지는 가정.
Bias-Variance Trade-off:
- 강한 편향 (High Bias): 가정이 강함 (예: 선형 회귀는 "직선"일 것이라 가정). 데이터 변화에 둔감(분산 낮음). 작은 데이터셋에서도 잘 작동하지만 복잡한 패턴 학습 어려움.
- 약한 편향 (Low Bias): 가정이 약함. 데이터에 민감하게 반응(분산 높음). 많은 데이터가 필요하지만 복잡한 패턴 학습 가능.

전이 학습 (Transfer Learning)

개념: 대량의 데이터로 사전 학습(Pre-training)된 모델(Source)을 가져와서, 데이터가 적은 새로운 문제(Target)에 맞게 미세 조정(Fine-tuning)하여 사용하는 기법.
배경: 딥러닝 모델이 커질수록 성능은 좋지만 막대한 데이터와 비용이 필요함.
기반 모형 (Foundation Model): 다양한 작업에 적용할 수 있도록 대규모 데이터로 사전 학습된 초거대 모델 (예: GPT, BERT).

전이 학습의 방식

전체 미세 조정 (Fine-tuning): 사전 학습된 모델 전체의 가중치를 조금씩 업데이트.
특징 추출기 (Feature Extractor): 모델의 앞부분(특징 추출)은 고정하고, 뒷부분(분류기)만 새로 학습.
Zero-shot Learning: 추가 학습 없이 사전 학습된 모델을 그대로 사용.

트랜스포머 (Transformer)

특징:
- Attention Mechanism: 입력 데이터 내의 모든 관계를 고려.
- 위치 인코딩 (Positional Encoding): 순서 정보가 없는 구조에 위치 정보를 더해줌.
- CNN(국소적 특징 가정)이나 RNN(순차적 특성 가정)에 비해 귀납 편향이 매우 적음.
- 따라서 매우 많은 데이터가 있어야 잘 학습됨 (예: ChatGPT).

정형 데이터 (Tabular Data) 학습

이미지/텍스트와 달리 표(Tabular) 데이터에서는 여전히 트리 기반 모델(XGBoost 등)이 강세.
딥러닝이 표 데이터에서 약한 이유:
1. 매끄러운 함수 편향: 신경망은 매끄러운 결정 경계를 선호하지만, 표 데이터는 불연속적인 경우가 많음.
2. 무정보 특징 (Uninformative Features): 표 데이터에는 의미 없는 특징이 섞여 있을 수 있는데, 신경망은 이에 취약함.
3. 회전 불변성 (Rotation Invariance): 신경망은 데이터를 회전시켜도 잘 작동하지만, 표 데이터는 축(특징) 자체가 고유한 의미를 가져서 회전하면 정보가 손실됨.

TabPFN

표 데이터를 위한 Transformer 기반 모델.
학습 방식 (Prior-Data Fitted Network): 실제 데이터가 아닌, 다양한 인공적인(Synthetic) 데이터 분포를 사전에 대량으로 학습함.
장점: 별도의 학습 과정 없이(In-context Learning) 즉시 예측 가능하며, 성능이 우수함.
실습:

# !pip install tabpfn
from tabpfn import TabPFNClassifier

# 모델 생성 (사전 학습된 모델 로드)
clf = TabPFNClassifier(device='cpu', N_ensemble_configurations=32)

# 학습 (실제로는 데이터를 저장해두는 과정에 가까움)
clf.fit(X_train, y_train)

# 예측
y_pred = clf.predict(X_test)

Previous: 2일차 복습
Next: 추정