- Active Learning 은 적은 수의 Labeled Data를 활용하여 Unlabeled Data에 대한 Annotation 을 수행 해당 데이터를 재학습 하는 과정을 통해 모델의 성능을 높이는 방법 중 하나
- Auto Labeling(자동 레이블링) : AI 모델이 높은 확신(High Confidence)을 가지는 데이터를 **자동으로 레이블링
- Active Learning(능동적 학습)** : AI 모델이 중요한 데이터를 선별(불확실성↑ or 분포고려)하여, 레이블링 요청
Active learning + Auto labeling
- Auto Labeling과 Active Learning은 상호보완적이면서, Active Learning이 선행되면 더 좋은 효과
일반적으로 Pseudo Labeling(수도 레이블링)을 사용하는 Auto-Labeling의 특성
Cost-Effective Active Learning for Deep Image Classification( arxiv.org/pdf/1701.03551.pdf)
Technology-Toolkit-2021-02.Auto-Labeling.pdf
- Active Learning으로 데이터 샘플을 실제 데이터 셋과 유사하게 구축
: Active learning을 통해서, 얼마나 더 잘 모델을 학습하는지에 따라서, Auto Labeling의 성능도 좌우
2. 데이터 샘플을 실제 데이터 셋과 유사하게 구축 후, Auto Labeling을 통해, 데이터 셋 확보
Auto labeling 의 문제점
"확신을 가지는 데이터를 레이블링 한다."는 빠르게 많은 레이블링을 할 수 있지만,
- 한 번 풀어본 문제와 유사한 문제만 주구장창 공부하는 것과 같다.
- 공부로 예를 들면 : 푼 문제만 계속 공부한 수험생이, 수능에서 높은 점수를 받기란 어렵습니다.
- 확증 편향 : 한번 틀리게 레이블링 한 Class를, Auto Labeling만 적용하게 되면 계속 틀리게 됩니다.
잘 못된 레이블링의 기준으로, 데이터를 레이블링 → 틀린 데이터를 모델이 더 많이 학습 → 악순환 반복
Active learning의 문제점
- 선별된 데이터 포인트는 사람이 레이블링 해야 함
- 결국 사람이 레이블링 해야 되기 때문에, 많은 데이터셋을 레이블링 하기에는 비용이 발생
참고자료