Active learning + Auto labeling


Technology-Toolkit-2021-02.Auto-Labeling.pdf

  1. Active Learning으로 데이터 샘플을 실제 데이터 셋과 유사하게 구축 : Active learning을 통해서, 얼마나 더 잘 모델을 학습하는지에 따라서, Auto Labeling의 성능도 좌우

2. 데이터 샘플을 실제 데이터 셋과 유사하게 구축 후, Auto Labeling을 통해, 데이터 셋 확보

Auto labeling 의 문제점

"확신을 가지는 데이터를 레이블링 한다."는 빠르게 많은 레이블링을 할 수 있지만,

- 공부로 예를 들면 : 푼 문제만 계속 공부한 수험생이, 수능에서 높은 점수를 받기란 어렵습니다.

잘 못된 레이블링의 기준으로, 데이터를 레이블링 → 틀린 데이터를 모델이 더 많이 학습 → 악순환 반복

Active learning의 문제점

- 결국 사람이 레이블링 해야 되기 때문에, 많은 데이터셋을 레이블링 하기에는 비용이 발생

참고자료