(장*우) (강의노트 5장) 불균형 데이터 결정 트리 학습

결정 트리는 지니 불순도나 엔트로피를 낮추는 방향으로 데이터를 분할하며 학습한다고 배웠습니다. 그런데 만약 훈련 세트에서 특정 클래스의 샘플 수가 다른 클래스에 비해 압도적으로 많은 경우(데이터가 한쪽으로 쏠려 있는 경우), 모델이 불순도를 낮추기 위해 단순히 샘플이 많은 클래스 위주로만 노드를 분할하게 될 위험은 없는지 궁금합니다.

이런 현상이 모델의 결정 경계를 왜곡하거나 과대적합을 유발하여, 실제 테스트 세트에서의 일반화 성능을 떨어뜨리지는 않는지, 그리고 교재에 나온 하이퍼파라미터 조절만으로도 이런 쏠림 현상을 충분히 제어할 수 있는 것인지 알고 싶습니다.