강의 노트에 비용함수 J(k, t_k)는 각 노드에서 지니 불순도를 최소화하는 방향으로 최적의 특성과 임곗값을 탐색합니다. 그런데 이 과정은 각 노드에서 현재 가장 좋은 분할만을 선택하고 이후의 분할에 대한 영향을 고려하지 않은 '탐욕 알고리즘'이기 때문에 불순도를 낮추는 데만 집중해서 트리가 과도하게 복잡해지는 문제가 발생할 수도 있을 것 같습니다.
여기서 단순히 하이퍼 파라미터인 max_depth를 설정하여 트리 깊이 자체를 강제로 제한하는 방식과 비용함수 J가 탐색하는 '불순도 감소량' 자체가 일정 수준 이하일 때 분할을 멈추게 하는 방식 중 탐욕 알고리즘의 한계를 보완하고 일반화 성능을 높이는데 있어 어떤 방식이 더 좋을지 궁금합니다.
강의 노트에 비용함수 J(k, t_k)는 각 노드에서 지니 불순도를 최소화하는 방향으로 최적의 특성과 임곗값을 탐색합니다. 그런데 이 과정은 각 노드에서 현재 가장 좋은 분할만을 선택하고 이후의 분할에 대한 영향을 고려하지 않은 '탐욕 알고리즘'이기 때문에 불순도를 낮추는 데만 집중해서 트리가 과도하게 복잡해지는 문제가 발생할 수도 있을 것 같습니다.
여기서 단순히 하이퍼 파라미터인 max_depth를 설정하여 트리 깊이 자체를 강제로 제한하는 방식과 비용함수 J가 탐색하는 '불순도 감소량' 자체가 일정 수준 이하일 때 분할을 멈추게 하는 방식 중 탐욕 알고리즘의 한계를 보완하고 일반화 성능을 높이는데 있어 어떤 방식이 더 좋을지 궁금합니다.