Skip to content

(최*연) (강의노트 5장) CART 비용함수와 하이퍼파라미터 #158

@choigiyeon

Description

@choigiyeon

강의 노트에 비용함수 J(k, t_k)는 각 노드에서 지니 불순도를 최소화하는 방향으로 최적의 특성과 임곗값을 탐색합니다. 그런데 이 과정은 각 노드에서 현재 가장 좋은 분할만을 선택하고 이후의 분할에 대한 영향을 고려하지 않은 '탐욕 알고리즘'이기 때문에 불순도를 낮추는 데만 집중해서 트리가 과도하게 복잡해지는 문제가 발생할 수도 있을 것 같습니다.

여기서 단순히 하이퍼 파라미터인 max_depth를 설정하여 트리 깊이 자체를 강제로 제한하는 방식과 비용함수 J가 탐색하는 '불순도 감소량' 자체가 일정 수준 이하일 때 분할을 멈추게 하는 방식 중 탐욕 알고리즘의 한계를 보완하고 일반화 성능을 높이는데 있어 어떤 방식이 더 좋을지 궁금합니다.

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions