배깅
여러개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측 모형을 만든 후 결합하여 최종 예측 모형을 만드는 방법
붓스트랩은 주어진 자료에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료
보팅은 여러개의 모형으로 부터 산출된 결과를 다수결에 의해서 최종결과를 선정
배깅에서는 가지치기를 하지 않고 최대로 성장한 의사결정 나무들을 활용
훈련 자료를 모집단으로 생각하고 평균예측모형을 구하여 분산을 줄이고 예측력을 향상시킬수 있다.
부스팅
예측력이 약한 모형들을 결합하여 강한 예측 모형을 만드는 방법
Adaboost는 이진 분류 문제에서 랜덤 분류기보다 조금 더 좋은 분류기 n개에 각각 가중치를 설정하고 n개의 분류기를 결합하여 최종분류기를 만드는 방법 제안
랜덤포레스트
배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종학습기를 만드는 방법
의사결정나무 알고리즘
1. CART : 가장 많이 활용되는 의사결정나무 알고리즘으로 불순도의 측도로 출력, 변수가 범주형일 경우 지니지수를 이용, 연속형인 경우 분산을 이용한 이진분리를 사용
2. C4.5 C5.0 : CART와 다르게 각 마디에서 다지분리가 가능하며 범주형 입력변수에 대해서는 범주의 수만큼 분리가 일어난다.
3. CHAID : 가지치기를 하지 않고 적당한 크기에서 나무모형의 성장을 중지하며 입력변수가 반드시 범주형 변수여야 한다. 불순도 측도로는 카이제곱 통계량을 사용한다.
연속형 변수 거리
1. 유클리디안 거리
2. 표준화 거리
3. 마할라노비스 거리
4. 쳬비셰프 거리
5. 맨하탄 거리
6. 캔버라 거리
7. 민코우스키 거리
범주형 변수 거리
1. 자카드 거리
2. 자카드 계수
3. 코사인 거리
4. 코사인 유사도
계층적 군집분석
계층적 군집 방법은 n개의 군집으로 시작해 점차 군집의 개수를 줄여 나가는 방법
합병형 방법
1. 최단연결법
2. 최장연결법
3. 평균연결법
4. 와드연결법
비계층적 군집분석
가. k-평균 군집분석 : 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작
- 연속형 변수에 활용가능함
- 초기 중심값의 선정에 따라 결과가 달라질 수 있다.
자가 조직화 지도(SOM)
자가조직화지도 알고리즘은 코호넨에 의해 제시, 개발되었으며 코호넨 맵이라고도 알려져있다.
비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬
역전파 알고리즘을 사용하는 인공신경망과 달리 단 하나의 전방 패스를 사용함으로써 속도가 매우 빠르다.
Apriori 알고리즘
최소지지도 보다 큰 지지도 값을 가지는 품목의 집합을 빈발항목집합이라고 한다. 최소 지지도 이상의 빈발 항목 집합을 찾은 후 그것들에 대해서만 연관규칙을 계산하는 것 아이템 수가 많아지면 계산 복잡도가 증가하는 문제점을 가지고 있다.
FP-Growth 알고리즘
Apriori 알고리즘 약점을 보완하기 위해 고안된 것
'adsp' 카테고리의 다른 글
ADSP PART 2. 데이터 분석 기획 요약 정리 (0) | 2020.08.28 |
---|---|
ADSP PART 1. 데이터의 이해 요약 정리 (0) | 2020.08.28 |