통계&데이터분석

[데이터 분석] 피처 엔지니어링 (Feature Engineering)

도도o 2024. 12. 15. 21:36

 

 

피처 엔지니어링

피처 엔지니어링은 머신러닝 모델링의 첫 번째 단계로, 원시 데이터(raw data)에서 유용한 특징(Feature)를 추출하는 과정이다. 이 과정을 통해 생성된 데이터셋을 기반으로 모델을 학습시키게 되며, 모델이 이해할 수 있는 형태로 데이터를 변환하고 예측 성능을 높이는 것을 목표로 한다.

 

 

 

피처 엔지니어링의 중요성

피쳐 엔지니어링은 모델의 성능을 결정짓는 중요한 역할을 한다. 적절한 피처 선택과 가공 방법에 따라 모델의 예측 능력이 달라질 수 있다. 모델이 데이터 패턴을 더 잘 이해하고 학습할 수 있도록 적절한 기법을 사용하여야 한다.

 

 

 

피처 엔지니어링의 종류

1. Scaling

2. 결측값 처리

3. 피처 생성

4. 피처 선택

5. 변수 변환

6. 데이터 바이닝, 비닝 (Binning)

 

 

1. Scaling

주로 사용하는 스케일링 기법은 표준화(Standatdization)와 Min-Max scaling이 있다.

 

2. 결측값 처리

결측값을 처리하는 방법은 평균 대체, 최빈값 대체 등이 있다. 또한, 머신러닝 알고리즘(knn, 회귀, 트리) 을 활용해 결측값을 처리할 수도 있다.

 

3. 피처 생성 (Feature Generation)

기존 피처를 바탕으로 새로운 피처를 생성한다. 예를 들어, 특정 그룹이나 기간에 대한 합계, 평균, 건수를 피처로 생성할 수 있다.

 

4. 피처 선택 (Feature Selection)

사전 도메인 지식을 활용하거나, 변수 선택 알고리즘을 이용하여 중요한 피처를 선택한다. 또한, 모델을 사용하여 각 피쳐의 중요도를 평가하고, 이를 기반으로 변수를 선택할 수 있다.

 

5. 변수 변환 (Feature Transformation)

연속형 변수에 로그 변환(log transformation) 등을 적용하여 데이터의 분포를 정규화하기도 한다. 오른쪽 꼬리가 긴 분포에 대하여, 큰 숫자를 작은 숫자로 만들어주고, 첨도와 왜도를 줄여 모델 학습에 도움이 되도록 한다.

 

6. 비닝 (Binning)

비닝은 연속형 데이터를 구간화하여 비슷한 값들을 그룹으로 묶는 방식이다. 이를 통해, 과적합을 방지하고 결과 해석을 쉽도록 만들 수 있다. 일반적으로 연속형 데이터에서 사용하나 범주형 데이터에서도 관찰값이 적은 데이터를 묶어 학습에 용이하도록 보완할 수 있다.

 

 

 

피처 엔지니어링 적용

다양한 기법을 변수에 적용하여보고, 모델링을 통해 그 효과를 검증하게 된다. 그 이유는, 데이터의 특성이나 분포에 따라 적용할 수 있는 방식은 달라지기 때문이다. 이러한 검증 과정으로 가장 적합한 기법을 선택할 수 있다.

이를 위해, 피처 엔지니어링을 수행하기 전에 시각화를 통해 데이터를 파악하고 적절한 기법을 선택하기도 한다.

 

 

 

 

 

 

 

  •  출처 및 참고한 자료
 

[박정현의 데이터사이언스 시작하기] ⑤ 피처 엔지니어링 (1) - AI타임스

지난 글에서 데이터를 이해하고 분석하는 방법에 대한 아이디어를 얻을 수 있는 데이터 시각화와 데이터 탐색 과정을 살펴봤다. 이번 시간은 데이터 사이언스의 꽃이라 할 수 있는 \'피처 엔지

www.aitimes.com

 

피처 엔지니어링(Feature engineering) 방법, 단계별 종류 및 특징

위키독스에 따르면 피처 엔지니어링(Feature Engineering)이란 기존 데이터를 손보아 더 나은 변수를 만드는 기법으로 소개합니다. Feature engineering을 번역하면 특성 공학이라고도 하죠. 우리가 흔히

bommbom.tistory.com

 

머신러닝-피처 엔지니어링의 종류

데이터를 설명하고 예측을 수행하는 데 사용되는 입력 변수.피처들은 일반적으로 수치이나, 그래프와 같은 자료 구조적인 피처들도 있다.데이터는 값의 형태에 따라 수치형 데이터와 범주형 데

velog.io

 

피처 엔지니어링 (Feature Engineering)이란 무엇일까?

피처 엔지니어링은 머신러닝 알고리즘이 작동하기 위해 데이터에 대한 도메인 지식을 활용하여 특징(Feature)을 만들어내는 과정입니다. 기존 입력 데이터를 기반으로 새로운 입력 데이터를 생성

revieworlds.com