본문 바로가기

머신러닝

(4)
Python에서 Jupyter Notebook을 통해 머신러닝하기 : Clustering편 K-평균 군집화(K-means Clustering)를 이용한 비지도 학습 구현K-평균 군집화는 데이터를 K개의 군집으로 나누는 비지도 학습 알고리즘입니다. 이 알고리즘은 각 군집의 중심을 기준으로 데이터 포인트들을 가장 가까운 군집에 할당하는 방식으로 작동합니다. 이번 포스트에서는 scikit-learn 라이브러리를 사용하여 K-means를 구현하고, 아이리스(Iris) 데이터셋에 적용해보겠습니다. 1. 필요한 라이브러리 임포트먼저 필요한 라이브러리들을 임포트합니다.  2. 데이터 준비아이리스 데이터셋을 로드하고 특성(X)과 타겟(y)으로 분리합니다.  3-1. 데이터 전처리인코딩 (Encoding)필요 여부: 불필요이유: 아이리스 데이터셋의 특성은 이미 숫자형 데이터입니다. 타겟 변수는 이미 숫자로 인..
Python에서 Jupyter Notebook을 통해 머신러닝하기 : Classfication편 K-최근접 이웃(K-NN) 알고리즘을 이용한 머신러닝 구현K-최근접 이웃(K-Nearest Neighbors, K-NN) 알고리즘은 분류와 회귀에 모두 사용될 수 있는 간단하면서도 효과적인 머신러닝 알고리즘입니다. 이 알고리즘은 새로운 데이터 포인트의 클래스나 값을 예측할 때, 주변의 K개의 가장 가까운 이웃들의 정보를 활용합니다. 이번 포스트에서는 scikit-learn 라이브러리를 사용하여 K-NN을 구현하는 방법을 단계별로 알아보겠습니다.1. 필요한 라이브러리 임포트먼저 필요한 라이브러리들을 임포트합니다.  2. 데이터 준비아이리스 데이터셋을 로드하고 특성(X)과 타겟(y)으로 분리합니다.이 데이터프레임은 아이리스 꽃의 특성(sepal length, sepal width, petal length, ..
Python에서 Jupyter Notebook을 통해 머신러닝하기 : Regression편 Linear Regression은 머신러닝의 기본적인 알고리즘 중 하나로, 데이터의 선형 관계를 모델링하는 데 사용됩니다. 이번 포스트에서는 scikit-learn 라이브러리를 사용하여 Linear Regression을 구현하는 방법을 단계별로 알아보겠습니다.  1. 필요한 라이브러리 임포트먼저 필요한 라이브러리들을 임포트합니다.  2. 데이터 준비 예제 데이터를 생성하거나 실제 데이터셋을 로드합니다. 여기서는 간단한 예제 데이터를 생성해보겠습니다. 3. 데이터 전처리 1. NaN값 처리  - 현재 데이터에는 NaN 값이 없지만 NaN값인 데이터가 존재할 경우 dropna() 혹은 fillna()로 NaN값 처리를 해줘야 합니다. 2. X와 y값으로 분리 - X는 예측에 필요한 값, y는 예측해야하는 값..
Python 데이터 분석 1. 소개파이썬은 데이터 분석을 위한 도구로 널리 사용되고 있습니다. 다양한 라이브러리와 풍부한 기능을 제공하여 데이터 처리, 시각화, 통계 분석 등을 효과적으로 수행할 수 있습니다. 이 글에서는 파이썬을 이용한 주요 데이터 분석 기법과 관련 라이브러리에 대해 알아보겠습니다. 2. 데이터 시각화: Matplotlib 및 Seaborn 데이터 시각화는 분석 결과를 효과적으로 전달하는 데 중요한 역할을 합니다. Matplotlib은 기본적인 그래프 작성을 위한 라이브러리이며, Seaborn은 통계적 데이터 시각화에 특화되어 있습니다. 특징:다양한 차트 및 그래프 유형 지원사용자 정의 가능한 스타일과 색상통계 모델의 시각화 기능 (Seaborn)3. 통계 분석: SciPy 및 StatsmodelsSciPy와 ..