데이터 프로젝트/송도 국제도시 아파트 실거래가 분석

[3] 데이터 전처리 및 기초 통계 분석

항해사.K 2025. 3. 26. 02:26

1. 데이터 소개

앞선 글에서는 송도 국제도시 아파트 매매 실거래가 분석을 위한 다양한 데이터를 수집하고 분석 가능한 형태로 정제하는 과정을 다루었습니다.이제 이상치, 로그 변환 필요 여부 등 모델링을 위한 전처리 요소를 점검하고자 합니다. 이러한 작업은 이후에 진행할 시각적 탐색과 예측 모델링 과정에서 더욱 신뢰할 수 있는 결과를 얻기 위한 항로 탐색 전의 해도 점검이라 할 수 있습니다.🌊

그 전에 우선 아파트 거래 데이터의 기초 통계량과 전처리 작업을 통해 전반적인 분포와 특성을 먼저 파악하고자 합니다. 주요 변수들의 평균, 중앙값, 최대·최소값 등 요약 통계량을 기반으로 송도 아파트 시장의 구조적 특성을 살펴봅시다.


2. 데이터 전처리

분석의 정확도를 높이기 위해서는 수집된 데이터를 있는 그대로 사용하기보다는 분석 목적에 맞게 정리하고 정제하는 과정이 필요합니다. 이번 단계에서는 이상치 제거, 단위 정리 및 변환 등의 전처리 작업을 체계적으로 진행합니다. 

1) 데이터 칼럼 설명

본문에서는 수집한 데이터 중에서도 중심이 되는 아파트 매매 실거래 데이터를 분석합니다. 해당 데이터는 거래 금액, 전용면적, 층수, 건축연도 등 가격 결정에 영향을 줄 수 있는 주요 변수를 포함하고 있으며, 이러한 변수들이 어떻게 구성되어 있는지를 먼저 살펴보겠습니다. 아래는 분석에 활용되는 주요 변수와 그에 대한 설명입니다.

지난 글에서 수집하였던 아파트 매매 실거래가 데이터 칼럼명을 다시 한 번 소개합니다. 필터를 통해 '송도동'에 위치한 아파트만을 추출하였습니다.

컬럼명 컬럼 설명
umdNm 아파트가 위치한 읍/면/동
jibun 아파트가 위치한 지번
aptNm 아파트 이름
excluUseAr 전용면적(㎡), 공급면적이 아닌 실제 거주 가능한 면적
dealDate 아파트 거래일자
dealAmount 아파트 실거래가 (단위: 만 원)
pricePerpy 평당 거래가 (단위: 만 원). 1평 ≒ 약 3.3㎡ 기준으로 환산
floor 거래된 세대의 층수
buildYear 건축년도. 아파트가 준공된 연도
year_month 거래 발생 연도 및 월. 예) 2020.02는 2020년 2월
rent_conversion_rate 전월세 전환율. 전세를 월세로 환산할 때의 비율
full_address 아파트 전체 주소
latitude 아파트 위치 좌표 (위도). 지도 시각화 등에 사용
longitude 아파트 위치 좌표 (경도). 지도 시각화 등에 사용
year 아파트 거래 연도

2) 전체 수치형 데이터 분포 확인

분석에 사용할 수치형 칼럼만 선택하여 시각화하여 분포를 파악했습니다.주요 관심 변수인 dealAmount(매매가격), pricePerpy(평당가)가 오른쪽 꼬리가 긴 비대칭 분포를 보입니다. 이는 일부 고가 거래가 평균과 같은 통계치에 왜곡된 영향을 줄 가능성을 의미합니다.

수치형 데이터 분포


3) 이상치 제거 전 매매가격 분포 분석

분석에서 가장 핵심적인 변수인 dealAmount(거래가격)을 기준으로 IQR(사분위수 범위) 기반의 이상치 제거를 적용하기 전 히스토그램과 박스플롯을 통해 분포를 확인하였습니다.

이상치 처리 기준에 따른 박스플롯

IQR 방식은 중간 50%(Q1 ~ Q3)에 해당하는 범위를 기준으로, 일반적으로 Q1 -1.5×IQR 보다 작거나 Q3 +1.5×IQR보다 큰 값을 이상치로 간주합니다. 그러나 데이터 특성에 따라 1.5배 기준이 반드시 최적인 것은 아닙니다.

 

IQR 방식은 일정 기준을 넘어서는 값을 이상치로 분류하지만 시장 자체에서 형성된 고가 매물은 자동으로 제거되지 않습니다. 또한, 송도 국제신도시에 초고가 아파트가 존재하기 때문에 이들을 무조건 이상치로 처리하는 것은 적절하지 않을 수 있습니다.  이상치 기준을 2배 또는 3배로 상향하여 고가 매물을 더 많이 포함시키거나, 보수적으로 1.5배 기준을 유지하는 등 기준 유연하게 조절할 수 있습니다. 이에 기준을 모두 비교하여 가장 적절한 방법을 탐색했습니다.

 

그 결과, 1.5배 기준이 극단적인 이상치를 효과적으로 제거하면서도 전체 분포의 왜곡 없이 대표값을 잘 유지하는 것으로 확인되어, 본 분석에서는 1.5 ×IQR 기준을 활용하여 이상치를 제거하였습니다.


3) 이상치 제거 후 데이터 분포 변화

IQR 방법(1.5배 기준)을 이용한 이상치 제거 이후, 데이터 분포를 재확인한 결과 극단적인 고가 거래가 대부분 제거되면서 분포가 정규분포와 비슷한 형태로 변화하였습니다. 다만, 여전히 오른쪽으로 긴 꼬리를 가진 비대칭 형태(우측 왜도)가 관찰되었습니다. 일반적으로 이와 같은 분포는 추후 회귀분석과 같은 통계 모델 적용 시 정규성이나 등분산성 가정을 위반할 위험이 있습니다. 이에 추가적인 처리가 필요하다고 판단하여 로그변환을 진행하였습니다.

IQR 방법을 활용한 매매 가격 이상치 제거 전후 비교

4) 로그 변환을 통한 분포 안정화

IQR을 활용해 이상치를 제거한 후, 남은 데이터에 로그 변환을 적용하였습니다. 이는 실제 거래 패턴을 보다 더 잘 반영하여 로그 변환 시 극단치가 미치는 왜곡 효과가 줄어들고, 데이터의 비대칭성이 더욱 효과적으로 개선되어 정규분포에 가깝게 만드는데 유용합니다.  

분포의 비대칭성을 완화하고 통계적 가정을 만족시키기 위해, 매매가격 데이터에 로그 변환(np.log1p)을 적용하였습니다. 로그 변환 후 히스토그램과 박스플랏을 확인한 결과, 데이터가 보다 안정적이고 정규분포에 가까워졌음을 관찰할 수 있습니다. 실제 이상치 제거 전과 비교하면 박스플롯의 범위가 좁아지고, 중위값이 더욱 신뢰할 수 있는 수준으로 조정되었음을 볼 수 있습니다. 대략 6억원 전후를 중심으로 분포가 형성되었고, 극단적으로 높은 값에 의한 왜곡 효과가 줄어들었습니다.

 

분포를 보았을 때 로그 변환을 통해 정규성 가정에 근접하였고, 극단치 제거로 데이터 분포가 안정화됨에 따라 선형 회귀, 트리기반 모델 등 다양한 머신러닝 알고리즘 적용 시 예측 성능 향상을 기대할 수 있습니다. 또한, 안정적인 분포는 통계적 가정(정규성, 등분산성 등)을 충족하는데 도움을 주어 분석 결과의 신뢰성을 높이는 효과가 있습니다.


5) 전처리 과정 정리

IQR 기반으로 이상치를 제거한 후 로그 변환을 적용함으로써 원래 극단치가 많았던 매매가격 데이터를 보다 안정적이고 분석하기에 적합한 형태로 전처리할 수 있었습니다.

일부 초고가 거래는 여전히 이상치로 남아있지만 이는 시장 내 자연스러운 고가 매물일 가능성이 높아 해당 거래 데이터는 유지하는 것으로 정리하였습니다.


3. 데이터 통계 분석

1) 개요

잘 정제된 데이터를 이제 칼럼별로 하나하나 분석해보도록 하겠습니다. 해당 과정을 통해 각 칼럼이 어떤 형태를 갖고 있는지 확인하여 추후 탐색적 데이터 분석(EDA)에 도움이 될 수 있는 인사이트를 얻고자 합니다.


2) 데이터 통계 분석

아파트 매매 실거래 데이터를 apt_df 라는 변수로 불러온 후 수치형 데이터의 통계 결과를 살펴보았습니다.

아파트 매매 실거래 데이터 통계 결과

주요 수치형 변수는 excluUseAr(전용면적, m2), dealAmount(실거래가), pricePerpy(평당가), floor(층), buildYear(건축연도), rent_conversion_rate(전월세전환율), latitude(위도), longitude(경도) 입니다. 이에 대한 통계 결과를 보았을 때 다음과 같이 해석할 수 있습니다.


1️⃣ excluUserAr (전용면적, m2)

전용면적의 평균은 약 96.93m2(약 29.3평)으로 나타났으며, 중앙값은 84.96m2(약 25.7평)

입니다. 송도의 아파트 거래에서 25 ~ 30평대 중형 아파트가 주류를 이룬다는 것을 의미합니다. 최소값은 32.46m2로 1 ~ 2인 가구용소형 평형, 295.71m2로 초대형 고급 평형까지 포함되어 있습니다. 이에 송도는 실수요가 중형아파트 중심이고, 일부 고급형 아파트에 대한 투자 수요가 공존하는 시장으로 볼 수 있습니다.


2️⃣ dealAmount (실거래가, 만원 단위)

평균 실거래가는 약 6.4억원, 중앙값은 5.99억원으로 확인됩니다. 두 값의 차이를 바탕으로 일부 초고가 거래(최대 45억원)가 평균값을 끌어올렸다고 추측할 수 있습니다. 실제로 송도에는 랜드마크시티 중심 고급 브랜드 아파트가 존재하며, 높은 가격에 거래되고 있습니다. 결과적으로 송도는 평균 6억원 전후의 거래가 활발하며, 일부 고가 아파트의 거래가 시장 가격 분포의 상단을 담당하고 있다 이야기 할 수 있습니다.


3️⃣ pricePerpy (평당가, 만원 단위)

평당가는 평균값 2,257만원, 중앙값 2,103만원으로, 송도 아파트의 기준 평당 단가를 확인할 수 있습니다. 최고가는 5,786만원, 최저가는 860만원으로 가격대의 편차가 심합니다. 단지 브랜드, 입지(랜드마크, 바다 뷰 여부 등), 입주연도, 평형 구성 등에 따라 결정되기 때문이라 예상됩니다.

중앙값과 평균이 비슷하다는 점에서, 평당가 기준으로는 가격 분포가 상대적으로 안정적이라고 해석할 수 있습니다. 이 컬럼은 실거래 중심 분석에 기반한 신뢰성 있는 지역 단가 지표로 활용이 가능하다 판단됩니다.


4️⃣ floor (거래된 층수)

거래된 세대의 평균 층수는 16.45층, 중앙값은 14층입니다. 언뜻 보면 송도의 아파트가 중·저층 아파트로 계획된 것이 아닐까 하는 생각이 듭니다. 그러나 최대 63층의 값이 있기에 초고층 아파트도 존재하며, 거래되는 것을 알 수 있습니다. 다만, 거래의 중심은 중층(10 ~ 20층 정도) 아파트에 집중되어 있어 아파트 층수가 높을 수록 선호하는 거주자가 많을 것이란 가설이 깨짐을 알 수 있습니다. floor 데이터는 중층을 선호하는 실제 거주 목적의 수요자가 많다는 점과 초고층 아파트의 거래빈도는 상대적으로 낮다는 점을 시사하고 있습니다.

추후 저·중 ·고층 거래가 어느 정도 비중을 차지하는지에 따라 중층 선호 정도나 층의 프리미어 존재 여부에 대한 추가 분석도 고려할 수 있습니다.


5️⃣ buildYear (건축연도)

아파트의 평균 준공 연도는 2012년, 범위는 2005년부터 2024년까지로 나타났습니다. 전체 데이터에서 90%이상이 2005년 이후 준공된 신축 또는 준신축 아파트입니다. 송도 국제도시의 마스터 플랜이 2003년 완성되고, 2005년 3월 첫 송도신도시풍림아이원 아파트 입주가 시작되었다는 배경과도 일치합니다.


6️⃣ rent_conversion_rate(전월세 전환율)

평균 전월세 전환율은 4.99%로, 대부분 4.4% ~ 6.2% 사이에 분포합니다. 특히 금리 인상기인 최근에는 5%를 넘는 모습도 보이고 있습니다. 이 값은 투자 목적 거래자의 수익률 분석 지표로도 활용이 가능하며, 시세/금리와의 상관관계를 분석하는 방향으로 사용할 수도 있습니다.


7️⃣ latitude, longitude (위도, 경도)

위경도 좌표는 송도 국제도시 전역을 포괄하는 형태로 분포되어 있어,  지도 기반 분석 (GIS)에 적합한 데이터입니다. 특히 센트럴파크, 랜드마크시티, GTX-B 예정역 등 핵심 입지와 주변 지역 간의 공간적 가격 차이를 시각적으로 비교하거나, 위치 데이터를 반영한 예측 모델링(예: 위치기반 회귀모델) 에 활용할 수 있을 것이라 생각합니다.


8️⃣  year_month

평균 거래 시점은 2019년 9월경이지만, 보다 의미 있는 인사이트를 위해서는 최근 3년(2022~2024) 간의 거래 빈도 추이에 주목할 필요가 있습니다. 예를 들어, 금리 인상기 또는 부동산 정책 변화 시점에 거래량이 감소하거나 특정 시기에 집중되는 양상을 보인다면, 이는 시장 흐름에 대한 객관적 지표로 활용될 수 있습니다. 관련 정보는 추후 EDA를 진행하면서 풀어나가도록 하겠습니다.


9️⃣ 종합적 분석

수치형 변수들은 단순한 특성 요약에 그치지 않고, 향후 예측 모델링 과정에서 핵심 입력 피처로 활용될 수 있는 구조를 가지고 있습니다.
예를 들어, 전용면적, 평당가, 층수, 건축연도, 전월세 전환율 등은 선형 회귀, 랜덤포레스트, Gradient Boosting 계열 모델 등에서 실거래가 예측에 직접적으로 기여할 수 있습니다.


🧭 마무리

이상치 제거와 로그 변환 등 일련의 전처리 과정을 통해, 송도 아파트 실거래가 데이터는 모델링에 적합한 형태로 안정화되었습니다. 이제 데이터를 기반으로 실제 시장 흐름을 시각화하고, 그 속에 숨겨진 의미 있는 구조를 해석할 단계입니다. 앞으로 이어질 EDA 단계에서는 지금까지 정제한 데이터를 바탕으로 시각적으로 시장 흐름과 변수 간 관계를 파악하고, 보다 구체적인 인사이트를 도출하는 작업을 이어가겠습니다. 

 

얼마나 왔는지, 얼마나 더 가야하는지 알 수 없는, 저 끝없는 지평선을 앞에 두고,

이 항해의 끝에 우리는 보물섬에 다다를 것이라 믿습니다.🏝️

 

다음 여정은 탐색적 데이터 분석(EDA)를 통한 송도 아파트 시장의 풍향 읽기입니다. 🍃


🚢 데이터의 바다는 넓고, 우리의 항해는 계속됩니다.

다음 여정에서 또 만나요! 😎🌊