데이터 프로젝트/송도 국제도시 아파트 실거래가 분석

[4] 탐색적 데이터 분석(EDA)

항해사.K 2025. 4. 1. 00:25

1. 탐색적 데이터 분석 개요 (EDA)

🛳️ 부동산 가격은 단순히 공급과 수요의 법칙만으로 설명되기 어렵습니다. 특히 신도시이자 첨단기술·업무 중심지로 개발되고 있는 송도 국제도시는 교통, 입지, 브랜드, 시기 등 다양한 요소들이 가격에 영향을 미치고 있습니다.

이번 분석에서는 2015년부터 2024년까지의 실거래 데이터를 기반으로 송도 국제도시 아파트 매매 시장을 심층적으로 살펴보았습니다. 수치형 변수 간 상관관계, 주요 변수와 매매가격의 상세 관계, 공구 및 브랜드 등 범주형 요소의 영향, 시계열 흐름까지 단계별로 탐색적 데이터 분석(EDA)을 수행하였으며, 이를 통해 송도 아파트 시장의 구조와 가격 형성 메커니즘을 다각도로 이해하고자 하였습니다.

1) 수치형 변수 간 상관관계 분석

수치형 변수간 상관관계를 나타낸 히트맵

송도 국제도시 아파트의 매매가격과 주요 수치형 변수들의 상관관계를 분석했습니다. 그 결과, 아파트의 실제 거래금액과 로그 변환된 매매가격(log_dealAmount)은 0.98로 매우 강력한 양의 상관성을 보였습니다. 즉, 로그 변환 후에도 원래의 거래금액과 밀접한 관계가 유지되고 있음을 의미합니다.

 

다음으로 중요한 변수는 평당가격(pricePerpy)으로, 상관계수는 0.65였습니다. 이는 아파트 매매가격이 대부분 평당가격을 중심으로 결정된다는 것을 시사합니다. 이 외에도 전용면적(excluUseAr, 0.32)과 건축년도(buildYear, 0.32)가 중간 수준의 양의 상관성을 보였는데, 이는 면적이 넓거나 최근에 건축된 아파트일수록 가격이 높아지는 경향을 의미합니다.

 

한편, 층수(floor, 0.22)와 전월세 전환율(rent_conversion_rate, 0.22)은 상대적으로 낮은 상관성을 나타내 가격 결정에 미치는 영향이 제한적임을 알 수 있습니다. 위치를 나타내는 위도(latitude, 0.03)와 경도(longitude, -0.24)의 경우도 상관성이 약했지만, 송도의 동서 위치 차이가 일부 가격 차이를 만들 수 있다는 가능성을 보여줍니다.


2) 주요 변수와 매매가격의 상세 분석

다음으로, 주요 변수와 매매가격의 산점도를 통해 각 변수들의 관계를 보다 면밀히 살펴보았습니다.


평당가격(pricePerpy)은 매매가격과 가장 명확한 양의 관계를 보였습니다. 평당가격이 높아질수록 매매가격도 뚜렷하게 상승하는 모습을 보이며, 평당가격이 가격 형성의 핵심 요소라는 점을 다시 한번 확인할 수 있었습니다.


전용면적(excluUseAr) 대체로 넓은 면적일수록 가격이 상승하는 경향이 있음을 확인하였습니다. 다만, 같은 면적 내에서도 분산이 존재하여 아파트의 입지나 추가 특성이 가격 결정에 함께 작용하고 있음을 시사했습니다.



건축년도(buildYear)는 최근 지어진 아파트일수록 매매가격이 높은 편이었으나, 뚜렷한 선형 관계는 아니었습니다. 이는 건축년도가 중요한 변수이기는 하지만 아파트의 관리 상태, 입지 조건 등 다양한 요인이 복합적으로 작용하기 때문으로 보입니다.


송도 국제도시 아파트 매매가격과 위치(위도latitude·경도longitude)의 관계를 분석한 결과, 위도(남북 방향)는 가격과 뚜렷한 관계가 없었지만, 경도(동서 방향)는 명확한 영향을 주고 있었습니다. 특히 송도의 동쪽 지역일수록 아파트 매매가격이 높아지는 경향이 있었으며, 이는 바다와의 근접성, 주요 상권 및 편의시설이 집중된 입지 특성이 반영된 결과입니다. 따라서 향후 가격 예측 모델이나 입지 가치 평가 시에는 위도보다는 경도(동서적 위치)를 핵심적인 변수로 활용하는 것이 효과적일 것으로 판단됩니다.


결론적으로, 개별 변수들은 매매가격과 일정한 상관관계를 가지지만, 이들을 종합하여 복합적인 요인을 고려하는 모델링이 필요하다는 점을 확인할 수 있었습니다.


3) 범주형 변수 및 입지 요소 분석

1️⃣공구(zone)별 아파트 가격 분석

공구별 가격 분포

송도 국제도시 내 각 공구(zone)의 가격 분포를 분석한 결과, 지역별로 가격 편차가 명확하게 나타났습니다. zone 6, 9, 10 지역은 송도 전체 평균보다 가격이 높게 형성되어 고가 지역으로 분류되었으며, zone 2, 3, 5는 상대적으로 낮은 가격대였습니다. 이러한 결과는 지역별 부동산 가치와 투자 가능성을 평가하는 데 유용하게 활용될 수 있습니다.

 

공구별 로그변환된 평균 거래가격과 4분위수


2️⃣브랜드별 매매가 프리미엄 분석

브랜드에 따라 아파트 매매가격에도 명확한 프리미엄이 존재했습니다. 힐스테이트 브랜드 아파트가 가장 높은 가격대를 기록했으며, 그 뒤를 자이와 푸르지오 브랜드가 따르고 있었습니다. 이는 브랜드의 신뢰도와 시장 선호도가 가격 형성에 실질적인 영향을 준다는 점을 나타냅니다.


3️⃣GTX-B 이슈의 아파트 가격 영향 분석

GTX-B 이슈 여부에 따른 가격 영향 분석

 

GTX-B 노선과 같은 교통 인프라 이슈의 영향 여부를 분석한 결과, GTX 호재 지역이 비호재 지역에 비해 전반적으로 높은 가격대를 보였습니다. 이는 GTX-B 노선에 따른 교통 개선 기대가 가격 프리미엄을 형성하는 데 큰 영향을 미치고 있음을 의미합니다. 다만 일부 지역에서는 GTX 이슈와 무관하게 가격 분포가 중첩되어 있어, GTX는 가격 결정의 절대적 요인이라기보다 시장의 기대 효과를 반영하는 정책 변수로 접근하는 것이 적절합니다.


4) 시계열 데이터 분석 (2015~2024년)

1️⃣연도별 및 월별 매매가격·거래량 분석

송도 국제도시의 아파트 시장은 2015년부터 2024년까지 지난 10년간 큰 변화를 겪었습니다. 초기에는 완만히 상승하던 매매가격이 2020년~2021년 사이 급격히 상승했고, 같은 기간 거래량 역시 크게 증가하며 시장이 매우 활성화되었습니다. 그러나 2022년 이후 금리 인상과 대출 규제 등의 외부 요인으로 인해 가격과 거래량 모두 급락했습니다. 최근 2023년 이후 다시 회복세에 진입해, 시장이 점진적으로 안정화되고 있는 상황입니다.

GTX 이슈와 함께 본 아파트 매매 거래와 그에 따른 이동평균 그래프

 

월 단위의 시계열 분석에서는 명확한 계절성이 관찰되었습니다. 2015년부터 2019년 초까지는 4천~5천만 원대의 가격대에서 등락을 반복하다가, 2019년 하반기부터 2021년 중반까지 급격한 상승이 이루어졌습니다. 2021년 최고점(약 9천만 원)을 기록한 후 2022년 가격이 급락했으며, 이후 2023년부터는 안정적인 회복세를 보이고 있습니다. 계절적 패턴 역시 뚜렷해 봄과 가을 이사철에 거래가 활발히 이루어지며 가격 변동 폭이 커지는 모습입니다. 이동평균(3개월)을 적용해 장기 추세를 보면, 2021년 급등 이후 하락을 거쳐 최근 다시 상승세로 전환되는 흐름이 보다 명확히 확인됩니다.

 


2️⃣시계열 분해 분석 결과

시계열 분해 분석을 통해 매매가격의 추세(Trend), 계절성(Seasonality), 잔차(Residual)를 살펴본 결과, 장기적으로는 꾸준히 상승하는 안정적인 추세를 보였으며, 최근에는 약간의 조정이 이루어졌습니다. 계절성 측면에서는 매년 봄과 가을 등 특정 시기에 가격이 변동하는 패턴이 뚜렷이 나타났습니다. 잔차가 비교적 작은 범위 내에서 분포하고 있어 데이터의 신뢰성과 예측 가능성이 높았습니다. 이 분석 결과는 장기적인 가격 예측 모델을 구축할 때 추세와 계절성을 고려할 수 있으며, 예측의 신뢰도를 높이는 데 중요한 역할을 할 것으로 기대됩니다.


2. 종합적 해석

피쳐 엔지니어링 후 분포

 

 

본 분석 결과, 송도 국제도시 아파트 시장은 단일 요인보다는 여러 복합 요소들이 상호 작용하며 가격 형성에 기여하는 시장임을 확인할 수 있었습니다. 익히 알려진 바와 같이, 평당가격(pricePerpy)은 매매가격 결정에 가장 큰 영향을 미치는 요인으로 나타났으며, 평당가격이 높을수록 거래 금액 역시 뚜렷하게 상승하는 경향을 보였습니다. 이는 향후 가격 예측 시 가장 우선적으로 고려해야 할 변수임을 시사합니다.

 

또한, 전용 면적이 넓거나 최근 건축된 아파트일수록 가격이 상승하는 중간 수준의 상관관계를 확인할 수 있었는데, 이는 아파트의 물리적 특성과 더불어 관리 상태, 입지 등 추가 요인이 함께 작용함을 의미합니다.

지리적 위치 분석에서는 위도보다 경도가 매매가격에 유의미한 영향을 주는 것으로 나타났으며, 동측 지역일수록 가격이 높은 경향을 보였습니다. 이는 해당 지역의 개발 단계, 공구별 거주 가능한 아파트 수, 주요 상권 및 편의시설 접근성 등이 반영된 결과로 해석됩니다.

 

아파트 브랜드 역시 시장에서 중요한 차별화 요소로 작용하며, GTX-B와 같은 교통 인프라 개선 기대감은 일부 지역에서 시장의 기대 효과를 반영하는 정책 변수로 나타났습니다.

 

마지막으로, 지난 10년간 송도 부동산 시장은 2020년~2021년의 급등, 2022년 이후의 하락, 그리고 2023년 이후의 회복세를 경험하며 명확한 시장 사이클을 보였습니다. 시계열 분석을 통해 장기적인 상승 추세와 계절적 패턴이 확인되었으며, 이는 단기 변동성과 함께 시장이 안정적인 기반 위에서 움직이고 있음을 시사합니다.

 

결론적으로, 송도 아파트 매매 시장은 다양한 요인들이 복합적으로 작용하는 다차원적 구조를 지니고 있으며, 정교한 예측 및 정책 설계를 위해서는 이 모든 요소들을 종합적으로 고려해야 함을 확인할 수 있었습니다.


🧭 마무리

본 분석을 통해 확인된 사실은 송도 아파트 가격은 단일 요인이 아닌 다양한 물리적·공간적·정책적 요소가 복합적으로 작용하는 결과라는 점입니다.
평당가격, 면적, 건축년도, 경도, 브랜드, GTX 이슈 등 각각의 변수들은 어느 정도의 영향력을 지니고 있었지만, 이들이 상호작용하며 만들어내는 패턴이 결국 시장의 흐름을 형성했습니다.

특히 시계열 분석을 통해 파악한 시장 사이클은 향후 가격 예측 및 투자 판단에 중요한 기준이 될 수 있습니다. 이제부터는 공구별 개발 계획 등을 포함하여 가격예측 모델링을 진행해 보고자 합니다.


오늘은 거센 파도와 마주했지만, 다행히 방향을 잃지 않고 조금 더 앞으로 나아갈 수 있었습니다. 앞으로 또다시 시련이 몰려오더라도, 이젠 더 능숙하게 넘어설 수 있을 것입니다.

해도는 아직 비어 있지만, 언젠가 보물의 자취로 가득할 그날을 믿으며. 항해는 계속됩니다. ⛈️🌊🗺️🎁

 

Reference

1. 모두의 연구소, 시계열 분석의 정의와 시계열 데이터의 구성요소-알아보자 시계열 Episode 1

2. 유쌤의 R로 배우는 데이터 분석, 7.4 시계열 분석(Time Series Analysis)

3. 시스템 트레이딩을 위한 데이터 사이언스(파이썬 활용편), 3.1.1. 이동평균법


🚢 데이터의 바다는 넓고, 우리의 항해는 계속됩니다.

다음 여정에서 또 만나요! 😎🌊