데이터 프로젝트/송도 국제도시 아파트 실거래가 분석

[6] 송도국제도시 공구별 특성 분석: 1공구, 6공구, 8공구를 중심으로

항해사.K 2025. 4. 15. 23:22

1. 예측 모델 성능 개요

송도국제도시는 택지개발지구라는 특성상 외형적으로는 비슷한 아파트 단지들이 모여 있습니다. 그러나 실제로는 개발 시기, 입지 조건, 정책 이슈 등 다양한 요인에 따라 명확한 차이가 존재합니다. 이번 글에서는 실거래가 예측 모델 결과를 바탕으로, 특히 예측 오차가 컸던 1공구, 6공구, 8공구를 중점적으로 분석하였습니다.

 

앞서 구축한 실거래가 예측 모델의 성능은 아래와 같습니다:

  • RMSE (평균 제곱근 오차): 4,111 만원
  • MAE (평균 절대 오차): 2,810 만원
  • MAPE (평균 절대 백분율 오차): 4.38%
  • 결정계수 (R²): 0.945

전체 모델은 송도 지역의 아파트 실거래가를 상당히 정확하게 예측하고 있으나, 일부 공구에서는 예측 오차가 두드러집니다. 특히 공구 1, 6, 8에서 이러한 현상이 관찰되었습니다.


2. 공구별 예측 오차 분석

공구별 예측된 가격과 실제 거래가격을 비교한 결과, 아래와 같은 특징이 나타났습니다:

  • 공구 6: 예측값이 실제보다 높게 나타나, 일관된 과대평가 경향을 보임.
  • 공구 8: 공구 6과 유사하게 과대평가되는 경향이 나타남.
  • 공구 1: 예측값과 실제값의 차이가 일정하지 않고, 편차가 매우 큼.

이러한 차이는 각 공구의 고유 특성과 복합적인 요인에 기인하며, 심층 분석이 필요합니다.


3. 공구 1: 왜 따로 들여다보아야 했는가?

송도 1공구는 초기 개발 지역으로 다양한 아파트 단지가 혼재해 있어, 단일 구역으로 예측하기에는 내부 이질성이 너무 큽니다. 이로 인해 평균값 기반의 예측 모델은 각 단지의 특성을 제대로 반영하지 못해 예측 오차가 크게 발생합니다.

1) 구조적 이질성의 근거

  • 신축/구축 단지 혼재
  • 브랜드 아파트와 비브랜드 단지의 공존
  • 중심역세권과 외곽지역이 동일 클러스터 내 존재

이러한 다양한 입지 조건들이 단일 클러스터로 묶기 어렵게 만들며, 실제 Boxplot 및 예측 오차 분석에서도 그 이질성이 명확히 드러났습니다.

공구별 오차 박스 플롯


4. 클러스터 기반 1공구 분석

1) KMeans를 이용한 1공구 분석 및 해석

1공구 데이터의 위경도 데이터를 활용하여 클러스터 기법을 사용하였습니다. 엘보우 기법(Elbow Method)을 활용하여 클러스터 수를 결정하였습니다.

엘보우 메소드에 따라 클러스터 4개로 나뉜 1공구

 

최적의 클러스터 수를 4개인 것을 확인하였습니다. 4개의 클러스터로 나누어, 각 신축 대형 단지, 구축 소형 단지, 고층 중심 단지 등의 뚜렷한 특성을 보였습니다. 각 클러스터별로 예측 오차의 특성을 비교하여, 그 중 오차가 큰 클러스터는 별도의 보정 모델을 활용하여 개선하는 방향으로 진행하였습니다.

클러스터 평균가격 면적 연식 특징 요약 색상
0 71,992 만원 고가·대형·고층 깊은 바다색
1 62,679 만원 작음 신축 작지만 신축 바다 파랑색
2 64,687 만원 노후 구축 대형 위주 모래 베이지색
3 72,235 만원 중간 다양 고층 + 고가 혼합 노을 주황색

 

공구 1 내부 단지들을 위경도 기준으로 4개의 클러스터로 나누어 분석한 결과, 각 클러스터는 입지·물리적 특성·건축 연도·실거래가 등에서 뚜렷한 차이를 보였습니다.

먼저, 클러스터별 예측 오차(Boxplot)를 보면 모든 클러스터에서 예측값이 실제값보다 높은 경향(과대평가)을 보였습니다. 클러스터 1 이상치가 많은 클러스터로, 예측 오차가 극단적으로 큰 값들이 여러 개 존재합니다. 그러나, 흥미로운 점은 클러스터 1의 전체적인 예측 성능이 다른 클러스터들보다 상대적으로 좋다는 점입니다. 이상치가 많음에도 불구하고, 그 외의 데이터에서는 예측 오차가 작고, 분포가 중앙값을 중심으로 밀집해 있어 모델이 대체로 좋은 성능을 보였기 때문입니다.

반면, 클러스터 0 클러스터 3은 예측 오차가 넓은 범위로 퍼져 있는 분포를 보이며, 예측 정확도가 상대적으로 떨어집니다. 이 클러스터들에서는 예측 오차가 매우 크고, 예측 값이 실제 값에서 크게 벗어나 있는 경우가 많았습니다. 이는 모델이 이들 클러스터에서 특정 패턴을 잘 포착하지 못했기 때문일 수 있으며, 입지 특성이나 정책적 변수 등 중요한 요소가 반영되지 않았을 가능성도 있습니다.

 

접근성에 따른 클러스터 4개 박스플롯

 

클러스터 0과 클러스터 1은 편의시설과 역과의 거리가 상대적으로 짧고 접근성이 좋은 것으로 보입니다. 그러나, 클러스터 2와 클러스트 3은 편의시설 및 역까지의 200m 이상의 거리를 보이며, 다른 클러스터에 비해 상대적으로 불편할 수 있는 위치로 분석됩니다. 특히, 클러스트 3은 역과의 거리가 300m 이상으로 교통 접근성에서 상당한 차이를 보입니다. 

 

건축년도에 따른 클러스터 4개 박스플롯

건축년도 역시 유의미한 변수였습니다. 클러스터 2는 2009년에 건설된 구축 단지들로 구성되어 있었고, 클러스터 3은 2010년대 이후 신축 비중이 높은 지역이었습니다. 신축 아파트가 모인 클러스터 3은 실제 거래가도 높고 층수도 상대적으로 높았으며, 고층 주거 선호 경향을 반영하는 특성을 지닌 것으로 보입니다.

 

전용면적에 따른 클러스터 4개 박스플롯

전용면적(평형) 또한 클러스터 간 차이를 보였습니다. 클러스터 0과 2는 중대형 평형 비중이 높았고, 클러스터 1과 3은 소형~중형 평형 위주로 구성되어 있었습니다. 특히 클러스터 0은 전용면적과 층수, 입지 접근성 모두 우수한 편으로, 실거래가도 가장 높은 것으로 나타났습니다. 반면 클러스터 2는 모든 측면에서 열위에 있으면서도 모델은 이를 반영하지 못해 오차가 큰 결과를 나타냈습니다.

 

실제 거래가격에 따른 클러스터 4개 박스플롯

실제 거래금액 분포를 보면, 클러스터 0의 중앙값이 가장 높았고 클러스터 2는 가장 낮았습니다. 클러스터 3도 일부 고가 거래가 포함되어 있었지만 분포는 중간 수준에 머물렀습니다. 이 결과는 클러스터별 공간적·물리적 조건이 실제 거래가에 큰 영향을 미친다는 점을 다시 한 번 확인시켜줍니다.

이 분석을 통해 공구 1은 단일 zone으로서 취급하기에는 너무나 다양한 내부 이질성을 갖고 있으며, 이를 모델이 반영하지 못할 경우 예측 오차가 발생할 수밖에 없다는 점이 확인되었습니다. 실무적으로도 이러한 클러스터 기반 세분화는 가격 예측의 정밀도 개선 뿐만 아니라 위험 구역 식별, 정책 대응 지역 설정 등 다양한 방향으로 활용될 수 있을 것입니다.


2) 클러스터 3 전용 모델 재분석 및 회귀 계수 비교

공구 1 내에서는 클러스터 0이 가장 안정적인 예측을 보였으며, 클러스터 3의 경우 예측 오차가 가장 크고 불안정한 것으로 나타났습니다. 이는 공구 1이 내부적으로 매우 이질적인 특성을 가지고 있어 단일 모델로는 모든 패턴을 포착하기 어렵다고 판단하였습니다. 이에 클러스터 3에 별도의 회귀 모델(OLS, 변수 조정 하지 않음)을 적용하여 모델 보정의 효과를 확인하였습니다. 클러스터 3 전용 모델의 성능은 다음과 같습니다.

지표 클러스터 3 전용 모델 전체 모델 대비 변화
R² (로그) 0.9824 +0.0024
RMSE (실제) 2,864.68 만원 -190.13원
MAE (실제) 2,030.29 만원 -95.35원

5. 클러스터 기반 분석 결과 요약

  • 클러스터링을 통해 공구 1을 4개의 하위 구역으로 분할함.
  • 클러스터 3은 예측 성능(RMSE, MAE)이 가장 나쁘며, 별도 회귀 모델 적용 시 예측 정확도가 유의미하게 향상됨.

이 결과는 클러스터 3 내에서 독립된 가격 결정 요인이 작동하고 있음을 보여주며, 구조적 보정이 예측 안정성 향상에 효과적임을 시사합니다. 아래 표는 전체 모델과 클러스터 3 전용 모델의 회귀 계수를 전체 변수에 대해 비교한 결과입니다.

변수 전체 모델 계수 클러스터 3 계수 차이
longitude -2.278192e+00 -2.23e-09 +2.278192e+00
brand_더샵 +1.019040e-02 +1.164171e-06 -1.018923e-02
brand_푸르지오 -5.890611e-03 -1.164171e-06 +5.889447e-03
brand_자이 -4.299787e-03 +0.000000e+00 +4.299787e-03
Market Interest Rate +3.707400e-03 +2.055949e-04 -3.501805e-03
nearby_conveniences +1.437409e-03 +1.164171e-06 -1.436245e-03
excluUseAr +9.364983e-03 +8.900264e-03 -4.647197e-04
nearby_transports -3.749953e-04 -3.492514e-06 +3.715028e-04
dist_to_nearest_facility_m +1.364190e-05 -9.291355e-05 -1.065555e-04
floor +3.241355e-04 +4.115541e-04 +8.741861e-05
dist_to_nearest_station_m -1.134813e-05 +5.573099e-05 +6.707911e-05
HousingSupplyRate(%) -1.523161e-03 -1.517560e-03 +5.601230e-06
pricePerpy +3.879895e-04 +3.881119e-04 +1.224318e-07
zone_1 -5.196364e-14 +0.000000e+00 +5.196364e-14
zone_2 +3.418620e-14 +0.000000e+00 -3.418620e-14
zone_10 -3.308660e-14 +0.000000e+00 +3.308660e-14
zone_5 +4.440892e-16 +0.000000e+00 -4.440892e-16
zone_6 0.000000e+00 0.000000e+00 0.000000e+00
zone_9 0.000000e+00 0.000000e+00 0.000000e+00
zone_8 0.000000e+00 0.000000e+00 0.000000e+00
brand_힐스테이트 0.000000e+00 0.000000e+00 0.000000e+00

 

클러스터 3 전용 모델은 전체 모델에 비해 설명력이 소폭 개선되었을 뿐 아니라, 실제 거래가격 기준 RMSE와 MAE가 크게 감소하는 성과를 보였습니다. 이는 클러스터 3 지역에서 나타나는 특정한 가격 패턴을 별도의 모델링을 통해 효과적으로 보정했음을 의미합니다. 회귀 계수를 비교한 결과 대부분의 변수에서 두 모델 간 계수 차이는 크지 않았지만, 소규모 데이터 내에서 발생한 미세한 계수 변화가 실제 예측 성능을 유의미하게 개선한 것으로 보입니다. 즉, 클러스터 3 내부에서는 전체 데이터와 구분되는 독자적인 가격 결정 요인이 존재한다는 신호로 해석할 수 있으며, 해당 지역에 특화된 알고리즘을 도입한다면 더욱 우수한 예측 모델을 구축할 수 있을 것으로 기대됩니다.


6. 송도 6공구

송도 6공구는 현재 랜드마크시티의 핵심 축으로 개발 중입니다. 초고층 타워, 문화·관광 인프라, 국제업무지구 등 복합적이고 다층적인 개발계획이 진행 중이어서, 기존의 단순 거래 데이터 기반 예측 모델로는 예상 외의 편차가 발생할 수 있습니다.

1) 핵심 이슈 요약 (6공구)

  • 초고층 랜드마크타워 및 복합개발: 6공구는 8공구와 함께 ‘랜드마크시티’ 프로젝트에 포함되며, 103층 이상(420m)의 초고층 복합타워가 예정되어 있습니다. 전체 개발 규모는 7조 6천억 원 이상입니다.
  • 문화·관광 중심지 조성: 해안가 공동주택 부지를 유원지로 전환하여 음악분수, 아쿠아리움 등 관광 인프라를 확충하고, ‘컬처 스파인(1.5km 테마거리)’을 통해 도시 공간 단절을 해소하고자 합니다.
  • 국제업무지구 및 청년 창업 허브: 달빛축제공원역을 중심으로 MICE 산업 중심지와 스타트업 파크 2단계 개발이 추진됩니다.
  • 고품질 주거 및 여가공간 확보: 골프장 예정 부지 일부를 특화 공원으로 전환하고, 고급 녹지 인프라를 확충할 계획입니다.

2) 결론 (6공구)

송도 6공구는 단순한 주거지가 아니라, 정책 주도형 도시 개발의 실험장입니다. 인천 송도의 상징적 성장 구간으로서 기존 예측 모델은 이 지역의 미래 개발 기대감을 충분히 반영하지 못합니다. 따라서 정책 이벤트와 개발 호재를 반영한 리스크 분석 및 시나리오 대응 전략이 필요합니다.


7. 송도 8공구

송도 8공구는 단순한 주거지 이상의 의미를 가진 지역으로, 현재 복합문화시설 건립과 관련한 대규모 도시개발 프로젝트가 진행 중입니다.

1) 핵심 이슈 요약 (8공구)

  • 복합문화시설 개발: 문화·예술·여가 기능을 갖춘 복합공간이 건립되며, 주거 및 업무 기능과의 시너지 효과가 기대됩니다. 이는 도시 생활 인프라 확충을 통한 미래 가치 상승 요인으로 작용할 전망입니다.
  • 행정 및 정책적 불확실성: 사업시행자 지정, 실시계획 변경 등 행정 절차가 진행 중이며, 정책 방향에 따라 부동산 가치가 급변할 수 있습니다.
  • 예측 모델의 한계: 기존 실거래 데이터를 기반으로 한 모델은 정책·개발 기대감을 반영하기 어렵기 때문에, 외생 변수 미반영으로 인한 체계적 예측 편향이 발생할 수 있습니다.
  • 분석 방향 제안: 행정 데이터 및 개발 이슈를 반영한 보조 지표를 도입하거나, 공구 8을 별도로 취급하여 시나리오 기반 예측을 진행할 필요가 있습니다.

2) 결론 (8공구)

송도 8공구는 현재 정책 변화와 개발 이슈로 인해 기존 예측 모델이 설명하지 못하는 비정형적 오차 구조를 보입니다. 따라서 단기적 예측보다는 장기적 모니터링과 시나리오 분석 중심의 접근이 더 적절합니다.


8. 전체 결론 및 시사점

이번 분석을 통해 송도국제도시의 공구별 예측 오차는 단순 수치 차원이 아니라, 각 공구의 공간적·정책적 특성에 기인함을 확인할 수 있었습니다.

  • 공구 1: 내부 이질성이 지나쳐 단일 모델로는 설명하기 어려운 구조적 문제를 보이며, 클러스터링 및 별도 보정 모델 적용이 필요합니다.
  • 공구 6: 초고층 복합개발과 다양한 정책 이슈에 따라 예측 모델이 미래 프리미엄을 반영하지 못하는 한계가 있으며, 정책 변수 보조 분석과 시나리오 대응 전략이 요구됩니다.
  • 공구 8: 문화시설 중심의 복합 개발로 인해 행정적 불확실성이 존재하며, 시나리오 기반 예측 접근이 필요합니다.

이처럼 송도 각 공구의 예측 오차 및 구조적 특성을 종합적으로 고려하면, 단순한 회귀 모델이 아닌 다양한 보완 기법과 정책 변수 반영을 통한 맞춤형 분석의 필요성을 알 수 있습니다.


🧭 마무리

예측 모델은 과거 데이터 기반의 평균값을 잘 설명하지만, 정책, 개발, 입지 이질성이 있는 구역에서는 보완적 해석이 반드시 필요합니다. 이 분석은 예측 오차를 단순한 수치 차이로 보지 않고, 그 이면의 도시 공간 구조, 정책 흐름, 시장 기대감을 함께 해석하는 접근이 필요함을 보여줍니다. 송도라는 도시를 구성하는 여러 겹의 논리를 따라가다 보면, 데이터가 말하는 목소리를 더욱 정교하게 들을 수 있습니다.

아직 부족한 점도 많고, 해석의 여지도 충분히 남아 있습니다. 하지만 이번 분석을 통해, 단순한 수치 예측을 넘어 도시를 이해하려는 시도를 시작할 수 있었습니다. 다음 항해에서는 더 나은 질문을 던지고, 더 깊이 있는 해석을 이어갈 수 있도록 차근차근 나아가겠습니다.🐳


Reference

1. 인천경제자유구역, 송도 6·8 공구 공모 개발 사업 청사진 공개(https://www.ifez.go.kr/main/pst/view.do?pst_id=noti03&pst_sn=269646&search=&utm_source=chatgpt.com)

2. 김명호, 송도 6·8 공구 개발사업 핵심 인프라 10년만에 완공, 경인일보(https://www.kyeongin.com/article/1719152)


🚢 데이터의 바다는 넓고, 우리의 항해는 계속됩니다.

다음 여정에서 또 만나요! 😎🌊