데이터 프로젝트/송도 국제도시 아파트 실거래가 분석
[5] 부동산 가격 예측을 위한 회귀 기반 모델링과 변수 해석
1. 예측 모델링
이번 분석의 목적은 송도 국제도시 아파트 실거래 가격을 예측하는 것입니다. 다만 앞선 글에서 보셨듯이 가격 데이터는 고가 단지와 저가 단지 간의 편차가 커서 정규 분포를 따르지 않습니다. 이에 따라 가격을 그대로 예측하기보다는, 로그 변환한 값(log_dealAmount
)을 타겟으로 설정하여 예측 정확도와 안정성을 높이고자 하였습니다.
1) 데이터 구성 및 전처리
예측에 직접적으로 사용하기 어려운 주소나 단지명 등은 제거하였습니다. 피처는 수치형 및 범주형 변수를 중심으로 다음과 같이 구성하였습니다.
카테고리 | 피처명 | 단위 | 설명 |
---|---|---|---|
면적/구조 | excluUseAr | ㎡ | 전용면적 |
floor | 층 | 해당 거래의 층수 | |
buildYear | 년도 | 건축년도 (예: 2012) | |
가격 | pricePerpy | 만원/평 | 평당 실거래 가격 |
rent_conversion_rate | % | 전월세 전환율 | |
log_dealAmount | 로그값 | 예측 대상인 실거래가 로그 변환값 | |
입지 | latitude | 도 | 위도 좌표 |
longitude | 도 | 경도 좌표 | |
dist_to_nearest_station_m | m | 가장 가까운 역까지 거리 | |
dist_to_nearest_facility_m | m | 가장 가까운 편의시설까지 거리 | |
nearby_conveniences | 개수 | 반경 내 편의시설 수 | |
nearby_transports | 개수 | 반경 내 교통시설 수 | |
입지 (Zone) | zone_1 | 0/1 | 공구 1 여부 |
zone_2 | 0/1 | 공구 2 여부 | |
zone_3 | 0/1 | 공구 3 여부 | |
zone_4 | 0/1 | 공구 4 여부 | |
zone_5 | 0/1 | 공구 5 여부 | |
zone_6 | 0/1 | 공구 6 여부 | |
zone_7 | 0/1 | 공구 7 여부 | |
zone_8 | 0/1 | 공구 8 여부 | |
zone_9 | 0/1 | 공구 9 여부 | |
zone_10 | 0/1 | 공구 10 여부 | |
브랜드 | brand_더샵 | 0/1 | 더샵 브랜드 여부 |
brand_자이 | 0/1 | 자이 브랜드 여부 | |
brand_푸르지오 | 0/1 | 푸르지오 브랜드 여부 | |
brand_힐스테이트 | 0/1 | 힐스테이트 브랜드 여부 | |
거시지표 | Policy Rate | % | 기준금리 |
Market Interest Rate | % | 시장금리 | |
HousingSupplyRate(%) | % | 주택 보급률 | |
상호작용 | area_x_year | ㎡×년도 | 면적과 건축년도 곱 |
area_x_floor | ㎡×층 | 면적과 층수 곱 | |
기타 | gtx_issue | 0/1 | GTX 호재 여부 |
2) 모델링 전략
전체 데이터는 학습용(80%)과 테스트용(20%)으로 나누었습니다. 결과의 재현성을 확보하기 위해 random_state=42
를 설정했습니다. 모델은 선형 회귀 계열을 중심으로 선정했습니다. 부동산 가격은 다양한 요인의 영향을 받지만, 다수의 수치형 변수와 선형적인 관계를 보였기 때문입니다.

대표적으로 평당가격(pricePerpy)
와 전용면적(excluUseAr)
은 거래금액의 증가와 밀접한 선형성을 나타냈습니다.
반면, 역세권 거리(dist_to_nearest_station_m)
나 편의시설 수(nearby_conveniences)
와 같은 일부 변수는 비선형적이며 약한 상관관계를 보여, 보조 변수로 활용하거나 가공이 필요할 수 있습니다.
이에 다음 세 가지 모델을 비교 분석하였습니다.
- Linear Regression: 기본 선형 회귀 모델로, 다른 모델들과 비교할 수 있는 기준점 역할을 합니다.
- Ridge Regression: L2 정규화를 통해 다중공선성을 완화하고, 모든 변수를 활용할 수 있는 모델입니다.
- Lasso Regression: L1 정규화를 통해 중요하지 않은 변수를 제거할 수 있어, 해석에 용이한 모델입니다.
🤔 왜 선형 회귀인가?
여기서 한 가지 짚고 넘어가고 싶은 점은, 왜 선형 회귀를 선택했는가입니다.
수많은 예측 모델이 존재하는 가운데, 이번 분석에서는 선형 회귀 계열의 모델들을 중심으로 접근합니다. 그 이유는 단순합니다. 더 잘 해석하고 싶었기 때문입니다.
이 프로젝트는 단순히 "얼마에 거래될 것인가"를 맞히는 데 그치지 않습니다. GTX-B 개통, 금리 변화, 산업 클러스터 조성 등 다양한 변수가 복합적으로 작용하는 송도국제도시의 시장에서는, 예측의 정확도와 함께, 그 예측이 어떤 요인에 기반했는지를 설명하는 것 또한 중요합니다.
선형 회귀 모델은 각 변수의 영향력을 계수 형태로 명확하게 드러낼 수 있으며, 해석의 투명성과 구조적인 이해를 제공하는 데 강점을 갖고 있습니다. 복잡한 예측력을 지닌 모델도 유용하지만, 이번 분석에서는 변화의 방향과 원인을 함께 보여줄 수 있는 모델이 필요했습니다.
따라서 해석 가능성과 설명력을 우선하면서도, 정규화 기법(Ridge, Lasso 등)을 활용해 예측 성능까지 확보할 수 있는 전략을 선택했습니다. 이는 예측과 해석의 균형을 모두 고려한 실용적인 모델링 방식이라 생각합니다.
3) 성능 평가
모델 성능 평가지표로는 RMSE(Root Mean Squared Error)와 R²(결정계수)를 사용했습니다. 예측 결과는 다음과 같습니다.
모델 | 정규화 강도 (Alpha) | RMSE | R² (결정계수) | 해석 |
---|---|---|---|---|
Linear Regression | – | 0.05734 | 0.95481 | 기본 선형 회귀, 이미 높은 성능 확보 |
Ridge Regression | 0.00095 | 0.05734 | 0.95481 | 가장 낮은 오차, 가장 높은 R² → 성능 우수 |
Lasso Regression | 0.0001 | 0.05778 | 0.95412 | 일부 변수 제거로 해석력 향상, 성능 →하락 |
Ridge 모델이 가장 안정적인 성능을 보였으며, 규제를 통해 과적합을 효과적으로 방지한 것으로 보입니다.
Lasso 모델은 일부 변수를 제거하면서 해석력은 향상되었지만, 예측 성능은 다소 낮아졌습니다.
RMSE는 평균 오차가 로그 변환된 기준 약 0.0573 수준이므로 모델 성능은 우수한 것으로 보입니다. 다만, R²값이 0.9548로 매우 높기에 다중공선성, 잔차분석을 통한 과적합 여부 등의 검토가 필요해 보입니다.
2. 과적합 및 다중공선성 점검
1) VIF(Variance Inflation Factor, 분산팽창요인) 확인 및 결과 해석
1️⃣ VIF 확인 및 결과해석
순번 | Feature | VIF | 해석 |
---|---|---|---|
1 | zone_1 | ∞ | 더미 변수 간 완전한 선형 종속. |
2 | zone_10 | ∞ | 〃 |
3 | zone_2 | ∞ | 〃 |
4 | zone_3 | ∞ | 〃 |
5 | zone_4 | ∞ | 〃 |
6 | zone_5 | ∞ | 〃 |
7 | zone_6 | ∞ | 〃 |
8 | zone_7 | ∞ | 〃 |
9 | zone_8 | ∞ | 〃 |
10 | zone_9 | ∞ | 〃 |
11 | longitude | 52.14 | latitude와 강한 상관. 위치 변수 중복 |
12 | latitude | 30.24 | 〃 |
13 | Policy Rate | 12.61 | 금리 관련 변수와 중복 설명 |
14 | Market Interest Rate | 11.34 | 〃 |
15 | dist_to_nearest_facility_m | 6.61 | 입지 거리 변수 중복 가능성 |
16 | rent_conversion_rate | 6.50 | 금리 및 공급 변수와 상관 가능 |
17 | buildYear | 4.43 | 적당한 수준의 상관관계 |
18 | nearby_conveniences | 4.32 | 위치 또는 밀도 변수와 상관 |
19 | brand_더샵 | 3.96 | 브랜드 변수들 간 상관 존재 |
20 | pricePerpy | 3.74 | 면적/금액과 중복 설명 가능 |
21 | nearby_transports | 2.81 | 안정적인 수준 |
22 | brand_힐스테이트 | 2.48 | 〃 |
23 | HousingSupplyRate(%) | 2.40 | 〃 |
24 | brand_푸르지오 | 1.94 | 〃 |
25 | brand_자이 | 1.88 | 〃 |
26 | excluUseAr | 1.72 | 〃 |
27 | dist_to_nearest_station_m | 1.71 | 〃 |
28 | floor | 1.27 | 〃 |
29 | gtx_issue | 1.10 | 〃 |
다중공선성 분석 결과, 완전한 다중공선성이 발생한 이유는 zone_1 ~ zone_10
전체 더미 변수를 모두 포함했기 때문입니다.
일반적으로는 범주형 변수의 완전한 더미 코딩은 다중공선성 문제를 일으키기 때문에, 기준이 되는 하나의 범주를 제거하는 것이 통계적으로 권장됩니다.
그러나 본 분석에서는 Ridge 및 Lasso 회귀와 같은 정규화 기법을 사용하여, 모든 zone 정보를 유지하면서도 안정적인 계수 추정과 예측이 가능하도록 설계하였습니다. 이는 단순한 예측 성능뿐만 아니라, 각 입지(zone)의 상대적 영향력을 정량적으로 비교하기 위해서도 의미 있는 접근입니다.
2️⃣ 교차 검증을 통한 모델의 일반화 성능 평가
모든 피처를 포함한 상태에서 StandardScaler
로 정규화를 수행한 후, LinearRegression
모델을 기반으로 5-Fold 교차검증을 시행하였습니다. 이 방식은 변수 간 상관관계를 온전히 제거하지는 않지만, 과적합 여부를 교차검증으로 직접 확인하고, 일반화 성능이 유지되는지를 판단할 수 있는 장점이 있습니다.

즉, 다중공선성이 있더라도 예측력이 충분히 높다면 해당 모델을 수용 가능한 실전 모델로 간주할 수 있다는 것입니다.

이를 통해 평균 R² 와 RMSE를 측정한 결과, R² ≈ 0.9116, RMSE ≈ 0.066 수준으로 안정적인 예측 성능을 보였습니다.
지표 | 값 | 해석 |
---|---|---|
R² | 0.9116 | 모델이 매우 높은 설명력을 가짐 |
RMSE (log scale) | 0.066 | 예측 오차가 로그 기준으로 ±0.066 |
대략적 오차율 | 약 6.8% | 실제 거래금액 대비 ±6.8% 수준의 예측 정확도 |
이번 프로젝트에서는 변수 해석보다는 실제 가격 예측의 정확도와 실용성에 중점을 두어 모델을 구성하고 평가하였습니다.
3. Ridge 회귀 분석
1) 주요 성능 지표
1️⃣ Ridge 회귀분석 결과
파악된 다중공선성 문제를 완화하고, 모델의 예측 안정성 및 성능 개선을 확보하기 위해 Ridge 회귀를 적용하였습니다. Ridge 회귀는 모든 피처를 일정 수준으로 제어(규제)함으로써, 모델이 너무 치우치거나 민감하게 반응하지 않도록 안정화하는 특징을 나타냅니다. 특히, 교차검증 기반으로 최적의 alpha 값을 탐색하였습니다. 전체 예측 성능을 아래와 같이 평가하였습니다.
☑️ 핵심 성능 지표
- Best Alpha: 2.56 (규제 강도)
- R² Score: 0.9548
- RMSE (log scale): 0.0573
- Approximate Relative Error: 약 5.9%
이는 기존 선형 회귀 모델(OLS, 약 0.9111) 보다 높은 설명력(0.9548)을 갖으며, 예측 오차가 로그 기준으로 약 ± 0.0573%으로 낮은 오차율을 달성하였습니다. 실거래가 기준으로 ± 5.9% 수준의 오차입니다.
☑️ 과적합 점검 결과
지표 | 값 | 해석 |
---|---|---|
Train R² | 0.9553 | 훈련 데이터 설명력 |
Test R² | 0.9548 | 검증 데이터 설명력 |
차이 | 0.0005 | 오차 거의 없음 → 과적합 아님 |

훈련 데이터와 검증 데이터 간 설명력 차이가 사실상 0.0005 수준으로 매우 미미하며, 과적합은 전혀 의심되지 않습니다.
이는 모델이 일반화가 잘 되어 있고, 예측 안정성이 매우 높다는 것을 시사합니다.
☑️ 영향 변수 해석


특히 평당 가격(pricePerpy)
, 전용면적(excluUseAr)
, 공급률(HousingSupplyRate)
등은 예상대로 높은 영향력을 가지며, 공선성이 있던 zone_4
, longitude
와 같은 입지 변수들도 정규화 이후에도 여전히 의미 있는 영향력을 유지하는 것으로 나타났습니다. 현재 계수 분포도 정상 범위에 있으며, 모델의 안정성과 해석력 모두 우수하게 확보되었습니다.
이 중 Market Interest Rate
는 직관과 달리 양(+)의 계수로 나타났는데, 일반적으로 금리가 상승하면 수요 위축으로 인해 가격이 하락할 것으로 예상되지만, 본 분석에서는 오히려 가격 상승과 연관된 경향을 보였습니다. 이는 해당 시기의 금리 상승이 경기 회복기나 자산시장 선호 증가와 함께 나타났을 가능성이 있으며, 지역별 수요 탄력성의 차이 또는 특정 시점의 시장 특성이 반영된 결과일 수 있습니다.
전체적으로 전용면적과 평당가는 여전히 압도적인 영향력을 보이며, 이는 주택 시장 구조상 단가와 면적이 거래금액에 가장 직접적인 요인이라는 점을 다시 한번 확인시켜 줍니다. 과거 OLS 모델에서는 VIF
무한대 등으로 계수 해석이 불가능했던 반면, Ridge 회귀를 통해 다중공선성이 존재하더라도 예측과 해석이 동시에 가능한 모델 구성이 가능함을 보여주었습니다.
4. 회귀 모델 비교 분석 (Ridge / Lasso / ElasticNet)
1) 성능 비교
Ridge 회귀만으로도 충분히 안정적인 예측 결과를 알 수 있습니다. 그러나 다양한 정규화 기반 회귀 모델을 함께 분석함으로써 더 정제된 변수 선택과 예측력을 얻고자 Ridge, Lasso, ElasticNet 세 가지 회귀 모델을 비교 분석했습니다.
Lasso는 불필요한 변수를 자동으로 제거하는 특성이 있고,
ElasticNet은 Ridge와 Lasso의 장점을 적절히 혼합하여 복잡한 데이터에 유연하게 대응할 수 있습니다.
모든 모델은 StandardScaler
로 정규화된 데이터를 기반으로 5-Fold 교차검증을 통해 최적의 하이퍼파라미터를 선택했습니다.
1️⃣ 모델 성능 비교
Model | R² | RMSE (log) |
---|---|---|
Ridge | 0.9548 | 0.05734 |
Lasso | 0.9539 | 0.05793 |
ElasticNet | 0.9548 | 0.05734 |

모든 모델이 높은 예측 성능을 보였으며, ElasticNet이 Ridge와 동일한 수준의 성능을 달성했습니다.
Lasso는 예측력이 약간 떨어졌지만, 해석 가능한 변수를 자동으로 선택해 모델 해석력 향상에 강점을 보였습니다.
2) 계수 비교 시각화
아래 그래프는 세 모델의 회귀 계수를 비교한 시각화입니다. 각 변수에 대해 Ridge는 계수를 부드럽게 줄이고, Lasso는 일부 계수를 0으로 만들어 제거하며, ElasticNet은 그 중간 전략을 택합니다.

회귀 모델에서 도출된 변수별 계수를 비교하면, 평당가격과 전용면적이 모든 모델에서 가장 강한 영향력을 가지는 것으로 나타났습니다. 이는 주택 가격 결정의 기초적인 구조가 물리적 속성과 밀접하다는 점을 다시 한번 확인할 수 있습니다.
브랜드(푸르지오, 더샵)와 특정 입지(zone2) 역시 긍정적인 영향을 주었으며, 반대로, 공급률, 경도, 편의시설 밀도 등은 음(-)의 계수로 나타나 시장의 공급 포화 또는 공간적 비선호가 반영된 것으로 확인됩니다.
5. ElasticNetCV의 최적 비율을 찾아 모델 선정
이번에는 ElasticNet의 핵심 하이퍼파라미터인 alpha
와 l1_ratio
를 좀 더 촘촘히 조정하여 성능을 극대화하고, 모델 구조를 더 정교하게 조율하였습니다. alpha
는 전체 규제 강도를 조절하며, 값이 클수록 더 많이 규제함을 의미합니다. l1_ratio
는 Lasso(R1)와 Ridge(R2) 간의 비율을 조정합니다. l1_ratio=0
이면 Ridge모델과 같고, l1_ratio=1
이면 Lasso 모델과 같다고 할 수 있습니다. ElasticNetCV 모델은 교차 검증을 통해 다양한 alpha
와 l1_ratio
조합을 시험하며 가장 예측 성능이 우수한 조합을 찾아냅니다. 그 결과 아래와 같은 값이 도출되었습니다.
파라미터 | 값 | 해석 |
---|---|---|
alpha | 9.20e-06 | 매우 낮은 정규화 강도 → 사실상 규제 거의 없음 |
l1_ratio | 1.0 | Lasso와 동일 → 변수 선택 중심 |
ElasticNetCV 결과가 사실상 Lasso 회귀처럼 작동한 것은, 데이터 내 주요 변수들의 영향력이 명확하고 다중공선성 문제가 크지 않았기 때문입니다. 이는 데이터 품질이 양호하고, 변수 간 독립성도 일정 수준 확보되어 있었음을 시사합니다. 실제로 정규화 강도(alpha)가 매우 낮게 설정되어 과도한 규제가 필요 없는 상황으로 판단되며, 회귀 계수는 거의 OLS 회귀와 유사하게 추정되었습니다. 이번 모델은 불필요한 변수는 제거하면서도 핵심 변수들을 적극 활용하는 구조로 설계되었습니다.
6. Lasso 회귀 분석 및 결과 해석
1) 제거된 변수와 그 이유
LassoCV
를 통해 불필요한 변수를 자동으로 제거하고, 실질적으로 영향을 미치는 변수만을 선별하였습니다.
변수명 | 설명 | 제거 사유 |
---|---|---|
buildYear | 건축연도 | 계수 = 0 (모델에서 영향 없음) |
rent_conversion_rate | 전월세 전환율 | 계수 = 0 (모델에서 영향 없음) |
latitude | 위도 | 계수 = 0 (모델에서 영향 없음) |
zone_3 | Zone 3 (클러스터링 기반 지역 구분) | 계수 = 0 (모델에서 영향 없음) |
zone_4 | Zone 4 (클러스터링 기반 지역 구분) | 계수 = 0 (모델에서 영향 없음) |
zone_6 | Zone 6 (클러스터링 기반 지역 구분) | 계수 = 0 (모델에서 영향 없음) |
zone_7 | Zone 7 (클러스터링 기반 지역 구분) | 계수 = 0 (모델에서 영향 없음) |
gtx_issue | GTX 여부 | 계수 = 0 (모델에서 영향 없음) |
Policy Rate | 기준금리 | 계수 = 0 (모델에서 영향 없음) |
위 변수들은 설명력이 낮거나, 다른 변수들과의 상관관계가 높아 중복 설명되는 경우로 해석할 수 있습니다.
모델 해석에 영향을 주지 않으므로 제거해도 무방합니다.
2) 주요 영향 변수 (절댓값 기준 Top 15)
아래 그래프는 Lasso 회귀가 선택한 상위 영향 변수들을 절댓값 기준으로 정렬한 시각화입니다.

☑️ 변수별 해석 요약
변수명 | 해석 | 영향 방향 |
---|---|---|
pricePerpy | 평당 가격 – 가장 직접적인 영향 | 양(↑) |
excluUseAr | 전용면적 – 넓을수록 가격 증가 | 양(↑) |
HousingSupplyRate(%) | 공급률 – 공급 많으면 가격 하락 | 음(↓) |
zone_1, zone_10, zone_2, zone_9 | 입지 영향 – 고가 지역 반영 | 혼합 |
brand_더샵, 푸르지오, 자이 | 브랜드 프리미엄 효과 | 양(↑) |
brand_힐스테이트 | 브랜드지만 영향은 낮음 | 음(↓) |
longitude | 입지 좌표 – 동서 위치 차이 반영 | 음(↓) |
nearby_conveniences / transports | 접근성 요소 – 생활 인프라 반영 | 약한 영향 |
이번 회귀 분석 결과를 통해 다음과 같은 내용을 추론할 수 있습니다.
- 거래금액은 결국 단가 × 전용면적의 구조를 따릅니다. 이는 모델링 과정에서 가장 일관되고 높은 설명력을 보인 변수들로, 가격 형성의 기본 구조를 잘 보여줍니다.
- 공급률이 높을수록 가격은 하락하는 경향이 관찰되었습니다. 이는 지역 내 수급 관계가 실질적인 가격 형성에 영향을 주는 구조임을 시사합니다.
- 브랜드와 입지 효과 역시 뚜렷하게 나타났으며, 이들 변수는 단순 수치 이상의 실무적 해석 가치를 갖습니다. 특히 zone은 KMeans 클러스터링을 통해 사전에 정의된 지역 구분으로, 입지적 요인을 정량적으로 반영할 수 있었습니다.
- 반면, GTX 여부(gtx_issue), 정책금리, 위도 등은 계수가 0으로 제거되었는데, 이는 이들 변수가 독립적으로 영향을 미쳤다기보다 다른 변수(예: 입지, 수급 등)와 설명력이 중복되었기 때문으로 판단됩니다. 예를 들어 GTX 변수는 해당 노선의 영향이 zone 또는 거래 단가 등과 함께 설명될 수 있기에 제외된 것으로 해석할 수 있습니다.
7. Lasso 기반 변수 선택 후 OLS 회귀 재학습
LassoCV
를 통해 선별된 핵심 변수만을 활용하여 OLS 선형 회귀를 재학습하였습니다.
이 접근은 불필요한 변수를 제거하고, 해석 가능한 변수만으로 모델을 구성한다는 점에서 현실적인 해석이 가능합니다.
1) 모델 성능 요약
지표 | 값 | 해석 |
---|---|---|
R² | 0.955 | 설명력 우수 (전체 분산의 95.5% 설명) |
Adj. R² | 0.955 | 조정된 결정계수도 동일 → 변수 수 증가에 따른 과적합 없음 |
F-statistic | 2.414e+04 | 모델 전체의 유의미성 확인 (p < 0.001) |
관측치 수 | 24,116 | 대규모 샘플 기반 신뢰도 확보 |
2) 주요 변수 해석
변수 | 회귀 계수 | 해석 |
---|---|---|
excluUseAr | +0.0090 | 전용면적이 넓을수록 가격 상승 |
pricePerpy | +0.0004 | 평당 가격 증가 시 거래가 증가 |
HousingSupplyRate(%) | -0.0023 | 공급률이 높을수록 가격 하락 |
longitude | -0.612 | 위치 상 경도값 증가 시 가격 하락 |
Market Interest Rate | +0.0041 | 금리가 높을수록 가격 상승 (시점별 자산 선호 반영 가능) |
nearby_conveniences | -0.0026 | 편의시설 밀집도가 높아도 가격 하락 (경쟁 등?) |
brand_더샵/자이/푸르지오 | +0.028 ~ 0.042 | 프리미엄 브랜드 효과 확인 |
brand_힐스테이트 | -0.054 | 다른 브랜드 대비 낮은 영향 |
zone_1 / zone_10 / zone_2 | +0.03 ~ 0.09 | 특정 공구(zone)의 프리미엄 입지 반영 |
zone_6 / zone_8 | -0.011 ~ -0.014 | 상대적으로 가격이 낮은 지역 |
최종 모델은 불필요한 변수를 제거하였음에도 불구하고 여전히 높은 설명력을 갖습니다. 주요 변수들을 살펴보면, 브랜드, 입지, 공간적 변수들이 실제 거래 가격에서 유의미한 영향을 준다는 점이 정량적으로 확인되었습니다. 특히 힐스테이트의 경우 다른 브랜드 대비 음(-)의 계수로 나타났습니다. 이는 해당 브랜드 자체의 문제라기보다는 송도 내 입지, 공급 시점, 경쟁 단지와의 상대적 위치 등에 따라 브랜드 프리미엄이 약화되었을 가능성이 있습니다. 향후 개별 단지 단위의 정밀한 분석을 통해 원인을 파악할 수 있을 것입니다.
3) 예측값과 실제값 비교


산점도의 대각선(완전 일치선)에 밀접하게 분포하는 것으로 보아, 전반적인 모델의 예측 정확도는 매우 양호한 편이라고 판단됩니다. 전반적으로 선형적이고 비편향된 분포를 띄며 정규성 가정이 비교적 잘 만족되는 모델로 해석할 수 있습니다.
다만, 실제 거래금액을 바탕으로 한 그래프의 고가 구간(10억 원 이상)에서 다소 예측값이 실제 값보다 낮아지는 경향을 보입니다. 고가 단지 특성이나 비정형 요인이 반영되지 않은 점에서 기인한 것으로 보입니다.
로그 스케일로 전환한 경우, 예측값과 실제값이 선형에 매우 가까운 분포를 보여주며, 모델의 통계적 안정성을 높이는데 효과적이었습니다. 로그 변환을 통해 고가와 저가 아파트 모두에 대해 예측 균형을 확보할 수 있었고, 이상치의 영향을 줄이는데 유효하였습니다.
8. 결론 및 추후 계획
이번 분석을 통해 Lasso 기반의 변수 선택이 단순히 성능 향상을 위한 기법을 넘어, 해석 가능성과 예측력을 동시에 고려한 모델 설계에 매우 유용한 도구임을 확인할 수 있었습니다. 아울러, 거래 가격에 영향을 미치는 핵심 요인들이 단순한 수치 변수에 그치지 않고, 지역적 특성과 정책적 맥락과도 밀접하게 연결되어 있음을 확인할 수 있었습니다.
특히 공구 6과 공구 8에서는 GTX 예정, 개발 규제 등 정책적 요인의 영향을 받으며 예측 오차가 상대적으로 높게 나타났습니다. 이에 따라 향후에는 공구별 예측값과 실제값의 차이를 정량적으로 비교하고, 공간적 이질성을 반영할 수 있는 GWR(Geographically Weighted Regression) 분석 등으로 확장할 계획입니다. 이를 통해 단지별 가격 예측뿐 아니라, 입지별 특성과 정책 효과를 함께 고려한 정밀한 해석이 가능해질 것으로 기대합니다.
🧭 마무리
이번 구간에서는, 우리가 설정한 항로가 타당한지 점검해 보았습니다. 모델링은 단순한 예측이 아니라, 지금까지의 흐름을 돌아보고, 다음 항로를 계획하는 과정이었습니다.
예측 결과는 방향의 신호였고, 변수 하나하나에는 우리가 지나온 여정의 흔적이 담겨 있었습니다. 이제, 그 신호들을 바탕으로 다음 바다를 향해 나아가려 합니다. 이 여정의 마지막까지 함께 가실 거죠? 🌊🚢
Reference
- 구본상, 신병진, 능형회귀분석을 활용한 부동산 헤도닉 가겨모형의 정확성 및 해석력 향상에 관한 연구-서울시 구로구 아파트를 대상으로-
- 김이환, 김형준, 류두진, 조훈, 기계학습 방법론을 활용한 아파트 매매가격지수 연구
- 이해인, 황현준, 프롭테크의 소비자 평가와 머신러닝을 이용한 아파트 매매 가격 분석
- 친절한 데이터 사이언티스트(히언, https://recipesds.tistory.com/), 관계적 통게분석 - 회귀 전편
🚢 데이터의 바다는 넓고, 우리의 항해는 계속됩니다.
다음 여정에서 또 만나요! 😎🌊
'데이터 프로젝트 > 송도 국제도시 아파트 실거래가 분석' 카테고리의 다른 글
[7] 송도국제도시 입지 분석: 회귀모델과 페르소나 기반 지도 추천 (1) | 2025.04.16 |
---|---|
[6] 송도국제도시 공구별 특성 분석: 1공구, 6공구, 8공구를 중심으로 (6) | 2025.04.15 |
[4] 탐색적 데이터 분석(EDA) (2) | 2025.04.01 |
[3] 데이터 전처리 및 기초 통계 분석 (2) | 2025.03.26 |
[2] 데이터 수집과 정제 (1) | 2025.03.15 |
'데이터 프로젝트/송도 국제도시 아파트 실거래가 분석'의 다른글
- 현재글[5] 부동산 가격 예측을 위한 회귀 기반 모델링과 변수 해석