Sammendrag
Alt for ofte i fast ejendom kan værdiansættelsesprocessen komme til at fremstå som en øvelse med tommelfinger-sutning. Ejendomsmægleren vil komme over, sparke de kendte dæk og derefter producere en estimeret værdi med meget lidt "kvantitativ" indsigt. Måske forværres processen af den følelsesmæssige tilknytning, som det at eje ejendom medfører, da et hus for mange vil være den største økonomiske investering i et helt liv.
Alligevel er der en metode til dette vanvid. Nå, tre for at være præcis.
Den sammenlignelige salgstilgang er mest almindelig i boligejendomme og bruger nylige salg af lignende ejendomme til at bestemme værdien af en emneejendom. Salgsprisen på "comps" justeres baseret på forskelle mellem dem og den pågældende ejendom. For eksempel, hvis en sammenlignelig ejendom har et ekstra badeværelse, trækkes den anslåede værdi af badeværelset fra dets observerede salgspris.
Erhvervsejendomme anses for at være mere heterogene, så den sammenlignelige salgstilgang bruges sjældnere. Indkomsttilgangen, baseret på konceptet om, at et aktivs indre værdi svarer til summen af alle dets tilbagediskonterede pengestrømme, anvendes mere almindeligt på tværs af to metoder:
Den sidste teknik er omkostningstilgangen, som estimerer værdi baseret på omkostningerne ved at erhverve et identisk stykke jord og bygge en kopi af den pågældende ejendom. Derefter afskrives omkostningerne ved projektet baseret på den aktuelle forældelsestilstand for den pågældende ejendom. I lighed med justeringerne i den sammenlignelige salgstilgang er målet at matche den pågældende ejendom tæt. Omkostningsmetoden bruges mindre hyppigt end de to andre tilgange.
Alle traditionelle ejendomsvurderingsmetoder er subjektive på grund af udvælgelsen af de input, der bruges til værdiansættelsen. For eksempel har valget af cap rate en væsentlig indflydelse på en ejendomsvurdering:når man værdiansætter en ejendom med en NOI på 1 mio. USD, vil en stigning på 4% i cap rate (fra 6% til 10%) reducere værdien af ejendommen med 40 % (diagram nedenfor).
Der er mange fordele ved at bruge regressionsmodeller til ejendomsvurdering. Detailbranchen har taget dets anvendelse til valg af sted, men ejendomsbranchen har for det meste overset dens potentielle fordele. Regressionsanalyse er særligt velegnet til at analysere store mængder data. Det ville være praktisk talt umuligt at have et stærkt kendskab til alle lokale ejendomsmarkeder i landet, men regressionsmodellering kan hjælpe med at indsnævre søgningen.
Den største fordel ved at bruge regressionsmodellering er dens iboende fleksibilitet - de kan arbejde uafhængigt af andre modeller eller sammen med dem.
Den mest direkte tilgang er at bruge eksisterende salgsdata til at forudsige værdien af en emneejendom, som et output til modellen. Der er adskillige kilder til gratis data fra lokale, statslige og føderale agenturer, som kan suppleres med private dataudbydere.
En anden mulighed er at bruge regressionsmodeller til mere præcist at forudsige input til andre traditionelle værdiansættelsesmetoder. For eksempel, når han analyserer et kommercielt projekt med blandet anvendelse, kan en udvikler bygge en model til at forudsige salget pr. kvadratfod for butiksarealet og en anden model til at forudsige lejepriser for boligkomponenten. Begge disse kunne så bruges som input til en indkomsttilgang til værdiansættelse.
Brug af sunde statistiske principper giver en mere objektiv tilgang til værdiansættelse. Det er en af de bedste måder at undgå bekræftelsesbias, som opstår, når folk søger information, der bekræfter deres eksisterende mening eller afviser ny information, der modsiger den. Når jeg har bygget modeller til detailhandlere til at forudsige nye butikssalg, blev de ofte overraskede over at høre, at mange forhandlere har gavn af at være i nærheden af en konkurrent. Faktisk var colocation med Walmart, som ofte var deres største konkurrent, en af de mest almindelige variabler brugt i mine modeller. At stole på eksisterende skævheder kan føre til forpassede muligheder, eller endnu værre, skjule katastrofer lige rundt om hjørnet.
Nogle af de objektive fordele ved statistisk værdiansættelse er følgende:
Regressionsmodeller er unikke ved, at de har et indbygget tjek for nøjagtighed. Efter at have bygget en model på en stikprøve af den samlede population, kan du bruge modellen på data uden for stikprøven til at opdage mulig stikprøvebias.
Traditionelle værdiansættelsesmetoder har alle en betydelig risiko for selektionsbias. Når du vælger sammenlignelige ejendomme, er det meget nemt at falde i fælden med at vælge de bedste resultater og antage, at de ligner dit projekt mest. Der lægges også vægt på at forudsige variabler, såsom afkastet i indkomsttilgangen. At eliminere behovet for denne forudsigelse kan være attraktivt for mange ejendomsinvestorer, hvorfor regressionsbaseret værdiansættelse er en nyttig tilgang.
Mængden af vittigheder, der citerer de forskellige procentdele af statistikker, der består af, er faktisk en joke i sig selv. Vi bliver næsten hver dag bombarderet med medieoverskrifter om resultaterne af et nyt forskningsstudie, hvoraf mange synes at modsige en undersøgelse offentliggjort sidste år. I en verden af soundbites er der ikke tid til at diskutere strengheden af forskernes metoder.
Der findes mange typer regressionsanalyse, men den mest almindelige er lineær regression. Der er visse antagelser om lineære regressioner, som ikke bør overtrædes for at betragte modellen som gyldig. Overtrædelse af disse antagelser forvrænger statistiske test, der beregner forudsigelseskraften af input og den overordnede model.
Der bør være et lineært forhold mellem input (uafhængige variable) og output (afhængige variable). For eksempel kunne vi antage, at der er en lineær sammenhæng mellem de opvarmede kvadratmeter i en bolig og dens samlede værdi. På grund af faldende afkast kunne vi dog opdage, at forholdet er ikke-lineært, hvilket kræver en transformation af de rå data.
De uafhængige variable bør ikke være tilfældige. Enkelt sagt er observationerne for hver uafhængig variabel i modellen faste og antages ikke at have nogen fejl i deres måling. Hvis vi f.eks. bruger antallet af enheder til at modellere værdien af en lejlighedsbygning, vil alle bygningerne i vores eksempeldata have et fast antal enheder, som ikke ændres, uanset hvordan vi bygger modellen.
Modellens "residualer" (dvs. forskellen mellem modellens forudsagte resultat og faktiske observationer) vil summere til 0, eller i enklere vendinger:den model, vi vil bruge, repræsenterer den linje, der passer bedst.
Modellen skal være nøjagtig for alle observationer for hver uafhængig variabel. Hvis vi forudsagde værdien af et hus baseret på dets kvadratmeter, ville vi ikke bruge modellen, hvis den var ekstremt nøjagtig til at forudsige værdier for huse under 1.500 kvadratmeter, men der var en stor mængde fejl for boliger over 3.000 Kvadratfod. Dette er kendt som heteroskedasticitet.
Et af de mest almindelige problemer med lineær regression, når man ser på ejendomsbranchen, er en korrelation af resterende fejl mellem observationer. Du kan tænke på dette som hvid støj, der ikke har noget mønster. Men hvis der er et mønster for resterne, så skal vi højst sandsynligt foretage en justering. Dette problem er svært at begrebsliggøre, men der er to hovedområder, hvor dette er et problem i ejendomsbranchen.
At bygge en model baseret på observationer over en lang periode ville være uhensigtsmæssig til at forudsige aktuelle værdier. Antag, at vi byggede en model til at forudsige værdien af en hotelejendom ved at bruge den gennemsnitlige værelsespris som en uafhængig variabel. Forudsigelseskraften af denne variabel kan være vildledende, fordi værelsespriserne er steget konsekvent over tid. I statistiske termer er der en autokorrelation mellem observerede gennemsnitlige værelsespriser, der viser en positiv tendens over tid (dvs. inflation), som ikke ville blive taget højde for i modellen. Den traditionelle sammenlignelige salgstilgang, der er mest brugt i boligejendomme, eliminerer dette problem ved kun at bruge de seneste data. Da der er langt færre antal kommercielle transaktioner, gør denne tidsbegrænsning ofte den sammenlignelige salgstilgang ineffektiv. Der er dog teknikker, der anvender lineær regression, som kan overvinde problemerne med autokorrelation.
Klyngeeffekten er også en væsentlig udfordring ved modellering af ejendomsvurdering. Dette kan opfattes som rumlig autokorrelation. Den enkleste måde at tænke på dette problem er at forestille sig at bygge en model til at forudsige værdien af huse i to kvarterer (A og B) på hver side af en motorvej. Som helhed kan modellen fungere godt til at forudsige værdier, men når vi undersøger de resterende fejl, bemærker vi, at der er et mønster. Husene i kvarter A er generelt omkring 10 % overvurderede, og husene i kvarter B er omkring 10 % undervurderede. For at forbedre vores model skal vi tage højde for denne klyngeeffekt eller bygge en model for hvert kvarter.
Ideelt set vil variabler i en model ikke være korreleret til hinanden. Dette kendte problem kaldes multikollinearitet. Brug af både kvadratfod og antallet af parkeringspladser som input til en model, der værdsætter regionale indkøbscentre, vil sandsynligvis demonstrere multikollinearitet. Dette er intuitivt, fordi planlægningskoder ofte kræver et vist antal parkeringspladser baseret på kvadratmeter på et kommercielt område. I dette eksempel ville fjernelse af en af variablerne give en mere præcis vurdering af den justerede model uden at reducere dens forudsigelsesevne væsentligt.
Brug af observerede data er kernen i enhver empirisk tilgang, men det er vigtigt at huske, at tidligere resultater ikke altid forudsiger fremtiden. Illikvide aktiver som fast ejendom er særligt sårbare over for ændringer i konjunkturerne. Forudsigelseskraften for visse variabler vil sandsynligvis ændre sig baseret på de nuværende økonomiske forhold. Dette problem er ikke unikt for lineær regression og findes også med traditionelle tilgange.
Korrelation er ikke lig med årsagssammenhæng. Formålet med modelbygning er at finde nyttige variabler, der vil give valide forudsigelser. Du skal være på vagt over for falske sammenhænge. Du kan blive overrasket over at høre, at der er en ekstrem stærk sammenhæng mellem skilsmisseprocenten i Maine og forbruget af margarine pr. indbygger. At bruge skilsmissedata fra Maine ville dog ikke give mening, hvis du forsøgte at forudsige fremtidigt margarinesalg.
Lad os nu anvende denne viden praktisk og bygge en lineær model fra start til slut. Som vores eksempel vil vi forsøge at bygge en ejendomsvurderingsmodel, der forudsiger værdien af enfamiliehuse i Alleghany County, Pennsylvania. Valget af Alleghany County er vilkårligt, og de demonstrerede principper vil fungere for ethvert sted. Vi vil bruge Excel og SPSS, som er en almindeligt brugt statistisk software.
At finde kvalitetsdata er det første skridt i opbygningen af en nøjagtig model og måske det vigtigste. Selvom vi alle har hørt udtrykket "skrald ind, skrald ud", er det vigtigt at huske, at der ikke er noget perfekt datasæt. Dette er fint, så længe vi komfortabelt kan antage, at stikprøvedataene er repræsentative for hele populationen. Der er tre hovedkilder til ejendomsdata:
Vi vil udelukkende bruge gratis data til vores eksempel, hentet fra Western Pennsylvania Regional Data Center og U.S. Census Bureau. Alleghany Real Estate Sales data vil give os en basisfil for vores observationer med salgspris som vores afhængige variabel (Y variabel). Vi vil også teste variabler ved hjælp af gangscore for hver folketællingskanal og skattevurderingsoplysninger.
En meget nyttig variabel at have, når man bygger ejendomsmodeller, er bredde- og længdegraden af hver adresse. Du kan få disse data gennem en geokoder, som bruger en adresse til at tildele en bredde- og længdegrad. U.S. Census Bureau geokoder vil også identificere folketællingskanalen for hvert sted, som almindeligvis bruges til at samle demografiske og psykografiske oplysninger.
Nu hvor vi har valgt vores datakilder, skal vi undersøge kvaliteten af dataene. Den nemmeste måde at tjekke for datakvalitet er at køre en frekvenstabel for nogle få nøglevariabler. Hvis der er et betydeligt antal manglende eller korrupte poster, bliver vi nødt til at undersøge dataene yderligere. Tabellen nedenfor viser, at kun 1 ud af 216.498 poster mangler et postnummer i salgsfilen, og der er ingen fejlagtige postnumre som 99999 eller 1X#45. Dette indikerer sandsynligvis, at dette er et datasæt af høj kvalitet.
En dataordbog er en fremragende ressource, når den er tilgængelig. Det vil give en beskrivelse af, hvad hver variabel måler, og mulige muligheder for variablen. Vores data indeholder en analyse af hvert salg udført i amtet. Dette er nøgleoplysninger, især når man arbejder med rå skødeoptegnelser. Alle ejendomstransaktioner skal registreres for at kunne håndhæves ved lov, men ikke alle overførsler afspejler den sande fair markedsværdi af en ejendom. For eksempel kan et salg mellem to familiemedlemmer ske til en pris under markedsprisen som en form for gave eller for at undgå at betale højere transaktionsomkostninger såsom skødestempler. Heldigvis for os markerer den lokale regering tydeligt overførsler, som de mener ikke er repræsentative for aktuelle markedsværdier, så vi vil kun bruge registreringer, der afspejler et "gyldigt salg". Disse salg tegner sig kun for omkring 18 % af det samlede antal transaktioner, hvilket illustrerer, hvor vigtigt det er at forstå dine data, før du begynder at bruge dem til analyse. Baseret på min erfaring er dette forhold ret almindeligt, når man analyserer skødeoptegnelser. Det er højst sandsynligt, at hvis vi byggede en model med "ugyldige salg", ville vores endelige resultater blive forvrænget.
Dernæst vil vi tilføje vores vurderingsdata og gangscore til salgsfilen. Dette giver os et enkelt bord til brug for vores model. På dette tidspunkt skal vi analysere variablerne for at se, om de er passende til lineær regression. Nedenfor er en tabel, der viser forskellige typer variabler.
Vores fil indeholder flere nominelle værdier som nabolag eller postnummer, som kategoriserer data uden ordenssans. Nominelle værdier er uegnede til lineær regression uden transformation. Der er også flere ordinalvariable, som graderer byggeriets kvalitet, ejendommens aktuelle tilstand osv. Anvendelse af ordinaldata er kun hensigtsmæssig, når vi med rimelighed kan antage, at hver rang er jævnt fordelt. For eksempel har vores data en karaktervariabel med 19 forskellige klassifikationer (A+, A, A- osv.), så vi kan roligt antage, at disse karakterer sandsynligvis er jævnt fordelt.
Der er også flere variable, der skal transformeres, før vi kan bruge dem i modellen. En nominel værdi, der kan omdannes til en dummy-variabel til test, er opvarmnings- og afkølingsvariablen. Vi sætter variablen til 0 for alle ejendomme uden aircondition og dem med aircondition til 1. Bogstaverne skal også konverteres til tal (f.eks. 0=Værst, 1=Bedre, 2=Bedst) for at se hvis der er en lineær sammenhæng med prisen.
Til sidst skal vi afgøre, om det er passende at bruge alle observationerne. Vi ønsker at forudsige værdierne af parcelhuse, så vi kan fjerne alle erhvervsejendomme, ejerlejligheder og byhuse fra dataene. Vi ønsker også at undgå potentielle problemer med autokorrelation, så vi bruger kun data for salg i 2017 for at begrænse sandsynligheden for, at dette sker. Efter at vi har fjernet alle uvedkommende registreringer, har vi vores endelige datasæt, der skal testes.
Det kan være svært at vælge den korrekte prøvestørrelse. Blandt akademiske materialer er der en lang række foreslåede minimale tal og forskellige tommelfingerregler. For vores undersøgelse er den samlede befolkning ret stor, så vi behøver ikke bekymre os om at have nok til en stikprøve. I stedet risikerer vi at have en stikprøve så stor, at næsten hver variabel vil have en statistisk signifikans i modellen. I sidste ende blev omkring 10 % af posterne tilfældigt udvalgt til modellering.
Variabel udvælgelse kan være en af de sværeste dele af processen uden statistisk software. SPSS giver os dog mulighed for hurtigt at bygge mange modeller ud fra en kombination af variabler, som vi har anset for passende til en lineær regression. SPSS vil automatisk bortfiltrere variabler baseret på vores tærskler for statistisk signifikans og returnere kun de bedste modeller.
Ud fra vores prøvedata producerede SPSS fem modeller. Den model, der var mest prædiktiv, inkluderede følgende 5 variable.
Lad os se på resultaterne fra SPSS. Vores hovedfokus vil i første omgang være på R-kvadratværdien, som fortæller os, hvor stor en procentdel af variansen i den afhængige variabel (prisen), der forudsiges af regressionen. Den bedst mulige værdi ville være 1, og resultatet af vores model er ret lovende. Standardfejlen for estimatet, som måler modellens præcision, ser ud til at være ret høj på $73.091. Men hvis vi sammenligner det med standardafvigelsen af salgsprisen i modellen ($160.429), virker fejlen rimelig.
Model 5 havde en acceptabel standardfejl og består Durbin-Watson-testen
SPSS har indbygget funktionalitet til at teste for autokorrelation ved hjælp af Durbin-Watson Test. Ideelt set ville værdien være 2,0 på en skala fra 0 til 4, men en værdi på 1,652 burde ikke forårsage alarm.
Dernæst tester vi resultaterne af modellen for at bestemme, om der er tegn på heteroskedasticitet. Der er ingen indbygget funktionalitet til SPSS, men ved at bruge denne makro skrevet af Ahmad Daryanto kan vi bruge Breusch-Pagan og Koenker testene. Disse test viser, at der er heteroskedasticitet til stede i vores model, da signifikansniveauet (Sig) i diagrammet nedenfor er under 0,005. Vores model har overtrådt en af de klassiske antagelser om lineær regression. Mest sandsynligt skal en af variablerne i modellen transformeres for at eliminere problemet. Men før vi gør dette, er det en god idé at se, hvad virkningerne af heteroskedasticiteten er på forudsigelseskraften af vores uafhængige variable. Ved at bruge en makro udviklet af Andrew F. Hayes kan vi se på de justerede standardfejl og signifikansniveauer for vores uafhængige variable.
Der er heteroskedasticitet til stede i modellen, men yderligere test viser, at det ikke påvirker de uafhængige variabler
Yderligere test afslører, at de uafhængige variable forbliver statistisk signifikante efter at have taget højde for heteroskedasticiteten i modellen, så vi behøver ikke nødvendigvis at ændre den for nu.
Som en sidste test scorer vi alle salgsrekorder, der ikke var en del af den oprindelige prøve med vores model. Dette vil hjælpe os med at se, hvordan modellen klarer sig på et større sæt data. Resultaterne af denne test viser, at estimatets R-kvadratværdi og standardfejl ikke ændrede sig væsentligt på det store datasæt, hvilket sandsynligvis indikerer, at vores model vil fungere som forventet.
Anvendelse af modellen på det fulde datasæt viser overensstemmelse med prøven, med lignende R-kvadrat- og standardfejlværdier observeret
Hvis vi ville bruge vores eksempelmodel i det virkelige liv, ville vi sandsynligvis segmentere dataene yderligere for at have flere modeller, der var mere præcise eller lede efter yderligere data for at forbedre præcisionen af denne enkelte model. Disse trin vil sandsynligvis også fjerne den heteroskedasticitet, vi så til stede i modellen. Baseret på det faktum, at vi forsøgte at bruge en enkelt model til at forudsige værdien af huse i et amt med over 1 million mennesker, burde det ikke være nogen overraskelse, at vi ikke var i stand til at bygge den "perfekte" model på blot et par timer .
Vores mål var at bygge en model, der forudsiger værdien af parcelhuse. Vores analyse viser, at vi nåede det mål med en rimelig mængde præcision, men giver vores model mening?
Hvis vi skulle beskrive vores model, ville vi sige, at værdien af et hus afhænger af grundens størrelse, husets kvadratmeter, kvaliteten af byggeriet, den aktuelle reparationstilstand, og om det har eller ej. aircondition. Dette virker meget rimeligt. Faktisk, hvis vi sammenligner vores model med de traditionelle værdiansættelsesmetoder, ser vi, at den minder meget om omkostningsmetoden, som tilføjer omkostningerne ved at erhverve jord og opføre en ny bygning justeret for den nuværende forældelse. Denne lighed kan dog, for at bruge en regressionssætning, være en falsk sammenhæng.
Typisk er omkostningsmetoden kun anbefales til værdiansættelse af nyere ejendomme, grundet problemer med at bestemme den passende metode til afskrivning af ældre ejendomme. Med vores model har vi skabt en lignende strategi, der er nyttig for egenskaber i enhver alder, faktisk har vi testet alder som en uafhængig variabel og konkluderet, at den ikke har nogen statistisk signifikant indflydelse på egenskabernes værdi!
Forhåbentlig har du nu en bedre forståelse af det grundlæggende i regressionsanalyse. Det næste spørgsmål er:kan det hjælpe din virksomhed? Hvis du svarer ja til et af disse spørgsmål, kan du sandsynligvis drage fordel af at bruge regressionsanalyse som et værktøj.
Eksempelmodellen ovenfor er en simpel demonstration af værdien af at bruge regressionsmodellering i fast ejendom. De 2-3 timer, det tog at indsamle data og bygge modellen, viser langt fra sit fulde potentiale. I praksis er der en bred vifte af anvendelser til regressionsanalyse i ejendomsbranchen ud over ejendomsvurdering, herunder:
Geospatial modellering bruger principperne for regressionsanalyse parret med de tre vigtigste ting i fast ejendom:beliggenhed, beliggenhed, beliggenhed. Jeg har arbejdet som boligudvikler i otte år, og jeg kan bekræfte styrken ved geospatial modellering. Ved at bruge ArcGIS var jeg i stand til at inkorporere salgsdata, pakkekort og lidar-data for at finde ejendomme, der var ideelle til udvikling i bjergene i North Carolina.
Baseret på min erfaring er de fleste af pengene i fast ejendom lavet i opkøb og ikke udvikling af et projekt. At være i stand til at identificere muligheder, som andre går glip af, kan være en enorm konkurrencefordel inden for fast ejendom. Geospatial analyse er noget, store virksomheder har benyttet sig af i mange år, men mindre virksomheder overser ofte.
Meget få mennesker vil vurdere statistik som deres yndlingsfag. Faktisk er folk som helhed meget dårlige til at forstå selv grundlæggende sandsynligheder. If you’re doubtful of this opinion, take a trip to Las Vegas or Macau. Unfortunately, this can make it difficult to determine who to trust when you’re looking for advice on implementing regression analysis in your process. Here are some key things to look for when evaluating potential candidates
While people are bad at judging probabilities, intuition is actually rather good at detecting lies. You should be very skeptical of anyone who claims to be able to build a model that will answer all your questions! Don’t trust a guarantee of results. Hopefully, this article has illustrated the fact that regression analysis is based on empirical observation and sound science. It will always be the case that certain things are easier to predict than others. A trusted advisor will be open and honest when they can’t find the answers you’re looking for, and they won’t run through your budget trying to find one that isn’t there.
Look for Mr. Spock instead of Captain Kirk. Sound research can be an excellent marketing tool, but far too often people pay for sexy marketing materials with a whiff of pseudo-research and no logic to back it up. Some people are naturally more analytical, but great analytical skills come from practice. Ideally, anyone you hire to analyze data for your business will have experience finding solutions to a wide variety of problems. Someone with a narrow focus may be more susceptible to groupthink, especially when their experiences closely mirror your own.
Put potential candidates on the spot with questions that help demonstrate their reasoning abilities. This is not the time to rely on behavioral questions alone. Ideal candidates will have the ability to strategically use known information to reasonably estimate the answer to complex problems. Ask logical reasoning questions, like “How many tennis balls could you fit in the Empire State Building?”
Finally, you should look for someone with whom you can communicate. All of the information in the world won’t help if you can’t put it to good use. If someone uses so much jargon in an introductory conversation that your eyes start to glaze over, then they probably aren’t the right fit for your company.