Tuesday, 28 November 2017

Esimerkkejä Of Molemmat Lineaarinen Regressio Ja Liikkuvan Keskiarvot Ja Tasoitus Tekniikoita


Ennustaminen pehmentämismenetelmien avulla. Tämä sivusto on osa JavaScript E-Labs - opetuksen oppimisen kohteita. Muut JavaScript-sarjat luokitellaan tämän sivun MENU-osion eri käyttöalueiden mukaan. Aikasarja on havaintojen sarja, joka Tilataan aikanaan Lähellä otettujen tietojen kerääminen on jonkinlaista satunnaisvaihtelua Satunnaisvaihteluista johtuvien vaikutusten poistamisen vähentämiseen on olemassa menetelmiä Usein käytetyt tekniikat tasoittavat Näitä tekniikoita, kun niitä sovelletaan asianmukaisesti, paljastavat selkeämmin taustalla olevat trendit . Anna aikasarja Row-viisas sekvenssissä alkaen vasemmasta yläkulmasta ja parametrista s ja klikkaa sitten Laske - painiketta yhden jakson aikataulun ennustamiseksi. Pankkikentät eivät sisälly laskelmiin, mutta nollat ​​ovat. Kun syötät tietosi siirryttäessä solusta soluun tietomatriisi, käytä Tab-näppäintä ei nuolta tai syötä avaimia. Aikasarjan ominaisuudet, joita tutkimukset voivat paljastaa Ng kaaviosta ennustettuihin arvoihin ja jäännöskäyttäytymiseen, ehtoennusteen mallinnukseen. Siirtymäluvut Keskimääräiset liikkeet ovat suosituimpia aikasarjan esikäsittelyn tekniikoita. Niitä käytetään satunnaisen valkoisen melun suodattamiseen datasta, aikasarjan tekemiseksi Pehmeämpi tai edes korostaa tiettyjä aikasarjojen sisältämiä informaatiokomponentteja. Exponential Smoothing Tämä on erittäin suosittu järjestelmä tasoitetun aikasarjojen tuottamiseksi, kun Moving-keskiarvot ovat aikaisemmat havainnot painotettuna yhtä suurina, Exponential Smoothing osoittaa eksponentiaalisesti laskevia painoja, kun havainto vanhenee Toisin sanoen viimeaikaisissa havainnoissa on suhteellisen enemmän painoa ennakoinnissa kuin vanhemmat havainnot. Double Exponential Smoothing on parempi käsitellä trendejä Triple Exponential Smoothing on parempi käsittelemään parabola suuntauksia. Eksponentiaalisesti painotettu liukuva keskiarvo tasaus vakio a vastaa suunnilleen yksinkertainen Liikkuva pituuden keskiarvo, ts Ajanjaksolla n, jossa a ja n liittyvät toisiinsa. 2 n 1 OR n 2 - a a. Esimerkiksi eksponentiaalisesti painotettu liukuva keskiarvo tasoitusvakion ollessa 0 1 vastaa karkeasti 19 vuorokauden liukuvaa keskiarvoa 40 päivän yksinkertainen liukuva keskiarvo vastaa suunnilleen eksponentiaalisesti painotettua liikkuvaa keskiarvoa tasoitusvakion ollessa 0 04878. Holtin Lineaarinen eksponentiaalinen tasoittaminen Oletetaan, että aikasarja on ei-kausittainen mutta näyttää trendin Holtin menetelmä arvioi sekä nykyisen Taso ja nykyinen trendi. Huomaa, että yksinkertainen liikkuva keskiarvo on eksponentiaalisen tasoituksen erikoistapaus asettamalla liikkuva keskiarvo 2-Alpha Alpha: n kokonaislukuosaan. Useimmille yritystiedoille Alpha-parametri on pienempi kuin 0 40 Tehokas Kuitenkin, voidaan suorittaa ristikkohaku parametri-tilasta, jossa on 0 1 - 0 9, lisäyksin 0 1 Tällöin paras alfalla on pienin keskimääräinen absoluuttinen virhe MA-virhe. Miten vertaillaan useita tasoitusmenetelmiä Ovat numeerisia indikaattoreita arviointitekniikan tarkkuuden arvioimiseksi, yleisimmin lähestymistapa on useiden ennusteiden visuaalisen vertailun käyttäminen niiden tarkkuuden arvioimiseksi ja valinnan eri ennustemenetelmien välillä. Tässä lähestymistavassa on käytettävä tonttia, esim. Excel samassa kaaviossa Aikasarjamuuttujan alkuperäiset arvot ja ennustetut arvot useista eri ennustomenetelmistä, mikä helpottaa visuaalista vertailua. Voit ehkä käyttää aiempia ennusteita Smoothing Techniques JavaScriptin avulla saadaksesi aikaisemmat ennustearvot, jotka perustuvat tasoitusmenetelmiin, jotka käyttävät vain yhtä parametria Holt - ja Winters-menetelmät käyttävät vastaavasti kaksi ja kolme parametria, joten ei ole helppoa valita optimaalisia tai edes lähellä optimaalisia arvoja testeillä ja virheillä parametreille. Yksittäisen eksponenttien tasaus korostaa lyhyen kantaman näkökulmaa Asettaa tason viimeiseen havaintoon ja perustuu siihen ehtoon, että ei ole trendiä Lineaarinen regressi Ioni, joka sopii pienimmän neliösumman linjaan historiallisiin tietoihin tai muunnettuihin historiatietoihin, edustaa pitkää vaihtelua, joka on riippuvainen peruskehityksestä Holtin lineaarinen eksponentiaalinen tasoittaminen kerää tietoa viimeaikaisesta trendistä. Holtin mallin parametrit ovat taso-parametri, joka Tulisi pienentää, kun datamuutoksen määrä on suuri ja trendit - parametria olisi lisättävä, jos joitain tekijöitä tukee viimeaikainen trendisuunta. Suorittavat ennusteet Huomaa, että kaikilla tämän sivun JavaScript-toiminnoilla on yksi askel eteenpäin Ennuste Jos haluat saada kaksivaiheisen ennusteen, lisää ennustettu arvo loppusummaan ja klikkaa samaa Laske - painiketta. Voit toistaa tämän prosessin muutaman kerran saadaksesi tarvittavat lyhyen aikavälin ennusteet. Time-sarjan menetelmät. Aikasarjamenetelmät ovat tilastollisia tekniikoita, jotka hyödyntävät ajan mittaan kertyneitä historiallisia tietoja. Aikasarjamenetelmät olettavat, että Menneisyys jatkuu tulevaisuudessa. Kuten nimiaikasarjojen mukaan nämä menetelmät liittyvät ennusteeseen vain yhdeksi tekijä - ajaksi. Ne sisältävät liukuvan keskiarvon, eksponenttien tasoituksen ja lineaarisen trendilinjan, ja ne ovat suosituimpia lyhyen aikavälin menetelmiä - ennusteiden ennustaminen palvelu - ja tuotantoyhtiöiden välillä. Nämä menetelmät edellyttävät, että yksilöitävissä olevat historialliset mallit tai trendit ajan myötä toistuvat itsestään. Keskimääräinen siirtäminen. Aikasarjojen ennuste voi olla yhtä yksinkertainen kuin kysynnän käyttö kuluvalla kaudella ennakoimaan kysyntää seuraavalla kaudella Tätä kutsutaan joskus naiivi - tai intuitiiviseksi ennusteeksi. Esimerkiksi jos kysyntä on 100 yksikköä tällä viikolla, ensi viikon s kysyntäennuste on 100 yksikköä, jos kysynnän osoittautuu olevan 90 yksikköä, sen jälkeen seuraavan viikon s kysyntä on 90 yksikköä , Jne. Tämäntyyppinen ennustemenetelmä ei ota huomioon historiallista kysynnän käyttäytymistä, joka perustuu vain kysyntään kuluvalla kaudella. Se reagoi suoraan normaaliin satunnaiseen m Yksinkertainen liukuva keskiarvo menetelmä käyttää useita kysyntä arvoja viime aikoina kehittää ennuste Tämä pyrkii vaimentamaan tai tasoittaa satunnaisia ​​korotuksia ja laskuja ennuste, joka käyttää vain yhden jakson Yksinkertainen liikkuva keskiarvo on hyödyllinen Ennustettu kysyntä, joka on vakaa ja jolla ei ole merkittävää kysyntäkäyttäytymistä, kuten trendiä tai kausittaista mallia. Keskimääräisiä laskelmia lasketaan tiettyinä ajanjaksoina, kuten kolmen kuukauden tai viiden kuukauden ajan, riippuen siitä, kuinka paljon ennustaja haluaa sopeuttaa kysyntitietoja Mitä pidempi liikkuva keskimääräinen ajanjakso, sitä sujuvampaa se on yksinkertaisen liikkuvan keskiarvon laskemiseen Simple Moving Average. Instant Paper Clip Office Supply Company myy ja toimittaa toimistotarvikkeita yrityksille, kouluille ja virastoille 50 mailin Varaston säde Toimistotuoteyritys on kilpailukykyinen ja kyky toimittaa tilauksia nopeasti on tekijä uusien asiakkaiden saamisessa ja vanhojen Ne toimistot eivät yleensä anna tilausta, kun ne ovat alhaiset toimituksissa, mutta kun ne loppuvat loppuun Tuloksena, ne tarvitsevat tilauksiaan välittömästi Yrityksen johtaja haluaa olla riittävän varma kuljettajilta ja ajoneuvoilla on tilaisuus toimittaa tilaukset viipymättä ja heillä on riittävästi Varaston varastossa Siksi päällikkö haluaa pystyä ennakoimaan seuraavan kuukauden aikana odotettavissa olevien tilausten lukumäärän eli toimitusten kysynnän ennakoimisen. Toimitusmääräysten kirjaamisesta johdolle on kertynyt seuraavat tiedot viimeisten 10 kuukauden aikana, Josta se haluaa laskea kolmen ja viiden kuukauden liukuva keskiarvon. Lehda olettaa, että se on lokakuun loppu Kolmen tai viiden kuukauden liukuva keskiarvo johtuu tyypillisesti seuraavalle kuukaudelle järjestyksessä, Joka tässä tapauksessa on marraskuu Liikkuva keskiarvo lasketaan tilausten kysynnästä edellisen kolmen kuukauden ajan sekvenssissä seuraavan kaavan mukaan. 5 kuukauden liukuva keskiarvo lasketaan 5 kuukauden kysyntätiedot ovat seuraavat. Kolmen ja viiden kuukauden liukuva keskimääräinen ennuste kaikkien kysyntäkuukausien aikana on esitetty seuraavassa taulukossa. Ainoastaan ​​viimeisin kuukausittainen kysyntä perustuu marraskuun ennusteeseen. Johtaja Kuitenkin aikaisempien kuukausien ennusteiden avulla voimme vertailla ennustetta todellisen kysynnän kanssa, kuinka tarkka ennuste on - eli kuinka hyvin se on. Kolmen ja viiden kuukauden keskiarvot. Edellä oleva taulukko pyrkii tasoittamaan todellisten tietojen vaihtelevuuden Tämä tasoitusvaikutus voidaan havaita seuraavassa kuvassa, jossa 3 kuukauden ja 5 kuukauden keskiarvot on asetettu alkuperäisen datan kaaviolle. 5 kuukauden Liukuva keskiarvo edellisessä luvussa tasoittaa vaihtelut suuremmassa määrin kuin 3 kuukauden liukuva keskiarvo Kuitenkin kolmen kuukauden keskiarvo kuvaa entistä paremmin toimiston toimitusjohtajan käytettävissä olevia viimeisimpiä tietoja. Yleensä ennusteet usin G pidemmän ajanjakson liukuva keskiarvo on hitaampi reagoimaan viimeaikaisiin kysynnän muutoksiin kuin lyhyemmät liikevoittoiset keskiarvoja käyttävät. Lisäjaksot heikentävät nopeutta, jolla ennuste vastaa. Määritellään sopiva määrä aikavälejä liikkuvaan keskiarvoon Keskimääräinen ennuste vaatii usein jonkin verran kokeilu - ja virhekokeet. Liikkuvan keskiarvomenetelmän haittapuoli on se, että se ei reagoinut syihin liittyviin vaihteluihin, kuten sykleihin ja kausivaihteluihin. Muutoksia aiheuttavat tekijät jätetään yleensä huomiotta. Pohjimmiltaan mekaaninen menetelmä, joka heijastaa historiallisia tietoja johdonmukaisella tavalla. Liikkeessä olevan keskimääräisen menetelmän etuna on kuitenkin se, että se on helppokäyttöinen, nopea ja suhteellisen halpa. Yleensä tämä menetelmä voi tarjota hyvän ennusteen lyhyen ajan, mutta Sitä ei pidä työntää liian kauas tulevaisuuteen. Painotettu liikkuvan keskiarvon. Liikkuvaa keskimääräistä menetelmää voidaan säätää tarkemmin heijastamaan tietojen vaihtelua Painotetussa liukuva keskiarvomenetelmässä painot määritetään viimeisimpään dataan seuraavan kaavan mukaan. Esimerkki 10 3: n taulukossa esitetyt PM-tietopalvelujen kysynnän tiedot näyttävät noudattavan kasvavaa lineaarista suuntausta. Yhtiö haluaa laskea lineaarisen Trendiviiva nähdäkseen, onko se tarkempi kuin eksponenttien tasaus ja säädetyt eksponentiaaliset tasoitusennusteet, jotka on kehitetty esimerkeissä 10 3 ja 10 4. Pienimmän neliösumman laskelmissa vaaditut arvot ovat seuraavat. Näiden arvojen käyttämistä varten lineaarisen linjan Lasketaan seuraavasti. Siksi lineaarinen trendiviiva yhtälö on. Jotta lasketaan ennuste kaudelle 13, anna x13 lineaarisessa trendiviivassa. Seuraava kaavio näyttää lineaarisen trendilinjan verrattuna todellisiin tietoihin. Suuntaviiva näyttää heijastavan Tarkka todellinen tieto eli se on hyvä sopivuus - ja se olisi siis hyvä ennuste malli tähän ongelmaan Kuitenkin epäedulliseen suuntaan lineaarinen suuntauslinja on, että se ei adju Trendi muuttuu, sillä eksponenttien tasausennusteen menetelmät eli oletetaan, että kaikki tulevat ennusteet noudattavat suoraa linjaa. Tämä rajoittaa tämän menetelmän käyttöä lyhyemmäksi ajaksi, jolloin voi olla suhteellisen varmaa, että Trendi ei muutu. Easonal Adjustments. A kausivaihtelu on kysynnän toistuva kasvu ja väheneminen Monet kysyntätavarat näyttävät kausittaista käyttäytymistä Vaatteiden myynti seuraa vuosittain kausivaihteluja, jolloin lämpimän vaatteen kysyntä kasvaa syksyllä ja talvella ja laskee keväällä ja Kesä, kun viilentävän vaatteen kysyntä kasvaa Kysyntä monien vähittäiskauppojen, kuten lelujen, urheiluvälineiden, vaatteiden, elektronisten laitteiden, kinkkujen, kalkkunoiden, viinien ja hedelmien kysyntä kasvaa lomakauden aikana Tervetuloa kortin kysyntä kasvaa yhdessä erityisten päivien, kuten Ystävänpäivä ja äitien päivä Kausiluonteiset mallit voivat esiintyä myös kuukausittain, viikoittain tai päivittäin. Jotkut ravintolat vaativat enemmän Vening kuin lounaalla tai viikonloppuisin toisin kuin arkipäivät Liikenne - siis myynti - ostoskeskuksissa nousee perjantaina ja lauantaina. On useita menetelmiä heijastamaan kausivaihteluja aikasarjan ennusteessa Kuvataan yksi yksinkertainen menetelmiä käyttämällä Kausittainen tekijä Kausittainen tekijä on numeerinen arvo, joka kerrotaan tavanomaisella ennusteella kausitasoitetun ennusteen saamiseksi. Yksi menetelmä kausittaisten tekijöiden kysynnän kehitykselle on jakaa jokaisen kausijakson kysyntä vuotuisen kysynnän mukaan. Seuraavassa kaavassa syntyneet kausitasot 0-1 0 ovat todellakin osa jokaisen kauden vuotuisesta kokonaiskysynnästä. Nämä kausittaiset tekijät kerrotaan vuotuisella ennustetulla kysynnällä, jotta saadaan kausittaiset mukautukset ennustettuihin ennusteisiin kultakin kauden salkusta. Wishbone Farms kasvattaa kalkkunoita myytäväksi liha-alan yritykselle ympäri vuoden. Kuitenkin sesonginsa on tietenkin neljännellä neljänneksellä Vuoden lokakuusta joulukuuhun Wishbone Farms on kokenut kalkkunan kysynnän viimeisen kolmen vuoden aikana. Koska meillä on kolmen vuoden kysyntätietoja, voimme laskea kausittaiset tekijät jakamalla neljännesvuosittaisen kysynnän kolmen vuoden ajan Kokonaiskysyntä kolmen vuoden aikana. Seuraavaksi haluamme kertoa ennustetun kysynnän seuraavalle vuodelle 2000 kunkin kausitekijän osalta, jotta saataisiin ennustettu kysyntä jokaisella neljänneksellä. Tämän saavuttamiseksi tarvitsemme vuoden 2000 In-demand - ennusteen. Tässä tapauksessa, koska taulukon kysyntitieto näyttää näyttävän yleisesti kasvavan trendin, laskemme lineaarisen trendilinjan taulukon kolmen vuoden ajan saadaksemme karkean ennustearvion. Tämän vuoksi vuoden 2000 ennuste on 58 17, Tai 58,170 kalkkunaa. Tämän vuotuisen kysynnän ennusteen mukaan kausitasoitetut ennusteet, SF i, vuodelle 2000, vertailla näitä neljännesvuosittaisia ​​ennusteita taulukon todellisten kysyntäarvojen kanssa, ne näyttävät olevan suhteellisen hyviä ennusteita esti Jotka heijastavat sekä datan kausivaihteluita että yleistä nousevaa suuntausta.10-12 Miten liukuva keskiarvoinen menetelmä on samanlainen kuin eksponentiaalinen tasoitus.10-13 Mikä vaikutus eksponentiaaliseen tasoitusmalliin lisää tasoitusvakion 10-14 Miten säädetty eksponentiaalinen tasoitus eroaa eksponentiaalisesta tasoituksesta.10-15 Mikä määrää tasoitusvakion valinnan trendille säädetyn eksponenttipienemallin mallissa.10-16 Aikasarjamenetelmien lukuesimerkeissä lähtöennusteen oletettiin aina olevan Sama kuin tosiasiallinen kysyntä ensimmäisellä kaudella Ehdota muita keinoja, joiden mukaan lähtöennuste voidaan johtaa varsinaisessa käytössä.10-17 Kuinka lineaarinen trendilinjan ennustamamalli eroaa ennustemallista lineaarisesta regressiomallista.10-18 Aikasarjasta Tässä luvussa esitetyt mallit, mukaan lukien liukuva keskiarvo ja painotettu liukuva keskiarvo, eksponentiaalinen tasoitus ja säädetty eksponentiaalinen tasoitus sekä lineaarinen trendilinja, Nsider the best Miksi? 10-19 Mitä etuja säätää eksponentiaalinen tasoitus on yli lineaarinen suuntaus linja ennustettu kysyntä, joka on suuntaus.4 KB Kahn ja JT Mentzer, ennuste kuluttaja-ja teollisuusmarkkinat, Journal of Business ennuste 14, ei 2 Kesä 1995 21-28.Linearinen regressioanalyysi on kaikkien tilastotekniikoiden eniten käytetty. Se on muuttujien lineaaristen additiosuhteiden tutkimus. Olkoon Y merkitsevän riippuvaisen muuttujan, jonka arvot haluat ennustaa, ja anna X 1, X k merkitä Riippumattomat muuttujat, joista haluatte ennustaa, muuttujalla X i arvo ajanjaksolla t tai rivillä t datasarjalla, jonka X on merkitty. Sen jälkeen Y: n ennustetun arvon laskemista koskeva yhtälö on. Ominaisuus, että Y: n ennuste on kunkin X-muuttujan suoraviivainen funktio, pitämällä toiset kiinnittyvät ja eri X-muuttujien panokset ennusteisiin ovat lisäaineita. Lineaariset suhteet Y: n kanssa ovat vakiot b 1 b 2,, bk muuttujien niin sanotut kertoimet, eli bi on Y: n ennustetun arvon muutos X: n muutoksen yksikössä, muut asiat ovat yhtä suuret. 0 ns. Leikkaus on ennuste, jota malli tekisi, jos kaikki Xs olisivat nollia, jos se on mahdollista. Kertoimet ja leikkaukset arvioidaan pienimmillä neliöillä eli asettamalla ne yhtä suuriksi kuin ainutlaatuiset arvot, jotka minimoivat neliövirheiden summan Mallin ennustevirheitä oletetaan olevan itsenäisesti ja identtisesti normaalisti jakautuneina. Ensimmäinen asia, mitä sinun pitäisi tietää lineaarisesta regressiosta, on se, miten outo terminen regressio tuli sovellettavaksi malleihin, kuten Tämä heidät tutkittiin perusteellisesti 1800-luvun tiedemiehenä, Sir Francis Galton Galton oli itseoppinut luonnontieteilijä, antropologi, tähtitieteilijä ja tilastotieteilijä - ja todellisessa Indiana Jones - hahmossa Hän oli kuuluisa etsinnöistään, ja hän kirjoitti bestseller-kirjan siitä, kuinka selviytyä erämaassa nimeltä The Art of Travel Shifts ja Contrivances Available in Wild Places ja sen jatko, Art of Rough Travel From Practical to Peculiar Ne ovat edelleen tulosteina ja niitä pidetään edelleen hyödyllisinä resursseina. Ne tarjoavat monia käteviä vihjeitä eloonjäämiseen - kuten keihään haavojen hoitamiseen tai hevosen poistamiseen kivistä - ja esitteli makuupussin käsitteen Länsi-Maailmaan klikkaamalla Nämä kuvat lisätietoja. Galton oli edelläkävijä tilastollisten menetelmien soveltamiseen mittauksiin monilla tieteenaloilla ja tutkimalla tietoja vanhempien ja heidän jälkeläisten suhteellisesta koosta eri kasvilajeilla ja eläimillä hän havaitsi seuraavaa ilmiötä: Suurempi kuin keskimäärin vanhempi taipumus tuottaa keskimääräistä suurempi lapsi, mutta lapsi todennäköisesti on pienempi kuin vanhempi sen suhteellisen aseman suhteen omassa sukupolvessaan N Esimerkiksi jos vanhemman koko on x keskihajonta keskiarvosta omassa sukupolvessa, sinun on ennustettava, että lapsen koko on rx r kertaa x keskihajonta keskiarvosta näiden lasten joukossa Vanhemmat, joissa r on luku pienempi kuin 1 magnitudin r on se, mitä jäljempänä määritellään korrelaationa vanhemman koon ja lapsen koon välillä. Sama koskee lähes kaikkia fyysisiä mittauksia ja ihmisten tapauksessa, Suurin osa kognitiivisen ja fyysisen kyvyn mittauksista, jotka voidaan suorittaa vanhemmille ja heidän jälkeläisilleen Tässä on ensimmäinen julkaistu kuva regressiolinjasta, joka havainnollistaa tätä vaikutusta Galtonin esittämästä luennosta vuonna 1877. Tämän kaavion R-symboli, jonka arvo on 0 33 Tarkoittaa kaltevuuskerrointa, ei korrelaatiota, vaikka nämä kaksi ovat samoja, jos molemmilla populaatioilla on sama standardipoikkeama, kuten alla näytetään. Galton kutsui tämän ilmiön regressiota kohti keskinkertaisuus, joka mod Ern termit ovat regressio keskiarvoon Na na tarkkailija voi viitata siihen, että myöhemmät sukupolvet näyttävät olevan vähemmän vaihtelevia - kirjaimellisesti keskinkertaisempaa - kuin aikaisemmat, mutta se ei ole tapaus Se on puhtaasti tilastollinen ilmiö Jollei jokainen lapsi On täsmälleen samankokoinen kuin vanhempi suhteellisesti, ellei korrelaatio ole täsmälleen yhtä kuin 1, ennusteiden on regressioitava keskimäärin biologiaan riippumatta, jos keskimääräinen neliövirhe on minimoitava. Palaa sivun yläosaan. On väistämätön tosiasia Lapsesi voidaan olettaa olevan vähemmän poikkeuksellisia parempia tai huonompia kuin sinä Olet pisteet kurssin lopputentilla voidaan olettaa olevan vähemmän hyvä tai huono kuin puolestasi Muut luokan baseball-pelaajan keskimääräiset lyönnit kauden toisella puoliskolla voidaan olettaa olevan lähempänä kaikkien pelaajien keskiarvoa kuin hänen lyöntivuoroaan kesken kauden ensimmäisellä puoliskolla ja niin edelleen Avainsana täällä Odotetaan, tämä ei tarkoita, että on totta, että regressiota keskiarvoon tapahtuu, mutta se on tapa panostaa. Olemme jo nähneet ehdotuksen regression-to-the-keskiarvo joissakin aikasarjan ennakointi malleja olemme tutkineet Ennusteiden tasot ovat yleensä heikompia - heillä on vähemmän vaihtelua - kuin alkuperäisten tietojen tontit. Tämä ei päde satunnaisia ​​kävelymalleja, mutta yleensä pätee liikkuvaan keskimäärään malleihin ja muihin malleihin, jotka perustuvat ennusteisiinsa Enemmän kuin yksi aiempi havainto. Yksinkertainen selitys regressiovirheelle on yksinkertainen, mihin yritämme ennustaa, yleensä koostuu ennakoitavasta komponenttisignaalista ja tilastollisesti riippumattomasta ennakoimattomasta komponenttikohusta. Paras, mitä voimme toivoa, on ennustaa vain osa siitä Vaihtelu, joka johtuu signaalista. Näin ollen ennustuksemme näyttävät olevan vähemmän vaihtelevia kuin todelliset arvot, mikä merkitsee regressiota keskiarvoon. Toinen tapa ajatella regressiovirhe on termi Valituksen väärinkäytön yleisyys Pelaajien suorituskyky tietyn ajanjakson aikana voi johtua taitojen ja onnen yhdistelmästä. Oletetaan, että valitaan ammattilaisammion näytteitä, joiden suorituskyky oli paljon keskimääräistä parempi tai opiskelijat, joiden arvosanat olivat paljon parempia kuin Keskimäärin vuoden alkupuoliskolla Se, että he tekivät niin hyvin vuoden alkupuoliskolla, on todennäköistä, että sekä taitot että heidän onnensa ovat keskimäärin parempia tuona aikana. Vuoden toisella puoliskolla voimme odottaa heitä Olla yhtä taitavia, mutta emme saa odottaa heidän olevan yhtä onnekkaita. Joten meidän pitäisi ennustaa, että toisella puoliskolla niiden suorituskyky on lähempänä keskiarvoa. Keskimäärin, pelaajat, joiden suorituskyky oli keskimäärin vain ensimmäisellä puoliskolla, oli todennäköisesti taitoa ja onnea Vastakkaisiin suuntiin. Siksi meidän pitäisi odottaa, että heidän suorituksensa toisella puoliskolla siirtyy pois keskiarvosta toiseen suuntaan, kun saamme toisen itsenäisen testin Heidän taitonsa Me emme tiedä, mihin suuntaan he liikkuvat, joten edes heidän puolestaan ​​meidän on ennustettava, että heidän toisella puoliskollaan suoritettu suorituskyky on lähempänä keskiarvoa kuin ensimmäisellä puoliajallaan. Pelaajien todellisen suorituskyvyn odotetaan kuitenkin olevan Yhtä suurta varianssia vuoden toisella puoliskolla kuin ensimmäisellä puoliskolla, koska se johtuu pelkästään satunnaisen satunnaisen haasteen uudelleenjakoon pelaajien välillä, joilla on sama taitotaso kuin aiemmin. Hyvää keskustelua regressiosta keskiarvoon laajemmalla Yhteiskuntatieteellisen tutkimuksen konteksti löytyy täältä. Palaa sivun yläosaan. Radiointiongelmien perustelut. Jotka meidän pitäisi olettaa, että muuttujien väliset suhteet ovat lineaarisia. Jos lineaariset suhteet ovat yksinkertaisimpia ei-triviaaleja suhteita, jotka voidaan kuvitella, joten helpoin työskennellä Ja koska siksi, että muuttujien väliset todelliset suhteet ovat usein ainakin likimain lineaarisia arvojen välillä, jotka kiinnostavat Meille, ja. Jopa jos ne eivät ole, voimme usein muuntaa muuttujat siten, että ne lineaarisevat suhteet. Tämä on voimakas oletus, ja ensimmäisen vaiheen regressiomallinnuksessa olisi tarkasteltava muuttujien hajusteita ja Aikasarjatietojen tapauksessa muuttujat vs. aika, jotta voidaan varmistaa, että se on kohtuullinen a priori. Mallin asennuksen jälkeen on tutkittava virheiden alueet, jotta voidaan nähdä, onko olemassa selittämätöntä epälineaarista mallia. Tämä on erityisen tärkeää, kun Tavoitteena on tehdä ennusteita skenaarioista, jotka ovat historiallisten tietojen ulkopuolella, jolloin täydellisestä lineaarisuudesta lähtevät todennäköisimmin suurimmat vaikutukset Jos näet todisteita epälineaarisista suhteista, on mahdollista, vaikka ei taata, että muuttujien muutokset suoristavat ne Tavalla, joka tuottaa hyödyllisiä johtopäätöksiä ja ennusteita lineaarisen regression kautta. Palaa sivun alkuun. Ja miksi meidän pitäisi olettaa, että eri riippumattomien muuttujien vaikutukset Riippuvaisen muuttujan arvo on additiivinen Tämä on erittäin voimakas oletus, vahvempi kuin useimmat ihmiset ymmärtävät. Se tarkoittaa, että yhden riippumattoman muuttujan eli sen kaltevuuskertoimen marginaalivaikutus ei riipu muiden itsenäisten muuttujien nykyisistä arvoista. Mutta miksi ei pitäisi sitä On mahdollista, että yksi riippumaton muuttuja voi monistaa toisen vaikutusta tai että sen vaikutus voi vaihdella systemaattisesti ajan myötä Monen regressiomallin avulla tietyn riippumattoman muuttujan arvioitu kerroin oletettavasti mittaa sen vaikutusta samalla kun se kontrolloi muiden läsnäoloa. , Tapa, jolla valvonta suoritetaan, on erittäin yksinkertainen muiden muuttujien monikerta, lisätään tai vähennetään vain. Monet käyttäjät vain heittävät paljon riippumattomia muuttujia malliksi ajattelematta huolellisesti tätä kysymystä, ikään kuin heidän ohjelmistonsa selvittäisi täsmälleen miten Ne liittyvät. Se ei myöskään ole automaattisia mallinvalintatapoja, esim. Vaiheittainen regre Että sinun on ymmärrettävä omat tietosi ja että he käyttävät ohjaavaa kättä analyysissä. He työskentelevät vain niillä annetuilla muuttujilla, muodossa, jota heille annetaan, ja sitten he katsovat vain lineaarisia, lisäaineita Ne toistensa yhteydessä Regressiomalli ei pelkästään oleta, että Y on jokin X: n funktio. Se olettaa, että se on hyvin erityinen X: n funktio. Yleinen käytäntö on sisällyttää riippumattomat muuttujat, joiden ennustavat vaikutukset ovat loogisesti Ei voi olla additiivinen, toisin sanoen jotkut, jotka ovat kokonaismääriä ja muita, jotka ovat ryhmiä tai prosenttiosuuksia. Joskus tämä voidaan järkiperäistää paikallisilla ensimmäisen kertaluvun lähentämisperusteilla, ja joskus se voi t. Sinun on kerättävä tarvittavat tiedot, ymmärrettävä, mitä se mittaa, Puhdista se tarvittaessa, suorittakaa kuvailevaa analyysia etsimään malleja ennen mallien sovittamista ja tutkimaan mallin oletusten diagnostisia testejä sen jälkeen, erityisesti virheiden tilastot ja tontit. Yritä soveltaa sopivaa taloudellista tai fyysistä päättelyä sen määrittämiseksi, onko additiivinen ennustusyhtälö järkevää Täällä on myös mahdollista, mutta ei taata, että muuttujien muutokset tai vuorovaikutusperusteiden sisällyttäminen voivat erottaa vaikutuksensa lisäaineeksi, elleivät ne On tällainen muoto aluksi, mutta tämä vaatii jonkinlaista ajatusta ja vaivaa omalla puolellasi. Palaa sivun alkuun. Ja miksi meidän pitäisi olettaa, että lineaaristen malleja koskevat virheet ovat itsenäisesti ja identtisesti normaalisti jakautuneita1. Tämä oletus on usein perusteltu muutoksenhakuun Tilastojen keskitason lause, jossa todetaan, että riittävän suuri määrä itsenäisiä satunnaismuuttujia, riippumatta niiden yksittäisistä jakaumista, lähestyy normaalia jakelua. Liiketoiminnan ja talouden sekä tekniikan ja luonnontieteiden paljon tietoa saadaan Lisäämällä tai laskemalla yhteen numeeriset mittaukset, jotka suoritetaan useille eri henkilöille tai tuotteille tai paikoille tai ajankohtana Koska mittaukset tuottavat toiminnot voivat tapahtua jonkin verran satunnaisesti ja jonkin verran itsenäisesti, voimme odottaa, että summien tai keskiarvojen vaihtelut ovat jonkin verran normaalisti jakautuneita.2 Se on jälleen matemaattisesti sopiva, se tarkoittaa, että optimaalinen kerroin estimaatit lineaariselle mallille Ovat ne, jotka minimoivat keskimääräisen neliövirheen, joka on helposti laskettavissa, ja se oikeuttaa useiden tilastollisten testien käytön normaalijakaumaryhmän perusteella. Tämä perhe sisältää t-jakauman, F-jakauman ja Chi-neliöjakauman3. Vaikka todellinen virheprosessi ei ole normaalia alkuperäisten tietojen yksiköiden kannalta, voi olla mahdollista muuntaa data niin, että mallin ennustevirheet ovat tavallisesti normaaleja. Joten tässäkin on oltava varovaisuutta. Vaikka selvittämättömiä muunnelmia On riippuvainen muuttuja suunnilleen normaalisti jakautunut, ei ole taattua, että ne ovat myös identtisesti normaalisti jakautuneina Riippumattomien muuttujien arvot. Ehkä selvittämättömät vaihtelut ovat suurempia tietyissä olosuhteissa kuin toiset, ehto, joka tunnetaan heteroskedastiikaksi. Esimerkiksi jos riippuva muuttuja koostuu päivittäisestä tai kuukausittaisesta kokonaismyynnistä, on luultavasti merkittäviä viikonpäivän kuvioita Tai kausivaihtelut Tällaisissa tapauksissa kokonaisuuden varianssi on suurempi päivinä tai kausina, joilla on suurempi liiketoiminta - toinen seuraus keskitetystä raja-arvosta Muutoksia, kuten puunkorjuuta tai kausittaista säätöä, käytetään usein tämän ongelman ratkaisemiseen. Ei myöskään ole taattua, että satunnaisvaihtelut ovat tilastollisesti riippumattomia Tämä on erityisen tärkeä kysymys, kun tieto koostuu aikasarjasta, jos mallia ei ole määritelty oikein, on mahdollista, että peräkkäiset virheet tai virheet, jotka on erotettu jollakin muulla aikavälillä Systemaattinen taipumus olla sama merkki tai systemaattinen taipumus olla vastakkaisia ​​merkkejä, phenome Jota ei tunneta autokorrelaatioksi tai sarjakorrelaatioksi. Erittäin tärkeä erityistapaus on osakekurssitieto, jossa prosentuaalinen muutos sijaan absoluuttiset muutokset yleensä jaetaan normaalisti. Tämä tarkoittaa sitä, että pörssikurssien liikkeet jakautuvat normaalisti suurille aikakausille Kuin normaalisti jakautui Logamuunnos on tyypillisesti sovellettu aikaisempaan osakekurssitietoon kasvua ja volatiilisuutta tutkittaessa. Varoitus, vaikka usein yksinkertaisia ​​regressiomalleja käytetään usein historiallisiin osakekannuihin betojen arvioimiseksi, jotka ovat suhteellisen riskin indikaattoreita hajautetun salkun yhteydessä. I Älä suosittele, että käytät regressiota, jotta voit yrittää ennustaa tulevia tuotto-tuottoja. Katso sijaan geometrista satunnaiskävelysivua. Voit silti ajatella, että varastojen salkkujen arvojen vaihtelut yleensä jakautuvat keskitetyn raja - Mutta keskeinen raja-ilmiö on varsin hidas puristaa lognormal distr Ibution, koska se on niin epäsymmetrisesti pitkäkarvainen 10 tai 20 itsenäisesti ja identtisesti lognormally distributed muuttujien summa on jakauma, joka on vielä melko lähellä lognormal Jos et usko tätä, kokeile sen testaus Monte Carlo simulointi olet yllättynyt I Oli. Koska lineaarisen regression oletukset lineaariset, additiiviset suhteet iid: n normaalisti jakautuneiden virheiden kanssa ovat niin vahvoja, että on erittäin tärkeää testata niiden pätevyyttä sovittaessa malleja, aihe, jota on käsitelty tarkemmin testaus-malli-olettamus - sivulla ja oltava varoitus Että saatat tarvita enemmän tai parempia tietoja tavoitteiden saavuttamiseksi Et voi saada jotain mitään Ei liian usein, regression-analyysin käyttäjät näkevät sen mustana laatikossa, joka voi automaattisesti ennustaa minkä tahansa muuttujan muista muuttujista Syötetään siihen, kun itse asiassa regressiomalli on hyvin erityinen ja hyvin läpinäkyvä ennustuslaatikko. Sen tuotos ei sisällä enempää tietoa kuin on Ja sen sisäinen mekanismi on verrattava todellisuuteen kussakin tilanteessa, jossa sitä käytetään Palaa sivun yläosaan. Yhteenveto ja yksinkertaiset regressiokaavat. Muuttuja on määritelmän mukaan määrä, joka voi vaihdella yhdestä mittauksesta toiseen Toinen tilanteissa, joissa väestöstä otetaan erilaisia ​​näytteitä tai havaintoja tehdään eri ajankohtina Tilastollisten mallien sovittamisessa, jossa joitain muuttujia käytetään ennustamaan toisiaan, toivomme, että erilaiset muuttujat eivät eroa itsenäisesti Tilastollisesti merkityksellistä, mutta heillä on taipumus vaihdella toisiaan. Erityisesti lineaaristen mallien sovittamisen yhteydessä toivomme, että yksi muuttuja sanoo, että Y vaihtelee toisen muuttujan suoraviivaisena funktioksi, eli X Jos toisin sanoen kaikki muut Mahdollisesti merkitseviä muuttujia voitaisiin pitää kiinteänä, toivomme, että Y: n ja X: n kaavio on suorassa linjassa väistämättömien satunnaisten virheiden tai melun kanssa. Muuttujan vaihtelu on luonnollisesti sen varianssi, joka määritellään sen keskimääräiseksi neliölliseksi poikkeamaksi omasta keskiarvosta. Vastaavasti voimme mitata vaihtelevuutta standardipoikkeamana, joka määritellään varianssi neliöjuurena. Vakiopoikkeamalla on se etu, että Mitataan samoilla yksiköillä kuin alkuperäinen muuttuja, ei neliöllisiä yksiköitä. Y: n ennustamisessa tehtävää tehtävää voidaan kuvata sillä, että se selittäisi osan tai koko varianssin - siis miksi tai millä edellytyksillä, poikkeaa sen keskiarvosta. Eikö ole vakio? Eli haluamme kyetä parantamaan naiiveja ennustavaa mallia t CONSTANT, jossa vakiolle paras arvo on oletettavasti Y: n historiallinen keskiarvo. Toivomme, että löydämme mallin, jonka ennustevirheet Ovat pienempiä, keskimäärin nelikulmassa, kuin alkuperäisen muuttujan poikkeamat sen keskiarvosta. Käytettäessä lineaarisia malleja ennustukseen, käy ilmi erittäin sopivasti, että ainoat kiinnostavat tilastot ovat ainakin f Tai kertoimien arvioimista varten neliövirheen minimoimiseksi ovat kunkin muuttujan keskiarvo ja varianssi sekä kunkin muuttujaparin välinen korrelaatiokerroin. X: n ja Y: n välisen korrelaation kerroin on yleisesti merkitty r XY: llä ja se mittaa lineaarisen suhteen vahvuuden Ne suhteellisessa eli yksikötön asteikolla -1-1. Toisin sanoen se mittaa, missä määrin lineaarista mallia voidaan käyttää ennustamaan yhden muuttujan poikkeama sen keskiarvosta, joka on toisen s: n poikkeama keskiarvostaan ​​samaan Ajanjaksolla. Korrelaatiokerroin lasketaan helpoimmin, jos ensin standardoidaan muuttujat, mikä tarkoittaa, että ne muunnetaan standardi-poikkeamien yksiköiksi keskiarvosta käyttäen väestön keskihajontaa pikemminkin kuin otoksen keskihajonta, ts. Tilasto, jonka kaava n on nimensä sijasta n-1, jossa n on näytekoko X: n standardoitu versio merkitään täällä X: llä ja sen arvo jaksolla t Määritetään Excel-merkinnällä. Where STDEV P on Excel-funktio väestön keskihajonnalle Tässä ja muualla käytän Excel-funktioita tavanomaisten matemaattisymboleiden sijaan joissakin kaavoissa havainnollistamaan kuinka laskelmat tehdään laskentataulukossa Oletetaan esimerkiksi, että AVERAGE X 20 ja STDEV PX 5 Jos X t 25, niin X t 1, jos X t 10, niin X t -2 ja niin edelleen Y merkitsevät samanlaista standardisoitua arvoa Y. Nyt korrelaatiokerroin On yhtä kuin kahden muuttujan standardoitujen arvojen keskimääräinen tuotos tietyssä näytteessä n havainnoista. Jos esimerkiksi X ja Y tallennetaan laskentataulukon sarakkeisiin, voit käyttää AVERAGE - ja STDEV P - funktioita laskettaessa their averages and population standard deviations, then you can create two new columns in which the values of X and Y in each row are computed according to the formula above Then create a third new column in which X is multiplied by Y in every row The average of the values in the last column is the correlation between X and Y Of course, in Excel, you can just use the formula CORREL X, Y to calculate a correlation coefficient, where X and Y denote the cell ranges of the data for the variables Note in some situations it might be of interest to standardize the data relative to the sample standard deviation, which is STDEV S in Excel, but the population statistic is the correct one to use in the formula above Return to top of page. If the two variables tend to vary on the same sides of their respective means at the same time, then the average product of their deviations and hence the correlation between them will be positive since the product of two numbers with the same sign is positive Conversely, if they tend to vary on opposite sides of their respective means at the same time, their correlation will be negative If they vary independently with respect to their means--that is, if one is equally likely to be above or below its mean regardless of what t he other is doing--then the correlation will be zero And if Y is an exact linear function of X, then either Y t X t for all t or else Y t - X t for all t in which case the formula for the correlation reduces to 1 or -1.The correlation coefficient can be said to measure the strength of the linear relationship between Y and X for the following reason The linear equation for predicting Y from X that minimizes mean squared error is simply. Thus, if X is observed to be 1 standard deviation above its own mean, then we should predict that Y will be r XY standard deviations above its own mean if X is 2 standard deviations below its own mean, then we should be predict that Y will be 2 r XY standard deviations below its own mean, and so on. In graphical terms, this means that, on a scatterplot of Y versus X the line for predicting Y from X so as to minimize mean squared error is the line that passes through the origin and has slope r XY This fact is not supposed to be obvious, but it is easily prov ed by elementary differential calculus. Here is an example on a scatterplot of Y versus X the visual axis of symmetry is a line that passes through the origin and whose slope is equal to 1 i e a 45-degree line , which is the gray dashed line on the plot below It passes through the origin because the means of both standardized variables are zero, and its slope is equal to 1 because their standard deviations are both equal to 1 The latter fact means that the points are equally spread out horizontally and vertically in terms of mean squared deviations from zero, which forces their pattern to appear roughly symmetric around the 45-degree line if the relationship between the variables really is linear However, the gray dashed line is the not the best line to use for predicting the value of Y for a given value of X The best line for predicting Y from X has a slope of less than 1 it regresses toward the X axis The regression line is shown in red, and its slope is the correlation between X and Y which is 0 46 in this case Why is this true Because, that s the way to bet if you want to minimize the mean squared error measured in the Y direction If instead you wanted to predict X from Y so as to minimize mean squared error measured in the X direction, the line would regress in the other direction relative to the 45-degree line, and by exactly the same amount. If we want to obtain the linear regression equation for predicting Y from X in unstandardized terms we just need to substitute the formulas for the standardized values in the preceding equation, which then becomes. By rearranging this equation and collecting constant terms, we obtain. is the estimated slope of the regression line, and. is the estimated Y - intercept of the line. Notice that, as we claimed earlier, the coefficients in the linear equation for predicting Y from X depend only on the means and standard deviations of X and Y and on their coefficient of correlation. The additional formulas that are needed to compute sta ndard errors t-statistics and P-values statistics that measure the precision and significance of the estimated coefficients are given in the notes on mathematics of simple regression and also illustrated in this spreadsheet file. Perfect positive correlation r XY 1 or perfect negative correlation r XY -1 is only obtained if one variable is an exact linear function of the other, without error, in which case they aren t really different variables at all. In general we find less-than-perfect correlation, which is to say, we find that r XY is less than 1 in absolute value Therefore our prediction for Y is typically smaller in absolute value than our observed value for X That is, the prediction for Y is always closer to its own mean, in units of its own standard deviation, than X was observed to be, which is Galton s phenomenon of regression to the mean. So, the technical explanation of the regression-to-the-mean effect hinges on two mathematical facts i the correlation coefficient, calculated in the manner described above, happens to be the coefficient that minimizes the squared error in predicting Y from X and ii the correlation coefficient is never larger than 1 in absolute value, and it is only equal to 1 when Y is an exact noiseless linear function of X. The term regression has stuck and has even mutated from an intransitive verb into a transitive one since Galton s time We don t merely say that the predictions for Y regress to the mean --we now say that we are regressing Y on X when we estimate a linear equation for predicting Y from X and we refer to X as a regressor in this case. When we have fitted a linear regression model, we can compute the variance of its errors and compare this to the variance of the dependent variable the latter being the error variance of an intercept-only model The relative amount by which the regression model s error variance is less than the variance of the dependent variable is referred to as the fraction of the variance that was explained by the independent variable s For example, if the error variance is 20 less than the original variance, we say we have explained 20 of the variance. It turns out that in a simple regression model, the fraction of variance explained is precisely the square of the correlation coefficient --i e the square of r Hence, the fraction-of-variance-explained has come to be known as R-squared The interpretation and use of R-squared are discussed in more detail here. In a multiple regression model one with two or more X variables , there are many correlation coefficients that must be computed, in addition to all the means and variances For example, we must consider the correlation between each X variable and the Y variable, and also the correlation between each pair of X variables In this case, it still turns out that the model coefficients and the fraction-of-variance-explained statistic can be computed entirely from knowledge of the means, standard deviations, and correlation coefficients among t he variables--but the computations are no longer easy We will leave those details to the computer Return to top of page. Go on to a nearby topic.

No comments:

Post a Comment