Regresja jest techniką statystyczną, która pomaga badaczom oszacować warunkowe oczekiwanie dla populacji, gdy wszystkie jej zmienne niezależne przyjmą określony zestaw wartości. Znana jest jako regresja liniowa. Inne, mniej popularne rodzaje regresji, zwane nieparametryczną i logistyczną, wykorzystują nieco inne procedury. Oprócz regresji liniowej istnieje również kilka form regresji nieparametrycznej. Regresja nieparametryczna szacuje oczekiwania warunkowe w szerszej klasie modeli nieliniowych.
Spis treści artykułu
Regresja logistyczna
W nauce o danych regresja logistyczna jest ważnym narzędziem do przewidywania ryzyka wystąpienia określonego wyniku. Jest to rodzaj modelu klasyfikacyjnego uczenia maszynowego z nadzorem, który charakteryzuje się wysoką dokładnością w przewidywaniu trendów kategorii. Ponieważ proces ten jest tak szczegółowy, można go wykorzystać do przewidywania ryzyka zachorowania na raka przez zmianę zmiennych. Na przykład rzędowa regresja logistyczna może zmienić ryzyko danej osoby na wysokie, umiarkowane lub niskie.
Innym użytecznym zastosowaniem regresji logistycznej jest klasyfikacja. Model regresji logistycznej może sklasyfikować osobę, oceniając prawdopodobieństwo wystąpienia danej klasy. Na przykład model logistyczny może przewidzieć, czy osoba, która uczy się przez godzinę dziennie, ma większe szanse na zdanie lub niezdanie określonego egzaminu. Dzięki tym spostrzeżeniom organizacje mogą optymalizować swoje kampanie marketingowe i udoskonalać strategie biznesowe. Wykorzystanie takich danych może również prowadzić do obniżenia kosztów i zwiększenia zwrotu z inwestycji.
Innym użytecznym zastosowaniem regresji logistycznej jest przewidywanie prawdopodobieństwa kliknięcia reklamy. W ten sposób marketerzy mogą przewidzieć, ile osób kliknie reklamę, a banki mogą wykorzystać regresję logistyczną do przewidywania prawdopodobieństwa niespłacenia kredytu. Za pomocą tej technologii można przewidzieć, która klasa ukończy wyścig jako pierwsza, a która jako ostatnia. Można ją również wykorzystać do przewidywania prawdopodobieństwa niespłacenia kredytu przez daną osobę. Gdy nauczysz się implementować logistykę, możesz jej używać do przewidywania wielu innych zastosowań.
Aby utworzyć model logistyczny, musisz najpierw wiedzieć, ile punktów jest w zbiorze danych. Najpierw należy określić typ wyniku, który ma być przewidywany. Na przykład, jeśli uczeń uczył się przez godzinę dziennie, może oczekiwać wzrostu wyniku testu o 500 punktów. Jeśli uczeń uczył się przez trzy godziny dziennie, może nie uzyskać 500 punktów. W obu przypadkach strata z modelu logistycznego jest większa niż procent przewidywanego wyniku.
Prosta regresja liniowa
Prosty model regresji liniowej to analiza statystyczna, w której do wyjaśnienia zależności wykorzystuje się jedną zmienną niezależną i jedną zmienną zależną. Zmienne niezależne są nazywane regresorami i predyktorami. Zmienna zależna jest nazywana odpowiedzią. Współczynnik regresji i nachylenie są wartościami, przy których stwierdza się istnienie związku między dwiema zmiennymi. Do zobrazowania tej zależności służy wykres rozrzutu. W powyższym przykładzie założono, że wydajność procesu chemicznego jest związana z temperaturą, w której przebiega reakcja.
Współczynnik regresji oblicza się na tablicy rozkładu t, a w tym przykładzie zamiast tablicy z zastosowano tablicę rozkładu t. W tym przykładzie praktycznym pokazano, jak obliczyć wartość testu regresji i współczynnik korelacji. Tabela z ma jeden stopień swobody; tabela t ma dwa stopnie. Współczynnik regresji, który wynosi 25,3, jest średnią zależności między dwiema zmiennymi.
Dobrym przykładem prostej regresji liniowej jest zależność między wagą a wzrostem. Mierząc trzy osoby o każdym wzroście i stosując linię regresji, możemy modelować średnią masę ciała badanych. Najczęściej stosowanym sposobem wyznaczania wartości nachylenia i punktu przecięcia jest estymator najmniejszych kwadratów. Celem jest zminimalizowanie resztowej sumy kwadratów (zwanej też błędem kwadratowym) związanej z regresją. Aby określić związek między zmiennymi, można również sporządzić wykres obserwacji.
Linia regresji podąża za środkiem masy populacji. Jeśli próbka jest rozłożona promieniście, linia regresji przechodzi przez środek masy. Jeśli linia regresji nie jest symetryczna, współczynnik korelacji będzie mniejszy niż jeden. Linia regresji nie będzie pasować idealnie, jeśli promienie są nieparametryczne. Błąd standardowy nachylenia jest również wykorzystywany do sprawdzenia dokładności modelu. Metoda ta jest często stosowana do pomiaru współczynników korelacji.
Regresja gaussowska
Główną różnicą między GP a metodami nieparametrycznymi jest to, że GP zależy od małego podzbioru zmiennych, czyli dziedziny zmiennej docelowej. Innymi słowy, nie sprawdza się ona dobrze, gdy zmienna docelowa charakteryzuje się dużą zmiennością. Dlatego też, gdy zmienna docelowa jest duża, najlepiej jest stosować technikę nieparametryczną, taką jak regresja logistyczna. Ponadto ten typ regresji ma wiele zalet, które sprawiają, że jest preferowanym wyborem w wielu sytuacjach.
Podejście GP jest nieparametryczną bayesowską metodą modelowania, która znajduje szerokie zastosowanie w wielu dziedzinach. W artykule przedstawiono teoretyczne aspekty GP i podano prosty przykład z wykorzystaniem problemu regresji. Następnie analiza będzie obejmowała wprowadzenie różnych cech rozkładu gaussowskiego, w tym marginalizacji i warunkowania. Są to kluczowe elementy wnioskowania bayesowskiego, które umożliwiają wnioskowanie bayesowskie. Analiza GP wymaga jednak szerokiej wiedzy z zakresu statystyki.
Regresja lokalnie ważona jest kolejną metodą nieparametryczną, która pozwala na uwzględnienie dużej liczby danych. Mimo swojej skuteczności nie zapewnia ona w pełni generatywnego modelu wartości funkcji. Co więcej, wymaga ona, aby dane treningowe i testowe były identyczne, a fizyka danych wejściowych i modelu była dobrze zrozumiała. Koszt obliczeniowy regresji gaussowskiej jest jednak wyższy. Podobnie jak w przypadku każdej innej metody nieparametrycznej, regresja gaussowska ma w wielu przypadkach przewagę.
Proces gaussowski to zbiór zmiennych losowych, określanych jako GP, o wspólnym rozkładzie gaussowskim. GP ma funkcję średniej m(x) i funkcję kowariancji k(x,y’). Wynikiem tego procesu jest E(f(x) = m(x).
Regresja logistyczna z danymi kategorycznymi
Pierwszym krokiem w zastosowaniu regresji logistycznej do danych kategorycznych jest zdefiniowanie zmiennych tworzących model. Na przykład, jeśli chcemy znaleźć rozkład częstości występowania pewnego produktu, możemy użyć predyktora kategorycznego. W przypadku stosowania zmiennych kategorycznych są one nazywane zmiennymi wskaźnikowymi. Wskaźniki te będą miały strukturę k-kategorialną, a ich wartości domyślne to 1 i 0.
Model regresji logistycznej można wykorzystać do analizy rozkładu częstości występowania pojedynczej zmiennej lub zestawu zmiennych. Najczęściej stosowany model logistyczny zakłada rozkład Bernoulliego z prawdopodobieństwem pi. Każda odpowiedź charakteryzuje się zbiorem indywidualnych cech, które można sklasyfikować za pomocą modelu logistycznego. Model ten ma wiele zastosowań, a szczególnie przydatny jest w analizie danych.
Innym przykładem regresji logistycznej wykorzystującej dane kategoryczne jest badanie wyników egzaminów. Ta sama technika jest przydatna do zrozumienia częstotliwości zażywania narkotyków wśród przyjaciół. Podobnie, jeśli użytkownik jest zainteresowany badaniem wpływu płci i wieku na wyniki egzaminów, może użyć dwumianowego modelu logistycznego do zbadania używania narkotyków w danej populacji. Innym przykładem regresji logistycznej wykorzystującej dane kategoryczne może być zrozumienie wpływu klasy społecznej na dochody, wiek i wykształcenie.
Jednym z kluczowych czynników decydujących o powodzeniu modelu regresji logistycznej jest wybór odpowiednich zmiennych. W badaniu, w którym zmienne wejściowe są silnie skorelowane, włączenie zbyt wielu zmiennych może rozmyć rzeczywisty związek i spowodować powstanie nieprecyzyjnych przedziałów ufności. Dlatego ważne jest, aby uwzględniać tylko te zmienne, które są od siebie rzeczywiście niezależne. Na przykład, jeśli powierzchnia ciała i wzrost są związane z nadciśnieniem tętniczym, łączne użycie tych dwóch zmiennych nie będzie dobrym wyborem.
Ostrzegawcze wartości w analizie regresji
Ostrzegawcza wartość to nietypowa obserwacja lub seria danych. Obserwacje te nie są zgodne z modelem i nazywane są wartościami odstającymi. Położenie wartości odstających na wykresie jest ważne, ponieważ mogą one zmieniać współczynniki, statystyki błędów i przewidywania. Wartości odstające są często trudne do wykrycia. Na szczęście istnieją pewne metody, które mogą pomóc w wykrywaniu wartości odstających. Poniżej wymieniono trzy metody identyfikowania wartości odstających.
Odstająca to obserwacja, która ma dużą resztę lub inną nietypową wartość. W analizie regresji wartość x może drastycznie wpłynąć na wynik modelu. W badaniach nieplanowanych często gromadzi się dane bez planu, a wyniki badania prawdopodobnie odzwierciedlają te problemy. Z kolei odchylenia Y są częste, ale nie tak istotne jak odchylenia x.
Odchylenie może również spowodować, że model stanie się niedokładny. Znaczące wartości odstające mogą zmienić równanie i doprowadzić do złego oszacowania lub przewidywania. Na poniższym wykresie rozrzutu przedstawiono równanie liniowe zawierające wartość odstającą. Więcej szczegółów można znaleźć w poniższych artykułach. Wartości odstające w analizie regresji są ważne, a ich identyfikacja jest istotna dla powodzenia analizy statystycznej. Istnieje wiele sposobów radzenia sobie z wartościami odstającymi, a ten artykuł ma na celu pomóc w ich identyfikacji.
Pierwszym sposobem wykrywania wartości odstających jest poszukiwanie regionów, w których występują istotne różnice. Następnie należy podzielić reszty przez RSDR, aby znaleźć wartość P, która jest dwuwarstwowa. Następnie należy zdefiniować wszystkie istotne wartości P jako wartości odstające. Do tego celu potrzebna jest wartość Q, która jest ważną zmienną w analizach statystycznych. Mała wartość Q pozwoli zidentyfikować niewiele dobrych punktów jako wartości odstające, natomiast duża Q zwiększy moc analizy.