P5 - Statystyka, ekonometria i szeregi czasowe w Pythonie

Poziom: średnio zaawansowany

30 godzin dydaktycznych

Zajęcia zdalne lub stacjonarne w sali komputerowej

Zaświadczenie ukończenia

Ocena kursu: nowy kurs

Koordynator: Piotr Ćwiakowski (pcwiakowski@labmasters.pl)

Oprogramowanie: Python / Jupyter Notebook

Miejsce: Wydział Nauk Ekonomicznych UW, Warszawa ul. Długa 44/50 (mapa)

Opis kursu

Po opanowaniu podstaw programowania w Pythonie i analizy danych w pakiecie Pandas i Matplotlib, kolejnym krokiem w rozwoju analityka danych jest poznanie technik statystycznej i ekonometrycznej danych. Na kursie Statystyka, ekonometria i szeregi czasowe w Pythonie Słuchacz pozna wszystkie podstawowe koncepcje statystyczne, które pozwolą mu poprawnie weryfikować postawione hipotezy badawcze, czy to za pomocą prosty testów statystycznych, czy też bardziej złożonej analizy regresji. Podczas kursu wszystkie prezentowane koncepcje statystyczne i modele przedstawiane są w sposób intuicyjny i praktyczny (na przykładach), dzięki czemu Słuchacz kończąc kurs potrafi zastosować poznane umiejętności na własnych danych oraz rozumie w sposób praktyczny założenia poszczególnych modeli (oraz konsekwencje ich niespełnienia i środki zapobiegawcze w przypadku ich naruszenia). Zdobyta wiedza o analizie statystycznej i ekonometrycznej jest usystematyzowana i funkcjonalna.

Ponadto, znajomość statystyki i podstaw ekonometrii jest niezbędna nie tylko w pracy badawczo-naukowej, ale również w modelowaniu biznesowym. Znajomość technik analizy statystycznej jest bardzo przydatna w Data Science i uczeniu maszynowym, ponieważ modele Machine Learning bazują na koncepcjach opracowanych przez statystyków i ekonometryków. Ponadto, poprawna eksploracja danych (explanatory data analysis) wymaga znajomości technik statystyki opisowej czy analizy korelacji. Wreszcie, liniowe modele regresyjne (oparte o metodę najmniejszych kwadratów i metodę największej wiarygodności) dla prób przekrojowych i szeregów czasowych są (i będą) podstawą budowania modeli prognostycznych.

Reasumując, kurs Statystyka, ekonometria i szeregi czasowe w Pythonie jest kompendium wiedzy i umiejętności o najważniejszych metodach modelowania statystycznego i ekonometrycznego. Kurs jest prowadzony od podstaw i znajomość technik statystycznej analizy danych nie jest potrzebne. Natomiast znajomość podstaw Pythona (omawianych np. na kursie Analiza danych i programowanie w Pythonie) jest wymagana.

Zapisy

Rejestracja na kurs jest aktywna

Termin: 17.06-25.06.2024, poniedziałki i wtorki w godz. 9:00-15:00.
Daty zajęć: 17.06, 18.06, 24.06, 25.06.
Stan zapisów: rejestracja aktywna do 13.06.2024 do godz. 8:00 lub do wyczerpania miejsc.
Uwaga: kurs realizowany w formie stacjonarno-zdalnej. Wybór preferowanej formy w formularzu rejestracyjnym.

Zapisz Mnie

Zgłoś zainteresowanie

Jeżeli jesteś zainteresowany(a) wzięciem udziału w tym kursie, ale w późniejszym terminie, zgłoś wstępną chęć uczestnictwa. Dzięki temu, wcześniej niż inni otrzymasz informację o zapisach i będziesz mieć pierwszeństwo w rejestracji.

Zgłoś Mnie

Tematyka kursu

Wprowadzenie do statystyki w Pythonie

Wprowadzenie do statystyki opisowej, techniki opisywania rozkładu (miary tendencji centralnej, miary rozproszenia), wizualizacja rozkładu empirycznego (histogram, wykres pudełkowy i skrzypcowy, wykres słupkowy, wykres gęstości, wykres kwantylowy (q-q) i inne. Prawo Wielkich Liczb i Centralne Twierdzenie Graniczne. Przegląd wybranych rozkładów zmiennej ciągłej i dyskretnej. Przegląd pakietów do analizy danych w Pythonie: Numpy, Scipy, Pandas.

Procedura testowania statystycznego

Błąd standardowy (pojęcie i oszacowanie), hipoteza zerowa i alternatywna, omówienie błędów I i II rodzaju, poziomu istotności, konstrukcja statystyki testowej, interpretacja wyniku testu statystycznego, przedział ufności – budowa i interpretacja.

Przegląd testów parametrycznych

Testy t Studenta i Z w jednej i dwóch próbach dla średnich, testy homogeniczności wariancji, testy odsetka, model ANOVA dla więcej niż dwóch prób wraz z analizą kontrastów i testami post-hoc. Omówienie założeń testów parametrycznych i konsekwencji ich nie spełnienia.

Badanie normalności rozkładu

Znaczenie założenia o normalności rozkładu, testowanie hipotezy o normalności rozkładu (test Kołmogorowa-Smirnowa, Shapiro-Wilka, Jarque-Bera, Andersona-Darlinga i inne).

Przegląd testów nieparametrycznych

Test znaków, test Manna-Witneya, test Wilcoxona, test Kruskalla-Wallisa. Omówienie założeń testów nieparametrycznych i konsekwencji ich niespełnienia.

Analiza korelacji

Testowanie i interpretacja współczynnika korelacji (Pearsona, Spearmana, Tau Kendalla), różnica między korelacją i przyczynowością, korelacja cząstkowa, korelacja w próbach niehomogenicznych.

Analiza tablicy kontyngencji

Test zgodności i niezależności chi-kwadrat, poprawka Yatesa, Test Fishera, statystyka V-Cramera, współczynnik Phi, test McNemara, test Cochrana Q.

Regresja liniowa

Teoria budowy modelu regresji liniowej, algorytm wyznaczania parametrów, regresja z jedną zmienną, regresja wielu zmiennych, oszacowanie i interpretacja wyników, diagnostyka modelu, sposoby poprawiania modelu w przypadku niespełnienia założeń klasycznego modelu regresji liniowej.

Metody symulacyjne w statystyce

Bootstrap, Monte Carlo i testy permutacyjne w statystyce.

Wprowadzenie do badania mocy testu (power analysis)

Badania ewaluacyjne w R. Metodologia RCT (Randomized Control Trials), testy A/B w przedsiębiorstwie, kontrolowanie błędu II rodzaju, badanie mocy testu statystycznego, określanie wielkości próby do badania.

Szeregi czasowe

Wprowadzenie do analizy szeregów czasowych. Dekompozycja szeregów czasowych w formie addytywnej i multiplikatywnej. Stacjonarność szeregu czasowego – diagnostyka. Modele ADF, ARMA, ARIMA. Diagnostyka modeli (wykresy ACF, PACF, testy Boxa-Pierce’a, Ljunga-Boxa, test Jarque-Berra). Badanie sezonowości. Model SARIMA. Budowanie prognoz w modelach ARIMA i SARIMA.

Statystyka, ekonometria i szeregi czasowe w Pythonie - nowy kurs!