Poziom średnio zaawansowany + zaawansowany 30 godzin dydaktycznych Zajęcia zdalne lub stacjonarne w sali komputerowej Zaświadczenie ukończenia Ocena kursu: 5,00/5,00 – 100% ocen co najmniej 4 (w skali od 1 do 5) Koordynator: Piotr Ćwiakowski (pcwiakowski@labmasters.pl) Oprogramowanie: R / R Studio Miejsce: Wydział Nauk Ekonomicznych UW, Warszawa ul. Długa 44/50 (mapa) |
Opis kursu
Kurs „Warsztaty Machine Learning w R”, na poziomie średnio zaawansowanym i zaawansowanym. Celem jest przekazanie praktycznej wiedzy o bardzo popularnych obecnie technikach analizy ilościowej znanych jako uczenie maszynowe (Machine Learning). Pozwalają one na efektywne wykorzystanie potencjału biznesowego leżącego w bazach danych gromadzonych przez przedsiębiorstwa, korporacje i instytucje publiczne.
Na zajęciach zagadnienia przedstawiane są w sposób intuicyjny (a nie teoretyczny), aplikacyjny i praktyczny co pozwala lepiej zrozumieć sposób działania algorytmów uczenia maszynowego. Warsztatowa forma zajęć, czyli najpierw prezentacja modeli i przejście przez przykładowe analizy, a później ćwiczenia samodzielne pod kierunkiem prowadzącego, pozwalają na zdobycie konkretnych umiejętności już w trakcie zajęć. Wymagana jest podstawowa znajomość statystyki i podstawowa znajomość R.
Podczas kursu podpowiadamy, z których narzędzi korzystać, aby zapewnić sobie najwyższą jakość predykcji. Przekazujemy wiedzę jakie modele stosować w określonych przypadkach (np. duża próba v. mała próba, dużo zmiennych v. mało zmiennych, zadania klasyfikacyjne v. regresyjne). Prezentujemy mocne i słabe strony algorytmów i ich implementacje w pakietach R. Uczymy krytycznej oceny wyników i poprawnej, wiarygodnej walidacji modeli – czyli state-of-the-art w coraz ważniejszej dla gospodarki dziedzinie wiedzy: interdyscyplinarnej analizie danych – Data Science.
Zapisy
Rejestracja na kurs jest aktywna
Termin: 12.02-20.02.2025, środy i czwartki w godz. 9:00-15:00.
Daty zajęć: 12.02, 13.02, 19.02, 20.02.
Stan zapisów: rejestracja aktywna do 25.11.2024 do godz. 7.00 lub do wyczerpania miejsc.
Uwaga: ta edycja kursu realizowana jest jedynie w formie zdalnej.
Zgłoś zainteresowanie
Jeżeli jesteś zainteresowany(a) wzięciem udziału w kursie realizowanym na żywo, zgłoś wstępną chęć uczestnictwa. Dzięki temu, wcześniej niż inni otrzymasz informację o zapisach i będziesz mieć pierwszeństwo w rejestracji.
Tematyka kursu
Wprowadzenie do Data Science
Cel i zakres dziedziny, przegląd metod i zastosowań, przegląd pakietów R-owych do Machine Learning (tidymodels, caret, mlr), przegląd bibliografii przedmiotu oraz omówienie roli uczenie maszynowego w procesach analizy danych.
Wprowadzenie do Machine Learning
Omówienie procesu walidacji krzyżowej i jej roli w ocenie jakości prognoz, wykrywaniu i zwalczaniu przetrenowania modeli oraz optymalizacji wartości hiperparametrów (metodą grid search, random search). Omówienie różnych miar jakości prognoz dla zmiennej ciągłej i dyskretnej i ich interpretacja biznesowa. Przegląd technik regularyzacji równań liniowych: regresja grzbietowa (ridge regression, L2), LASSO (L1), Elastic Net, (L1/L2), Partial Least Squares (PLS), Principal Component Regression (PCR), Least Angle Regression (LARS). Przykłady feature engineering i algorytmów feature selection.
Uczenie nadzorowane
Regresja liniowa i logistyczna, przegląd zaawansowanych technik regresyjnych do modelowania nieliniowości (General Additive Models – GAM, Multivariate Adaptive Regression Splines – MARS, oraz regresja lokalna – LOWESS i LOESS), metoda najbliższych sąsiadów (kNN), naiwne podejście bayesowskie (naive bayes), drzewa klasyfikacyjne i regresyjne, maszyna wektorów nośnych (Support Vector Machine – SVM). Ensembling modeli: stacking, bagging lasy losowe (Random Forest), „zwiększone” drzewa decyzyjne (boosting) estymowane metodą gradientową (xgboost, lightgbm), optymalizacja hiperparametrów w XGBoost.
Explainable Machine Learning (XAI)
Przegląd dostępnych pakietów (ze szczególnym uwzględnieniem Dalex). Omówienie i porównanie technik wyjaśniania modeli lokalnie (dla obserwacji – m. in. break-down plot, liczby Shapleya, wykres Ceteris-Paribus), globalnie dla zmiennych ( m.in. rankingi ważności zmiennych, Partial Dependence Profile Plot, Local-dependence i ALE plot), diagnostyka modelu i analiza rozkładu reszt.
Sieci neuronowe
Typowe struktury sieci neuronowych i ich konstrukcja (MLP, CNN, RNN), przegląd i znaczenie funkcji aktywujących, porównanie algorytmów optymalizacyjnych (m. in. SGD, Adam), techniki ograniczania ryzyka przetrenowania modelu (warstwa dropout, L1, L2), dobre praktyki tuningu hiperparametrów. Praktyka tworzenia sieci neuronowych w pakietach tensorflow oraz keras
Uczenie nienadzorowane
Redukcja wymiarów (analiza PCA, MDS, ICA), techniki klastrowania (hierarchiczne, niehierarchiczne, oraz metody zaawansowane: m. in. klastrowanie rozmyte, DB-SCAN oraz EM algorithms), analiza koszykowa (Market Basket Analysis) i wprowadzenie do systemów rekomendacyjnych.
Czego się nauczysz
Rezultatem kursu Warsztaty Machine Learning w R będzie wprowadzenie Cię na poziom zaawansowany w dziedzinie uczenie maszynowe: budowanie skutecznych modeli predykcyjnych za pomocą walidacji krzyżowej, dobór właściwych technik do problemu badawczego, techniki tuningu hiperparametrów, ograniczenie ryzyka przetrenowania modelu. Poznasz najskuteczniejsze algorytmy uczenia maszynowego do modelowania i prognozowania zmiennych ciągłych i dyskretnych. Będziesz potrafił zastosować metody Machine Learning do specyfiki różnych zbiorów danych. Nauczymy Cię w optymalny sposób programować i implementować analizy Data Science w środowisku R i RStudio.