Poziom średnio zaawansowany + zaawansowany 30 godzin dydaktycznych Zajęcia zdalne lub stacjonarne w sali komputerowej Zaświadczenie ukończenia Ocena kursu: 5,00/5,00 – 100% ocen co najmniej 4 (w skali od 1 do 5) Koordynator: Piotr Ćwiakowski (pcwiakowski@labmasters.pl) Oprogramowanie: R / R Studio Miejsce: Wydział Nauk Ekonomicznych UW, Warszawa ul. Długa 44/50 (mapa) |
Opis kursu
Kurs „Warsztaty Machine Learning w R”, na poziomie średnio zaawansowanym i zaawansowanym. Celem jest przekazanie praktycznej wiedzy o bardzo popularnych obecnie technikach analizy ilościowej znanych jako uczenie maszynowe (Machine Learning). Pozwalają one na efektywne wykorzystanie potencjału biznesowego leżącego w bazach danych gromadzonych przez przedsiębiorstwa, korporacje i instytucje publiczne.
Na zajęciach zagadnienia przedstawiane są w sposób intuicyjny (a nie teoretyczny), aplikacyjny i praktyczny co pozwala lepiej zrozumieć sposób działania algorytmów uczenia maszynowego. Warsztatowa forma zajęć, czyli najpierw prezentacja modeli i przejście przez przykładowe analizy, a później ćwiczenia samodzielne pod kierunkiem prowadzącego, pozwalają na zdobycie konkretnych umiejętności już w trakcie zajęć. Wymagana jest podstawowa znajomość statystyki i podstawowa znajomość R.
Podczas kursu podpowiadamy, z których narzędzi korzystać, aby zapewnić sobie najwyższą jakość predykcji. Przekazujemy wiedzę jakie modele stosować w określonych przypadkach (np. duża próba v. mała próba, dużo zmiennych v. mało zmiennych, zadania klasyfikacyjne v. regresyjne). Prezentujemy mocne i słabe strony algorytmów i ich implementacje w pakietach R. Uczymy krytycznej oceny wyników i poprawnej, wiarygodnej walidacji modeli – czyli state-of-the-art w coraz ważniejszej dla gospodarki dziedzinie wiedzy: interdyscyplinarnej analizie danych – Data Science.
Zapisy
Zgłoś zainteresowanie
Planowany termin: wrzesień-listopad 2024. Jeżeli jesteś zainteresowany(a) wzięciem udziału w kursie realizowanym na żywo, zgłoś wstępną chęć uczestnictwa. Dzięki temu, wcześniej niż inni otrzymasz informację o zapisach i będziesz mieć pierwszeństwo w rejestracji.
Tematyka kursu
Wprowadzenie do Data Science
Cel i zakres dziedziny, przegląd metod i zastosowań, przegląd pakietów R-owych do Machine Learning, przegląd bibliografii przedmiotu oraz omówienie roli uczenie maszynowego w procesach analizy danych.
Zagadnienia ogólne w Machine Learning
Omówienie procesu walidacji krzyżowej i jej roli w ocenie jakości prognoz, wykrywaniu i zwalczaniu przetrenowania modeli oraz optymalizacji wartości hiperparametrów (metodą grid search, random search). Techniki wyjaśniania złożonych modeli uczenia maszynowego (m. in. pakiet Dalex). Omówienie różnych miar jakości prognoz dla zmiennej ciągłej i dyskretnej i ich interpretacja biznesowa. Przegląd technik regularyzacji równań liniowych: regresja grzbietowa (ridge regression, L2), LASSO (L1), Elastic Net, (L1/L2), Partial Least Squares (PLS), Principal Component Regression (PCR), Least Angle Regression (LARS). Przykłady feature engineering i algorytmów feature selection.
Uczenie nadzorowane – wprowadzenie
Regresja liniowa i logistyczna, przegląd zaawansowanych technik regresyjnych do modelowania nieliniowości (General Additive Models – GAM, Multivariate Adaptive Regression Splines – MARS, oraz regresja lokalna – LOWESS i LOESS), metoda najbliższych sąsiadów (kNN), naiwne podejście bayesowskie (naive bayes), drzewa klasyfikacyjne i regresyjne, maszyna wektorów nośnych (Support Vector Machine – SVM).
Zaawansowane uczenie nadzorowane
Ensembling modeli: stacking, bagging lasy losowe (Random Forest), „zwiększone” drzewa decyzyjne (boosting, boosted trees) estymowane metodą gradientową (Extreme Gradient Boosting, xgboost), optymalizacja hiperparametrów w XGBoost.
Techniki uczenia nienadzorowanego
Redukcja wymiarów (analiza PCA, MDS, ICA), techniki klastrowania (hierarchiczne, niehierarchiczne, oraz metody zaawansowane: m. in. klastrowanie rozmyte, DB-SCAN oraz EM algorithms), analiza koszykowa (Market Basket Analysis) i wprowadzenie do systemów rekomendacyjnych.
Czego się nauczysz
Rezultatem kursu Warsztaty Machine Learning w R będzie wprowadzenie Cię na poziom zaawansowany w dziedzinie uczenie maszynowe: budowanie skutecznych modeli predykcyjnych za pomocą walidacji krzyżowej, dobór właściwych technik do problemu badawczego, techniki tuningu hiperparametrów, ograniczenie ryzyka przetrenowania modelu. Poznasz najskuteczniejsze algorytmy uczenia maszynowego do modelowania i prognozowania zmiennych ciągłych i dyskretnych. Będziesz potrafił zastosować metody Machine Learning do specyfiki różnych zbiorów danych. Nauczymy Cię w optymalny sposób programować i implementować analizy Data Science w środowisku R i RStudio.