Poziom: zaawansowany 30 godzin dydaktycznych Zajęcia zdalne lub stacjonarne w sali komputerowej Zaświadczenie ukończenia Ocena kursu: 4,60/5,00 – 93% ocen co najmniej 4 (w skali od 1 do 5) Koordynator: Piotr Ćwiakowski (pcwiakowski@labmasters.pl) Oprogramowanie: Python / Jupyter Notebook Miejsce: Wydział Nauk Ekonomicznych UW, Warszawa ul. Długa 44/50 (mapa) |
Opis kursu
Kurs „Deep Learning, Text Mining i XAI w Pythonie” prowadzony jest na poziomie zaawansowanym i jest kontynuacją kursu „Warsztaty Machine Learning w Pythonie”. Po opanowaniu podstawowych modeli Machine Learning, takich jak lasy losowe i XGBoost, dalsza edukacja analityka pracującego w roli Data Scientist powinna skupić się na poznaniu zagadnień i narzędzi specjalistycznych, które pozwolą skutecznie modelować tzw. trudne zbiory danych, dla których proste podejścia nie sprawdzają się dobrze lub nie wykorzystują w pełni potencjału posiadanych informacji.
Celem kursu jest przekazanie Słuchaczom umiejętności w zakresie modelowania i interpretacji modeli Machine Learning i Deep Learning na poziomie eksperckim. Omawiane na zajęciach przykłady aplikacyjne są niestandardowe i złożone (nieustrukturyzowane dane tekstowe, analiza obrazów, zbiory zawierające anomalie oraz próby niezbalansowane). Prowadzący przekazują praktyczną wiedzę opartą o doświadczenie biznesowe zdobyte w projektach consultingowych. Uczestnik kursu otrzymuje obszerne materiały, zawierające kody i procedury do natychmiastowego wykorzystania w postaci gotowych receptur we własnych analizach.
Na zajęciach uczymy w sposób intuicyjny teoretycznych i matematycznych podstaw, silnych i słaby stron każdej metody. W trakcie kursu przypomniane zostaną modele XGBoost i lasów losowych. Zajęcia podzielone są na część wykładową (ok. 40% zajęć), ćwiczeniową (ok. 40%, prezentacja i interpretacja kodów w Pythonie) i pracę własną uczestników (20%) – polegającą na rozwiązywaniu biznesowych case study przygotowanych przez Prowadzącego. Podczas części ćwiczeniowej nacisk położony jest na poznanie efektywnych metod przetwarzania danych oraz programowania w środowisku Python.
Zapisy
Rejestracja na kurs jest aktywna
Termin: 6.11-27.11.2024, poniedziałki i środy w godz. 16:30-20:30.
Daty zajęć: 6.11, 13.11, 18.11, 20.11, 25.11, 27.11.
Stan zapisów: rejestracja aktywna do 4.11.2024 do godz. 7.00 lub do wyczerpania miejsc.
Uwaga: ta edycja kursu realizowana jest jedynie w formie zdalnej.
Zgłoś zainteresowanie
Jeżeli jesteś zainteresowany(a) wzięciem udziału w tym kursie w innym terminie, zgłoś wstępną chęć uczestnictwa. Dzięki temu, wcześniej niż inni otrzymasz informację o zapisach i będziesz mieć pierwszeństwo w rejestracji.
Tematyka kursu
Sieci neuronowe
Typowe struktury sieci neuronowych i ich konstrukcja (MLP, CNN), przegląd i znaczenie funkcji aktywujących, porównanie algorytmów optymalizacyjnych (m. in. SGD, Adam), techniki ograniczania ryzyka przetrenowania modelu (warstwa dropout, L1, L2), dobre praktyki tuningu hiperparametrów. Praktyka tworzenia sieci neuronowych w pakietach tensorflow oraz keras. Przykłady i wprowadzenie do zaawansowanych sieci neuronowych (RNN, LSTM).
Text Mining/Natural Language Processing
Funkcje tekstowe, wyrażenia regularne, czyszczenie i obróbka tekstu, lematyzacja, stemizacja, stop-words, analiza sentymentu, segmentacja danych, klasyfikacja dokumentów (uczenie nadzorowane). Algorytm word2vec (word embedding) i jego rozwinięcia. Latent Semantic Analysis, Latent Dirichlet Allocation, metryki odległości dla danych tekstowych.
Modelowanie danych niezbalansowanych
Metody próbkowania danych (sampling): under-sampling, over-sampling, SMOTE, ROSE, Tomek links, NearMiss) wykorzystanie odpowiednich metryk przy walidacji i wyborze modelu, modyfikacja i strojenie hiperparametrów w problemach modelowania klas niezbalansowanych (m. in. XGBoost, Penalized-SVM).
Detekcja anomalii
Teoria detekcji anomalii (definicje, typy obserwacji odstających, klasyfikacja podejść do wykrywania outlierów). Różnica między obserwacją nietypową a wpływową. Przegląd statystyk i modeli wykrywających anomalie, m. in.: test Tukeya, test Grubba, kryterium z-score, odległość Cooka, Isolation Forest, One-class SVM, DBSCAN, KNN, Histogram-based Outlier Detection (HBOS), Cluster-based Local Outlier Factor (CBLOF) i Autoencodery.
Explainable Machine Learning (XAI)
Przegląd dostępnych pakietów (ze szczególnym uwzględnieniem Dalex). Omówienie i porównanie technik wyjaśniania modeli dla obserwacji (m. in. break-down plot, liczby Shapleya, wykres Ceteris-Paribus), dla zmiennych ( m.in. rankingi ważności zmiennych, Partial Dependence Profile Plot, Local-dependence i ALE plot), diagnostyka modelu i analiza rozkładu reszt. Przykłady biznesowej ewaluacji produkcyjnych wyników modelu w formie case study.