P4 - Deep Learning, Text Mining i XAI w Pythonie

Poziom: zaawansowany

30 godzin dydaktycznych

Zajęcia zdalne lub stacjonarne w sali komputerowej

Zaświadczenie ukończenia

Ocena kursu: 4,60/5,00 – 93% ocen co najmniej 4 (w skali od 1 do 5)

Koordynator: Piotr Ćwiakowski (pcwiakowski@labmasters.pl)

Oprogramowanie: Python / Jupyter Notebook

Miejsce: Wydział Nauk Ekonomicznych UW, Warszawa ul. Długa 44/50 (mapa)

Opis kursu

Kurs „Deep Learning, Text Mining i XAI w Pythonie” prowadzony jest na poziomie zaawansowanym i jest kontynuacją kursu „Warsztaty Machine Learning w Pythonie”. Po opanowaniu podstawowych modeli Machine Learning, takich jak lasy losowe i XGBoost, dalsza edukacja analityka pracującego w roli Data Scientist powinna skupić się na poznaniu zagadnień i narzędzi specjalistycznych, które pozwolą skutecznie modelować tzw. trudne zbiory danych, dla których proste podejścia nie sprawdzają się dobrze lub nie wykorzystują w pełni potencjału posiadanych informacji.

Celem kursu jest przekazanie Słuchaczom umiejętności w zakresie modelowania i interpretacji modeli Machine Learning i Deep Learning na poziomie eksperckim. Omawiane na zajęciach przykłady aplikacyjne są niestandardowe i złożone (nieustrukturyzowane dane tekstowe, analiza obrazów, zbiory zawierające anomalie oraz próby niezbalansowane). Prowadzący przekazują praktyczną wiedzę opartą o doświadczenie biznesowe zdobyte w projektach consultingowych. Uczestnik kursu otrzymuje obszerne materiały, zawierające kody i procedury do natychmiastowego wykorzystania w postaci gotowych receptur we własnych analizach.

Na zajęciach uczymy w sposób intuicyjny teoretycznych i matematycznych podstaw, silnych i słaby stron każdej metody. W trakcie kursu przypomniane zostaną modele XGBoost i lasów losowych. Zajęcia podzielone są na część wykładową (ok. 40% zajęć), ćwiczeniową (ok. 40%, prezentacja i interpretacja kodów w Pythonie) i pracę własną uczestników (20%) – polegającą na rozwiązywaniu biznesowych case study przygotowanych przez Prowadzącego. Podczas części ćwiczeniowej nacisk położony jest na poznanie efektywnych metod przetwarzania danych oraz programowania w środowisku Python.

Zapisy

Zgłoś zainteresowanie

Planowany termin: wrzesień-listopad 2024. Jeżeli jesteś zainteresowany(a) wzięciem udziału w tym kursie, ale w późniejszym terminie, zgłoś wstępną chęć uczestnictwa. Dzięki temu, wcześniej niż inni otrzymasz informację o zapisach i będziesz mieć pierwszeństwo w rejestracji.

Zgłoś Mnie

Tematyka kursu

Sieci neuronowe

Typowe struktury sieci neuronowych i ich konstrukcja (MLP, CNN), przegląd i znaczenie funkcji aktywujących, porównanie algorytmów optymalizacyjnych (m. in. SGD, Adam), techniki ograniczania ryzyka przetrenowania modelu (warstwa dropout, L1, L2), dobre praktyki tuningu hiperparametrów. Praktyka tworzenia sieci neuronowych w pakietach tensorflow oraz keras. Przykłady i wprowadzenie do zaawansowanych sieci neuronowych (RNN, LSTM).

Text Mining/Natural Language Processing

Funkcje tekstowe, wyrażenia regularne, czyszczenie i obróbka tekstu, lematyzacja, stemizacja, stop-words, analiza sentymentu, segmentacja danych, klasyfikacja dokumentów (uczenie nadzorowane). Algorytm word2vec (word embedding) i jego rozwinięcia. Latent Semantic Analysis, Latent Dirichlet Allocation, metryki odległości dla danych tekstowych.

Modelowanie danych niezbalansowanych

Metody próbkowania danych (sampling): under-sampling, over-sampling, SMOTE, ROSE, Tomek links, NearMiss) wykorzystanie odpowiednich metryk przy walidacji i wyborze modelu, modyfikacja i strojenie hiperparametrów w problemach modelowania klas niezbalansowanych (m. in. XGBoost, Penalized-SVM).

Detekcja anomalii

Teoria detekcji anomalii (definicje, typy obserwacji odstających, klasyfikacja podejść do wykrywania outlierów). Różnica między obserwacją nietypową a wpływową. Przegląd statystyk i modeli wykrywających anomalie, m. in.: test Tukeya, test Grubba, kryterium z-score, odległość Cooka, Isolation Forest, One-class SVM, DBSCAN, KNN, Histogram-based Outlier Detection (HBOS), Cluster-based Local Outlier Factor (CBLOF) i Autoencodery.

Explainable Machine Learning (XAI)

Przegląd dostępnych pakietów (ze szczególnym uwzględnieniem Dalex). Omówienie i porównanie technik wyjaśniania modeli dla obserwacji (m. in. break-down plot, liczby Shapleya, wykres Ceteris-Paribus), dla zmiennych ( m.in. rankingi ważności zmiennych, Partial Dependence Profile Plot, Local-dependence i ALE plot), diagnostyka modelu i analiza rozkładu reszt. Przykłady biznesowej ewaluacji produkcyjnych wyników modelu w formie case study.