Poziom: zaawansowany 30 godzin dydaktycznych Zajęcia zdalne lub stacjonarne w sali komputerowej Zaświadczenie ukończenia Ocena kursu: 4,60/5,00 – 93% ocen co najmniej 4 (w skali od 1 do 5) Koordynator: Piotr Ćwiakowski (pcwiakowski@labmasters.pl) Oprogramowanie: Python / Jupyter Notebook Miejsce: Wydział Nauk Ekonomicznych UW, Warszawa ul. Długa 44/50 (mapa) |
Opis kursu
Kurs „Deep Learning, Text Mining i XAI w Pythonie” prowadzony jest na poziomie zaawansowanym i jest kontynuacją kursu „Warsztaty Machine Learning w Pythonie”. Po opanowaniu najpopularniejszych i relatywnie prostych modeli Machine Learning, takich jak lasy losowe i XGBoost, dalsza edukacja analityka pracującego w roli Data Scientist powinna skupić się na poznaniu zagadnień i narzędzi specjalistycznych, a także uzyskaniu umiejętności potrzebnych do uprodukcyjniania stworzonych narzędzi i przekształceniu uzyskiwanych prognoz w zysk dla przedsiębiorstwa.
Celem kursu jest przekazanie Słuchaczom umiejętności w zakresie modelowania i interpretacji modeli Machine Learning i Deep Learning na poziomie eksperckim. Omawiane na zajęciach przykłady aplikacyjne są niestandardowe i złożone (nieustrukturyzowane dane tekstowe, analiza obrazów oraz próby niezbalansowane). Prowadzący przekazują praktyczną wiedzę opartą o doświadczenie biznesowe zdobyte w projektach consultingowych. Uczestnik kursu otrzymuje obszerne materiały, zawierające kody i procedury do natychmiastowego wykorzystania w postaci gotowych receptur we własnych analizach.
Na zajęciach uczymy w sposób intuicyjny teoretycznych i matematycznych podstaw, silnych i słaby stron każdej metody. W trakcie kursu przypomniane zostaną modele XGBoost i lasów losowych. Zajęcia podzielone są na część wykładową (ok. 40% zajęć), ćwiczeniową (ok. 40%, prezentacja i interpretacja kodów w Pythonie) i pracę własną uczestników (20%) – polegającą na rozwiązywaniu biznesowych case study przygotowanych przez Prowadzącego. Podczas części ćwiczeniowej nacisk położony jest na poznanie efektywnych metod przetwarzania danych oraz programowania w środowisku Python.
Zapisy
Zgłoś zainteresowanie
Jeżeli jesteś zainteresowany(a) wzięciem udziału w tym kursie, ale w późniejszym terminie, zgłoś wstępną chęć uczestnictwa. Dzięki temu, wcześniej niż inni otrzymasz informację o zapisach i będziesz mieć pierwszeństwo w rejestracji.
Tematyka kursu
Sieci neuronowe
Typowe struktury sieci neuronowych i ich konstrukcja (MLP, CNN), przegląd i znaczenie funkcji aktywujących, porównanie algorytmów optymalizacyjnych (m. in. SGD, Adam), techniki ograniczania ryzyka przetrenowania modelu (warstwa dropout, L1, L2), dobre praktyki tuningu hiperparametrów. Praktyka tworzenia sieci neuronowych w pakietach tensorflow oraz keras. Przykłady i wprowadzenie do zaawansowanych sieci neuronowych (RNN, LSTM).
Text Mining/Natural Language Processing
Funkcje tekstowe, wyrażenia regularne, czyszczenie i obróbka tekstu, lematyzacja, stemizacja, stop-words, analiza sentymentu, segmentacja danych, klasyfikacja dokumentów (uczenie nadzorowane). Algorytm word2vec (word embedding) i jego rozwinięcia. Latent Semantic Analysis, Latent Dirichlet Allocation, metryki odległości dla danych tekstowych.
Modelowanie danych niezbalansowanych
Metody próbkowania danych (sampling): under-sampling, over-sampling, SMOTE, ROSE, Tomek links, NearMiss) wykorzystanie odpowiednich metryk przy walidacji i wyborze modelu, modyfikacja i strojenie hiperparametrów w problemach modelowania klas niezbalansowanych (m. in. XGBoost, Penalized-SVM).
Explainable Machine Learning (XAI)
Przegląd dostępnych pakietów (ze szczególnym uwzględnieniem Dalex). Omówienie i porównanie technik wyjaśniania modeli dla obserwacji (m. in. break-down plot, liczby Shapleya, wykres Ceteris-Paribus), dla zmiennych ( m.in. rankingi ważności zmiennych, Partial Dependence Profile Plot, Local-dependence i ALE plot), diagnostyka modelu i analiza rozkładu reszt. Przykłady biznesowej ewaluacji produkcyjnych wyników modelu w formie case study.