|
Poziom: zaawansowany 30 godzin dydaktycznych Zajęcia zdalne lub stacjonarne w sali komputerowej Zaświadczenie ukończenia Ocena kursu: 4,60/5,00 – 93% ocen co najmniej 4 (w skali od 1 do 5) Koordynator: Piotr Ćwiakowski (pcwiakowski@labmasters.pl) Oprogramowanie: Python / Jupyter Notebook Miejsce: Wydział Nauk Ekonomicznych UW, Warszawa ul. Długa 44/50 (mapa) |
Opis kursu
Kurs „Deep Learning, Text Mining i XAI w Pythonie” prowadzony jest na poziomie zaawansowanym i jest kontynuacją kursu „Warsztaty Machine Learning w Pythonie”. Po opanowaniu podstawowych modeli Machine Learning, takich jak lasy losowe i XGBoost, dalsza edukacja analityka pracującego w roli Data Scientist powinna skupić się na poznaniu zagadnień i narzędzi specjalistycznych, które pozwolą skutecznie modelować tzw. trudne zbiory danych, dla których proste podejścia nie sprawdzają się dobrze lub nie wykorzystują w pełni potencjału posiadanych informacji.
Celem kursu jest przekazanie Słuchaczom umiejętności w zakresie modelowania i interpretacji modeli Machine Learning i Deep Learning na poziomie eksperckim. Omawiane na zajęciach przykłady aplikacyjne są niestandardowe i złożone (nieustrukturyzowane dane tekstowe, analiza obrazów, zbiory zawierające anomalie oraz próby niezbalansowane). Prowadzący przekazują praktyczną wiedzę opartą o doświadczenie biznesowe zdobyte w projektach consultingowych. Uczestnik kursu otrzymuje obszerne materiały, zawierające kody i procedury do natychmiastowego wykorzystania w postaci gotowych receptur we własnych analizach.
Na zajęciach uczymy w sposób intuicyjny teoretycznych i matematycznych podstaw, silnych i słaby stron każdej metody. W trakcie kursu przypomniane zostaną modele XGBoost i lasów losowych. Zajęcia podzielone są na część wykładową (ok. 40% zajęć), ćwiczeniową (ok. 40%, prezentacja i interpretacja kodów w Pythonie) i pracę własną uczestników (20%) – polegającą na rozwiązywaniu biznesowych case study przygotowanych przez Prowadzącego. Podczas części ćwiczeniowej nacisk położony jest na poznanie efektywnych metod przetwarzania danych oraz programowania w środowisku Python.
Zapisy
Rejestracja na kurs jest aktywna
Termin: 11.05-19.05.2026 poniedziałki, wtorki w godz. 9.00-15:00
Daty zajęć: 11.05, 12.05, 18.05, 19.05.
Stan zapisów: rejestracja aktywna do 7.05.2026 do godz. 7.00 lub do wyczerpania miejsc.
Uwaga: kurs realizowany w formie zdalnej.
Zgłoś zainteresowanie
Jeżeli jesteś zainteresowany(a) wzięciem udziału w tym kursie w innym terminie, zgłoś wstępną chęć uczestnictwa. Dzięki temu, wcześniej niż inni otrzymasz informację o zapisach i będziesz mieć pierwszeństwo w rejestracji.
Tematyka kursu
Ensembling modeli
Powtórzenie i rozszerzenie wiadomości dotyczące ensemblingu w uczeniu maszynowym. Omówienie modeli: lasów losowych, extreme randomized trees, boostingu (w implementacjach: XGBoost, LightGBM, Catboost).
Explainable Machine Learning (XAI)
Przegląd dostępnych pakietów (ze szczególnym uwzględnieniem Dalex). Omówienie i porównanie technik wyjaśniania modeli dla obserwacji (m. in. break-down plot, liczby Shapleya, wykres Ceteris-Paribus), dla zmiennych ( m.in. rankingi ważności zmiennych, Partial Dependence Profile Plot, Local-dependence i ALE plot), diagnostyka modelu i analiza rozkładu reszt. Przykłady biznesowej ewaluacji produkcyjnych wyników modelu w formie case study.
Modelowanie danych niezbalansowanych
Metody próbkowania danych (sampling): under-sampling, over-sampling, SMOTE, ROSE, Tomek links, NearMiss) wykorzystanie odpowiednich metryk przy walidacji i wyborze modelu, modyfikacja i strojenie hiperparametrów w problemach modelowania klas niezbalansowanych (m. in. XGBoost, Penalized-SVM).
Text Mining/Natural Language Processing
Funkcje tekstowe, wyrażenia regularne, czyszczenie i obróbka tekstu, lematyzacja, stemizacja, stop-words, analiza sentymentu, segmentacja danych, klasyfikacja dokumentów (uczenie nadzorowane). Algorytm word2vec (word embedding) i jego rozwinięcia. Latent Semantic Analysis, Latent Dirichlet Allocation, metryki odległości dla danych tekstowych. NLP i word embedding jako podstawa dużych modeli językowych (Large Language Models).
Sieci neuronowe
Typowe struktury sieci neuronowych i ich konstrukcja (MLP, CNN), przegląd i znaczenie funkcji aktywujących, porównanie algorytmów optymalizacyjnych (m. in. SGD, Adam), techniki ograniczania ryzyka przetrenowania modelu (warstwa dropout, L1, L2), dobre praktyki tuningu hiperparametrów. Praktyka tworzenia sieci neuronowych w pakietach tensorflow oraz keras. Przykłady i wprowadzenie do zaawansowanych sieci neuronowych (RNN, LSTM). Nawiązanie do dużych modeli językowych (Large Language Models)
Detekcja anomalii
Teoria detekcji anomalii (definicje, typy obserwacji odstających, klasyfikacja podejść do wykrywania outlierów). Różnica między obserwacją nietypową a wpływową. Przegląd statystyk i modeli wykrywających anomalie, m. in.: test Tukeya, test Grubba, kryterium z-score, odległość Cooka, Isolation Forest, One-class SVM, DBSCAN, KNN, Histogram-based Outlier Detection (HBOS), Cluster-based Local Outlier Factor (CBLOF) i Autoencodery.