składa się z 4 kursów dla średnio zaawansowanych i zaawansowanych analityków. Powstała w odpowiedzi na rosnący popyt wśród firm oraz instytucji publicznych na usługi i pracowników w dziedzinie tzw. Data Science – interdyscyplinarnej analizy danych, ze szczególnym uwzględnieniem zagadnień dotyczących budowania i walidacji modeli uczenia maszynowego (Machine Learning). Na zajęciach, oprócz teorii i praktyki budowy modeli ML przekazujemy sposoby efektywnej pracy w programie R i RStudio. Szczególnie polecamy w tym zakresie pierwszy kurs „Warsztaty analityka Data Science w R”, na którym uczymy efektywnej pracy i technik programowania w R – kompetencji, które ogromnie przydają się w automatyzacji i przyśpieszaniu modelowania w R.

Text Mining i Web Scraping - MasteR - LabMasters

Warsztaty Machine Learning w R cz. 2

Poziom zaawansowany

30 godzin dydaktycznych

Zajęcia w sali komputerowej

Zaświadczenie stanenia

ocena kursu: 4,55 / 5,00 – 93% ocen pozytywnych

Koordynator: Piotr Ćwiakowski ( pcwiakowski@labmasters.pl )

Oprogramowanie: R / R Studio

Miejsce: Wydział Nauk Ekonomicznych UW, Warszawa ul. Długa 44/50 (mapa)


687 zł (558,54 zł netto)

Cena zawiera m.in. certyfikat zdania egzaminu (na podstawie rozwiązanych zadań sprawdzających), zaświadczenie ukończenia kursu (na podstawie obecności), komplet materiałów w formie elektronicznej i papierowej, darmowe konsultacje (więcej).

Opis kursu

Kontynuacja kursu „Warsztaty Machine Learning w R cz. 1”, na poziomie zaawansowanym, stawia przed Słuchaczem nowe i znacznie trudniejsze wyzwania. Na kursie zgłębiamy problematykę związaną z modelowaniem danych w Machine Learning. Warsztaty obejmują wykorzystanie zaawansowanych metod tuningu hiperparametrów w walidacji krzyżowej, technik doboru i transformacji zmiennych (feature engineering), sposobów modelowania prób niezbalansowanych oraz metod interpretacji złożonych modeli ML (tzw. „czarnych skrzynek”). Na zajęciach starannie są omawiane i prezentowane w przykładach aplikacyjnych zaawansowane algorytmy Machine Learning (XGBoost, ensembling modeli) i Deep Learning (sieci neuronowe: MLR, CNN, RNN, LSTM).

Zainwestowany wysiłek zaprocentuje w postaci poprawy dokładności, stabilności i wiarygodności generowanych prognoz. Słuchacze dostają do dyspozycji wiele nowych narzędzi, rozwijając wachlarz umiejętności analitycznych. Dodatkowo, w ramach kursu prezentowane są metody modelowania nieustrukturyzowanych zbiorów danych. Wykorzystują one dedykowane techniki text miningnatural language processing. Jest to coraz częstsze zadanie analityczne w biznesie. Opanowując zaawansowane techniki i bardziej specjalistyczne zagadnienia, analityk po tym kursie będzie mógł rozwiązywać bardziej złożone problemy badawcze. W ramach kursu Słuchacze otrzymują bogate i dobrze skomentowane skrypty, które zawierają kody kompletnych analiz. Są one przygotowane do zastosowania w pracy zawodowej.


Rejestracja na kurs jest aktywna

Termin: 26.01.2019-10.02.2019, soboty w godz. 14.30-18.30 i niedziele w godz. 9.30-13.30
Daty zajęć: 26.01, 27.01, 02.02, 03.02, 09.02, 10.02
Stan zapisów: grupa uruchomiona – trwa rejestracja

Zapisz Mnie


Zapisy do innych grup

W tym momencie rejestracja na kurs Machine Learning – cz. 2 w innym terminie jest nieaktywna. Jeżeli jesteś zainteresowany(a) wzięciem udziału w tym kursie lecz w innym terminie, zgłoś wstępną chęć uczestnictwa. Dzięki temu, wcześniej niż inni otrzymasz informację o zapisach i będziesz mieć pierwszeństwo w rejestracji. Zgłoś Mnie

Szczegółowa tematyka kursu

Zaawansowane uczenie maszynowe.

Ensembling modeli (stacking, bagging, lasy losowe i boosting), optymalizacja hiperparametrów w XGBoost, modelowanie zjawisk rzadkich (próby niezbalansowane), automatyczne i semiautomatyczne wyszukiwanie dobór/transformacja zmiennych do modelu (feature selection, feature generation, feature engineering), optymalizacja procesu walidacji krzyżowej i treningu modeli w pakiecie caret i mlr, rola walidacji krzyżowej w tuningu hiperparametrów. Metoda szukania hiperparametrów: grid search, random search (na zawężonym obszarze poszukiwań). Techniki wyjaśniania złożonych modeli uczenia maszynowego (pakiet Dalex).

Sieci neuronowe.

Typy sieci, typowe struktury i ich konstrukcja (MLP, CNN, RNN, LSTM), omówienie dostępnych bibliotek (ze szczególnym uwzględnieniem pakietu Keras w oparciu o TensorFlow), wykorzystanie sieci neuronowych w problemach klasyfikacji i regresji. Charakterystyki i wykorzystanie najważniejszych algorytmów optymalizacyjnych (SGD, Adagrad, Adam). Omówienie warstwy dropout i pozostałych technik regularyzacji jako technik ograniczania ryzyka przetrenowania modelu. Dobre praktyki w optymalizacji hiperparametrów sieci neuronowych.

Eksploracja tekstów.

Przetwarzanie danych tekstowych (m. in. budowa i oczyszczanie korpusu, tokenizacja, stemming, lematyzacja, lista stop-words, oczyszczanie korpusu), metody tagowania i klasyfikacji słów, N-gramy, podejście bag-of-words, macierz Document Term, konstruowanie wag macierzy Document Term, obliczanie odległości pomiędzy słowami, klasyfikacja i segmentacja dokumentów, analiza sentymentu (po polsku i po angielsku), analiza tematów (topic analysis), algorytm word2vec (word embedings).

Unsupervised learning dla zaawansowanych.

Fuzzy clustering, Model Based Clustering, DBSCAN, Samoorganizujące się mapy (SOM) w segmentacji danych, t-distributed stochastic neighbor embedding (t-SNE) w problemie redukcji wymiarów, budowa systemów rekomendacyjnych (pakiet recommenderlab).


Czego się nauczysz

Na kursie Machine Learning – cz. 2 nauczymy Cię zaawansowanych technik uczenia maszynowego – z nadzorowaniem i bez nadzoru. Będziesz potrafić w programie R przygotować efektywny kod szacujący sieci neuronowe, boostowane drzewa decyzyjne (boosting) oraz zaawanasowane metody klasteryzacji – m. in. SOM, t-SNE, DBSCAN. Zrozumiesz problematykę i zasady modelowania danych niezbalansowanych. Poznasz różne techniki doboru zmiennych do modelu (feature engineering  i feature selection). Nauczysz się świadomie wykorzystać walidację krzyżową i technikę random search na zawężonym obszarze poszukiwań w celu osiągnięcia optymalnych wartości parametrów (tuning).