Poziom średnio zaawansowany + zaawansowany 30 godzin dydaktycznych Zajęcia zdalne lub stacjonarne w sali komputerowej Zaświadczenie ukończenia Ocena kursu: 4,57/5,00 – 86% ocen co najmniej 4 (w skali od 1 do 5) Koordynator: Piotr Ćwiakowski (pcwiakowski@labmasters.pl) Oprogramowanie: R / R Studio Miejsce: Wydział Nauk Ekonomicznych UW, Warszawa ul. Długa 44/50 (mapa) |
Opis kursu
Na kursie „Warsztaty analityka Data Science w R”, przekazujemy uczestnikom zestaw zaawansowanych kompetencji w dziedzinie przetwarzania danych – Data Science Toolbox. Około 70% pracy analityka polega na pozyskaniu danych, czyszczeniu, transformacji i przygotowaniu do dalszych analiz. Kolejne 10% spędza na modelowaniu, a ostatnie 20% na wizualizacji wyników i ich intuicyjnym raportowaniu. Celem kursu jest zatem usprawnienie i skrócenie czynności, które stanowią 90% czasu typowego projektu Data Science.
Kluczem do sukcesu jest automatyzacja pracy i wykorzystanie odpowiednich pakietów. Aby móc skrócić czas od otrzymania danych do otrzymania wyników, należy rozbudować kompetencje narzędziowe w różnych dziedzinach: umiejętność płynnej pracy w języku R, znajomość technik programowania funkcyjnego i obiektowego, umiejętność optymalizacji kodu (np. obliczenia równoległe) a także wiedzę o zaawansowanych metodach wizualizacji danych (pakiet Shiny). Na zajęciach prezentujemy gotowe skrypty (gotowe przepisy) do efektywnej i efektownej analizy danych. Dzięki temu Słuchacze po kursie pracują szybciej – a ich analizy zaskakują nie tylko precyzją i tempem opracowania, ale i atrakcyjną stroną wizualną.
Program kursu zakłada znajomość podstaw programu R. U uczestników mile widziane jest również pewne doświadczenie w pracy z danymi. Ciężar kursu położony jest na rozwiązywanie praktycznych problemów, które napotykamy w projektach analitycznych. Kurs nawiązuje do technik uczenia maszynowego, ale ich znajomość nie jest wymagana od Słuchaczy.
Zapisy
Zgłoś zainteresowanie
Jeżeli jesteś zainteresowany(a) wzięciem udziału w kursie realizowanym na żywo w innym terminie, zgłoś wstępną chęć uczestnictwa. Dzięki temu, wcześniej niż inni otrzymasz informację o zapisach i będziesz mieć pierwszeństwo w rejestracji.
Tematyka kursu
Elementy programowania w R.
Instrukcje warunkowe i pętle, własnych funkcji, rodzina funkcji apply, debugowanie funkcjo, programowanie defensywne, profilowanie kodu R, optymalizacja i przyśpieszanie obliczeń, pozostałe dobre praktyki w pisaniu kodów, modyfikacja ustawień R i RStudio, elementy pakietu Rcpp w R.
Materiały dodatkowe: przegląd obiektów i systemów obiektowych w R, obliczenia równoległe.
Zaawansowane przetwarzanie i wizualizacja danych.
Efektywne przetwarzanie dużych zbiorów z pakietem data.table, komunikacja z MS Excel i bazami danych SQL, przegląd zaawansowanych technik wizualizacji danych w ggplot2.
Materiały dodatkowe: efektywny import danych tekstowych, techniki imputacji danych w pakietach mice i simputation. Wykorzystanie pakietu purrr w pracy ze skomplikowanymi listami. Przegląd wykresów interaktywnych (m. in. pakiety: plotly, ggiraph i inne).
Eksploracja tekstów (tidytext, tm, quanteda).
Przetwarzanie danych tekstowych (polskich i angielskich) w pakietach stringr, lubridate, glue, tidytext, tm. Wykorzystanie wyrażeń regularnych (regex), budowa i czyszczenie korpusu w podejściu bag-of-words, tokenizacja, stemming, lematyzacja, lista stop-words, N-gramy, konstrukcja Document Term Matrix (DTM) z różnymi wagami. Wizualizacja danych tekstowych.
Materiały dodatkowe: klasteryzacja dokumentów, analiza sentymentu (po polsku i po angielsku), analiza tematów (topic analysis). Analiza tekstu z pakietem quanteda.
Aplikacje webowe w Shiny.
Tworzenie podstawowego widoku aplikacji Shiny (funkcje: titlePanel, sidebarPanel, mainPanel), wypełnianie paneli (tagi w Shiny). Przegląd i omówienie rodzajów widgetów, lista input, zasady przesyłania obiektów, omówienie funkcji klasy output i funkcji renderujących.
Materiały dodatkowe: optymalizacja aplikacji webowych (programowanie webowe), zaawansowany design aplikacji.
Web scraping (rvest, RSelenium).
Omówienie formatów JSON oraz XML. Przykłady stosowania Xpath w nawigacji i wyszukiwaniu informacji na stronach www. Scrapowanie stron statycznych, nawigacja po serwisie. Symulacja sterowania przeglądarką z pakietem RSelenium.
Czego się nauczysz
Dzięki kursowi Warsztaty analityka Data Science w R poznasz program R w stopniu zaawansowanym. Będziesz potrafił projektować krótkim czasie przetwarzać wyjściowe, nieoczyszczone i nieustrukturyzowane dane do postaci gotowej do dalszych analiz (statystycznych, ekonometrycznych bądź Machine Learning). Poznasz techniki przyśpieszania pracy w programie R (m. in. optymalizacja kodu i przetwarzanie równoległe). Nauczymy Cię również programować w R, dzięki czemu będziesz mógł automatyzować powtarzalne czynności. Dodatkowo, poznasz funkcje i metody pracy na danych tekstowych i będziesz umiał wykorzystywać w praktyce siłę wyrażeń regularnych. Na kursie przekazujemy również zaawansowanych metodach wizualizacji raportowania danych, dzięki czemu Twoje prezentacje i raporty będą przyciągać także od strony wizualnej, nie tylko merytorycznej.