składa się z 5 kursów, od poziomu podstawowego do zaawansowanego. Powstała w odpowiedzi na rosnący popyt wśród firm oraz instytucji publicznych na usługi i pracowników w dziedzinie tzw. Data Science – interdyscyplinarnej analizy danych. W zakresie tej dziedziny uczymy zarówno efektywnego przetwarzania i wizualizacji danych, podstaw statystyki matematycznej, modelowania ekonometrycznego jak i budowania i walidacji modeli uczenia maszynowego (z ang. Machine Learning). Na kursach odnajdą się zarówno osoby początkujące potrzebujące rozbudowanego wprowadzenia jak i doświadczeni analitycy, którzy potrzebują uporządkować i rozszerzyć swoją wiedzę i umiejętności.

Text Mining i Web Scraping - MasteR - LabMasters

Warsztaty analityka Data Science w R

Uwaga: wszystkie kursy odbywają się w formie stacjonarnej oraz zdalnej (do wyboru). Forma stacjonarna przy minimum 5 uczestnikach. Forma zdalna za pośrednictwem platformy MS Teams (szczegóły).

Poziom średnio zaawansowany + zaawansowany

30 godzin dydaktycznych

Zajęcia w sali komputerowej

Zaświadczenie ukończenia

Ocena kursu: 4,71/5,00 – 100% ocen co najmniej 4 (w skali od 1 do 5)

Koordynator: Piotr Ćwiakowski (pcwiakowski@labmasters.pl)

Oprogramowanie: R / R Studio

Miejsce: Wydział Nauk Ekonomicznych UW, Warszawa ul. Długa 44/50 (mapa)


887 zł*

*Podana cena kursu jest ceną:

  • brutto (zawiera podatek VAT 23%), jeśli zakupu dokonują osoby fizyczne nie prowadzące działalności gospodarczej;
  • netto (nie zawiera podatku VAT 23% – cena brutto 1091,01 zł), jeśli zakupu dokonują osoby fizyczne prowadzące działalność gospodarczą lub osoby prawne;
  • obowiązującą dla płatności przed rozpoczęciem kursu.

Cena zawiera m.in. certyfikat zdania egzaminu (na podstawie rozwiązanych zadań sprawdzających), zaświadczenie ukończenia kursu (na podstawie obecności), komplet materiałów z pełnymi rozwiązaniami, darmowe konsultacje (więcej), zajęcia w sali komputerowej lub w formie zdalnej (więcej) – do wyboru.

Opis kursu

Na kursie „Warsztaty analityka Data Science w R”, przekazujemy uczestnikom zestaw zaawansowanych kompetencji w dziedzinie przetwarzania danych – Data Science Toolbox. Około 70% pracy analityka polega na pozyskaniu danych, czyszczeniu, transformacji i przygotowaniu do dalszych analiz. Kolejne 10% spędza na modelowaniu, a ostatnie 20% na wizualizacji wyników i ich intuicyjnym raportowaniu. Celem kursu jest zatem usprawnienie i skrócenie czynności, które stanowią 90% czasu typowego projektu Data Science.

Kluczem do sukcesu jest automatyzacja pracy i wykorzystanie odpowiednich pakietów. Aby móc skrócić czas od otrzymania danych do otrzymania wyników, należy rozbudować kompetencje narzędziowe w różnych dziedzinach: umiejętność płynnej pracy w języku R, znajomość technik programowania funkcyjnego i obiektowego, umiejętność optymalizacji kodu (np. obliczenia równoległe) a także wiedzę o zaawansowanych metodach wizualizacji danych (pakiet Shiny). Na zajęciach prezentujemy gotowe skrypty (gotowe przepisy) do efektywnej i efektownej analizy danych. Dzięki temu Słuchacze po kursie pracują szybciej – a ich analizy zaskakują nie tylko precyzją i tempem opracowania, ale i atrakcyjną stroną wizualną.

Program kursu zakłada znajomość podstaw programu R. U uczestników mile widziane jest również pewne doświadczenie w pracy z danymi. Ciężar kursu położony jest na rozwiązywanie praktycznych problemów, które napotykamy w projektach analitycznych. Kurs nawiązuje do technik uczenia maszynowego, ale ich znajomość nie jest wymagana od Słuchaczy.


Rejestracja na kurs jest aktywna

Termin: 10.05-25.05.2022, wtorki i środy w godz. 9.00-13.00.
Daty zajęć: 10.05, 11.05, 17.05, 18.05, 24.05, 25.05.
Stan zapisów: rejestracja aktywna do 09.05.2022 do godz. 8.00 lub do wyczerpania miejsc.
Uwaga: kurs realizowany w formie stacjonarno-zdalnej. Wybór preferowanej formy w formularzu rejestracyjnym.Zapisz Mnie


Zapisy na kurs w innym terminie

Jeżeli jesteś zainteresowany(a) wzięciem udziału w tym kursie, zgłoś wstępną chęć uczestnictwa. Dzięki temu, wcześniej niż inni otrzymasz informację o zapisach i będziesz mieć pierwszeństwo w rejestracji. Zgłoś Mnie

Szczegółowa tematyka kursu

Elementy programowania w R

Przegląd obiektów i systemów obiektowych w R, pisanie własnych funkcji, automatyzacja przetwarzania danych za pomocą funkcji w R, optymalizacja i profilowanie kodu R, optymalizacja kodu i przyśpieszanie obliczeń, pozostałe dobre praktyki w pisaniu kodów, modyfikacja ustawień R i RStudio, rodzina funkcji apply, obliczenia równoległe.

Zaawansowane przetwarzanie danych.

Efektywny import danych tekstowych, automatyzacja przetwarzania danych w pakietach dplyr, tydir, caret, mlr, recipe, tidymodels. Techniki imputacji danych (w tym wykorzystywanie modelu regresyjnego i uczenia maszynowego do imputacji braków danych). Wykorzystanie pakietu purrr do efektywnej pracy ze skomplikowanymi bazami danych, komunikacja z MS Excel i bazami danych SQL.

Eksploracja tekstów.

Przetwarzanie danych tekstowych (polskich i angielskich) w pakietach stringr, forcats, lubridate, glue, tidytext, tm: wykorzystanie wyrażeń regularnych, budowa i czyszczenie korpusu w podejściu bag-of-words, tokenizacja, stemming, lematyzacja, lista stop-words, N-gramy, konstrukcja Document Term Matrix (DTM) z różnymi wagami, analiza sentymentu (po polsku i po angielsku), analiza tematów (topic analysis).

Zaawansowana raportowanie i wizualizacja danych (ggplot2, htmlwidgets, Shiny).

Przegląd złożonych i zaawansowanych Ggiraph, htmlwidgets in R (m. in.pakiety: plotly, ggiraph i inne htmlwigdets for r) wykresów w ggplot2 (ggplot extensions), przegląd wykresów interaktywnych. Tworzenie podstawowego widoku aplikacji Shiny (funkcje: titlePanel, sidebarPanel, mainPanel), wypełnianie paneli (tagi w Shiny). Przegląd i omówienie rodzajów widgetów,  lista input i output, zasady przesyłania obiektów,  omówienie funkcji klasy output i funkcji renderujących, przykłady gotowych aplikacji.


Czego się nauczysz

Dzięki kursowi Warsztaty analityka Data Science w R poznasz program R w stopniu zaawansowanym. Będziesz potrafił projektować krótkim czasie przetwarzać wyjściowe, nieoczyszczone i nieustrukturyzowane dane do postaci gotowej do dalszych analiz (statystycznych, ekonometrycznych bądź Machine Learning). Poznasz techniki przyśpieszania pracy w programie R (m. in. optymalizacja kodu i przetwarzanie równoległe). Nauczymy Cię również programować w R, dzięki czemu będziesz mógł automatyzować powtarzalne czynności. Dodatkowo, poznasz funkcje i metody pracy na danych tekstowych i będziesz umiał wykorzystywać w praktyce siłę wyrażeń regularnych. Na kursie przekazujemy również zaawansowanych metodach wizualizacji raportowania danych, dzięki czemu Twoje prezentacje i raporty będą przyciągać także od strony wizualnej, nie tylko merytorycznej.

Opinie uczestników

„Bardzo dobrze przygotowane poruszone zagadnienia. Materiał z kursu jest must have w pracy, która wymaga bardzo dobrej znajomości R. POLECAM!”


„Bardzo dobrze prowadzony kurs. Polecam!”


„Bardzo dużo wiedzy przekazanej w przejrzysty i zrozumiały sposób!”


„Super materiały oraz sposob prowadzenia”


„Widać ogrom wiedzy i umiejętność jej przekazywania :)”


„Prowadzący jest bardzo profesjonalny, w bardzo ciekawy i jasny sposób tłumaczy zagadnienia poruszane na zajęciach.”


„+ ogrom materiałów i ćwiczeń ; prowadzący przykładający się do jak najlepszych odpowiedzi na pytania i wątpliwości”


„Bardzo wysoko oceniam kurs, prowadzenie, przygotowanie, tematykę zajęć”


„Kurs bardzo dobry, a zagadnienia są wykorzystywane w codziennej pracy na dużych zbiorach danych.”


„Wysoka jakość merytoryczna i dostosowanie do potrzeb biznesowych.”


„Po prostu super!!”


„Bardzo dobry, kompetentny prowadzący. Materiały bardzo przydatne.”


„Kurs prowadzony w odpowiednim tempie by objąć najważniejszy zakres materiału. Materiały są obszerne i pomocne w codziennej pracy.”


„Bardzo ciekawy i wymagający. W szczególności pożyteczne są ćwiczenia, wymagają wtedy uważnego śledzenia i natychmiast sprawdzenia tego co wydaje się zrozumiałe. ”