składa się z 4 kursów dla średnio zaawansowanych i zaawansowanych analityków. Powstała w odpowiedzi na rosnący popyt wśród firm oraz instytucji publicznych na usługi i pracowników w dziedzinie tzw. Data Science – interdyscyplinarnej analizy danych, ze szczególnym uwzględnieniem zagadnień dotyczących budowania i walidacji modeli uczenia maszynowego (Machine Learning). Na zajęciach, oprócz teorii i praktyki budowy modeli ML przekazujemy sposoby efektywnej pracy w programie R i RStudio. Szczególnie polecamy w tym zakresie pierwszy kurs „Warsztaty analityka Data Science w R”, na którym uczymy efektywnej pracy i technik programowania w R – kompetencji, które ogromnie przydają się w automatyzacji i przyśpieszaniu modelowania w R.

Text Mining i Web Scraping - MasteR - LabMasters

Text mining i web scraping w R

Poziom średnio zaawansowany + zaawansowany

30 godzin dydaktycznych

Zajęcia w sali komputerowej

Zaświadczenie ukończenia

Nowy kurs

Koordynator: Piotr Ćwiakowski (pcwiakowski@labmasters.pl)

Oprogramowanie: R / R Studio

Miejsce: Wydział Nauk Ekonomicznych UW, Warszawa ul. Długa 44/50 (mapa)


687 zł (558,54 zł netto)

Cena zawiera m.in. certyfikat zdania egzaminu (na podstawie rozwiązanych zadań sprawdzających), zaświadczenie ukończenia kursu (na podstawie obecności), komplet materiałów w formie elektronicznej i papierowej, darmowe konsultacje (więcej).

Opis kursu

Ideą kursu Text mining i web scraping w R jest kompleksowe i szczegółowe przedstawienie zagadnień związanych z automatyzacją pozyskiwania danych nieustrukturyzowanych(z ang. web scraping) i modelowaniem języka naturalnego (z ang. natural language processing, NLP). W każdej minucie w Internecie pojawiają się dziesiątki tysięcy nowych tweetów, wpisów na Facebooku i Instagramie oraz wiele innych treści nieustrukturyzowanych. Zwiększona moc obliczeniowa komputerów i odpowiednie algorytmy pozwalają na sięgnięcie do tych źródeł po dane przechowywane w postaci języka naturalnego: artykuły, maile, wpisy na serwisach społecznościowych (np. komentarze, wpisy na forach internetowych, tweety), książki, teksty piosenek, recenzje, transkrypcje mów polityków, rozmów telefonicznych (w działach obsługi klienta). Internet to także pojemne źródło informacji w postaci liczbowej, często wyrażanej w niestandardowej formie (np: numery telefonów, wartości pieniężne, czy oceny filmów/produktów). Same strony Internetowe to nic innego jak tekst w języku html czy javascript.

Cykl zajęć składa się z dwóch części. W pierwszej dokładnie omówione zostaną nowoczesne techniki i pakiety R do pozyskiwania danych z Internetu czyli web scraping (zautomatyzowane pobieranie treści z stron za pomocą ścieżek XPath, kodowanie robotów szukających odpowiednich elementów w całych serwisach, symulacja sterowania przeglądarką, czy zdalne korzystanie z API). Na laboratoriach o web scrapingu poruszony zostanie także temat tzw. netykiety, czyli nieformalnych wytycznych etycznego postępowania m.in. przy scrapingu. Na pozostałych zajęciach skupimy się na zagadnieniach związanych z oczyszczaniem tekstu (za pomocą wyrażeń regularnych, tokenizacji, stemizacji, lematyzacji) i jego modelowaniem (tagging, analiza sentymentu, uczenie nadzorowane, word2vec). Większość przykładów została przygotowana w języku polskim ze szczególnym uwzględnieniem danych z mediów społecznościowych.

Program kursu zakłada znajomość podstaw programu R. U uczestników mile widziane jest również pewne doświadczenie w pracy z danymi. Ciężar kursu położony jest na rozwiązywanie praktycznych problemów, które napotykamy w projektach analitycznych. Kurs nawiązuje do technik uczenia maszynowego, ale ich znajomość nie jest wymagana od Słuchaczy.


Zapisy na kurs

W tym momencie rejestracja na kurs jest nieaktywna. Jeżeli jesteś zainteresowany(a) wzięciem udziału w tym kursie, zgłoś wstępną chęć uczestnictwa. Dzięki temu, wcześniej niż inni otrzymasz informację o zapisach i będziesz mieć pierwszeństwo w rejestracji. Zgłoś Mnie

Szczegółowa tematyka kursu

Web scraping I.

Netykieta i web scraping, Robots.txt, pakiet rvest, scrapowanie stron statycznych, nawigacja po serwisie, XPath – podstawowe metody konstruowania ścieżek.

Web scraping II.

Symulacja sterowania przeglądarką z pakietem RSelenium, bardziej zaawansowane metody konstruowania ścieżek XPath, scrapowanie ramek, ściąganie plików.

Web scraping III.

Kodowanie bardziej samodzielnych ‚robotów’ z pakietem RCrawler, wyszukiwanie informacji o znacznie zróżnicowanej strukturze, przykłady sterowania API oraz inne pakiety i funkcje wspomagające scrapowanie.

Czyszczenie danych tekstowych.

Omówienie infrastruktury do NLP w R (task view), czyszczenie korpusu tekstu tworzenie użytecznych wyrażeń regularnych, tokenizacja, stemizacja, lematyzacja, n-gramy, document-term matrix, miary odległości pomiędzy słowami, omówienie pakietów: stringr, glue, tidytext i tm, POS tagging.

Modelowanie i wizualizacja corpusu.

Reprezentacja słów w macierzy (term-frequency, TF_IDF, macierz binarna, word-embedding), chmury słów (wordclouds), wykresy asocjacji, wykresy piramidowe, wykresy sieciowe.

Uczenie maszynowe.

Uczenie nienadzorowane (miary odległości, klasteryzacja, analiza sentymentu, topic analysis), analiza sieci (network analysis), algorytm word2vec, przykłady uczenia nadzorowanego (na otagowanych zbiorach danych).


Czego się nauczysz

Na kursie Text mining i web scraping w R nauczysz się pozyskiwać dane ze źródeł internetowych (web scraping) i konstruować ustrukturyzowane bazy danych (text mining). Poznasz w stopniu biegłym pakiety R do wykonywania NLP i web scraping i opanujesz zaawansowane techniki programowania własnych robotów zbierających dane w Internecie. Pozyskane dane będziesz umieć wyczyścić i uporządkować, a następnie zanalizować pod kątem sentymentu, wykrywania klas dokumentów (segmentacja) czy odkrywania tematów i treści dokumentów w dużych korpusach (analiza tematów, word2vec). Wyniki każdego z modeli będziesz umiał(a) zwizualizować i zinterpretować w atrakcyjny, intuicyjny sposób zrozumiały dla przeciętnego odbiorcy.