Poziom: podstawowy + średnio zaawansowany 30 godzin dydaktycznych Zajęcia zdalne lub stacjonarne w sali komputerowej Zaświadczenie ukończenia Ocena kursu: nowy kurs! Koordynator: Piotr Ćwiakowski (pcwiakowski@labmasters.pl) Oprogramowanie: Python / Jupyter Notebook Miejsce: Wydział Nauk Ekonomicznych UW, Warszawa ul. Długa 44/50 (mapa) |
Opis kursu
Python jest najpopularniejszym i najprężniej rozwijającym się środowiskiem dla analityków danych. Ekosystem Numpy (Scipy, Numpy, Pandas, Matplotlib, Scikit-Learn etc.) jest solidnym fundamentem, ale osoby aspirujące do poziomu seniorskiego/eksperckiego powinny mieć w swoim portfolio m.in. umiejętność pracy z rozwiązaniami chmurowymi, pakietami do przetwarzania dużych zbiorów danych (Big Data) czy tworzeniem prostych aplikacji. Dobry analityk musi też umieć interpretować złożone dane statystyczne, np. poprawnie wnioskować o korelacji i przyczynowości w danych.
Kurs ten stanowią sesje szkoleniowe prowadzone na żywo, praktyczne ćwiczenia i bogaty zbiór materiałów, który pozwoli uczestnikowi także samodzielnie zagłębić się w prezentowaną tematykę. Podczas warsztatów uczestnicy zdobędą twarde kompetencje narzędziowe (tworzenie profesjonalnych kodów analitycznych) jak umiejętność interpretacji i prezentacji wyników analiz statystycznych. Po wprowadzeniu teoretycznym i omówieniu przygotowanych skryptów, następuje część warsztatowa – uczestnicy rozwiązują zadania pod kierunkiem prowadzącego.
Kurs prowadzony jest na poziomie średnio zaawansowanym. Wcześniejsza znajomość Pythona jest wymagana (w zakresie omawianym na kursie: Analiza danych i programowanie w Pythonie). Przydatna (ale nie niezbędna) jest wiedza ze statystycznej analizy danych (w zakresie omawianym na kursie: Statystyka, ekonometria i szeregi czasowe w Pythonie).
Zapisy
Rejestracja na kurs jest aktywna
Termin: 26.05-3.06.2025, poniedziałki i wtorki w godz. 9:00-15:00.
Daty zajęć: 26.05, 27.05, 2.06, 3.06.
Stan zapisów: rejestracja aktywna do 22.05.2025 do godz. 7.00 lub do wyczerpania miejsc.
Uwaga: ta edycja kursu realizowana jest jedynie w formie zdalnej.
Zgłoś zainteresowanie
Jeżeli jesteś zainteresowany(a) wzięciem udziału w kursie realizowanym na żywo w innym terminie, zgłoś wstępną chęć uczestnictwa. Dzięki temu, wcześniej niż inni otrzymasz informację o zapisach i będziesz mieć pierwszeństwo w rejestracji.
Tematyka kursu
Zaawansowane przetwarzanie danych (Polars, DuckDB, Dask, Pandas, PySpark).
Przegląd nowoczesnych rozwiązań dla dużych zbiorów danych (w tym Big Data). Efektywne wczytywanie i przetwarzanie danych w pakiecie polars. Apache Spark i przykłady wykorzystania PySpark w analizie danych w Pythonie. Łączenie się z bazami SQL (np. Oracle i MS SQL Server) oraz wykorzystanie języka SQL bezpośrednio w Pythonie (DuckDB). Efektywne formaty do przechowywania danych (arrow, feather, parquet etc.). Zaawansowane tricki i rozszerzenia Pandas. Korzystanie z rozwiązań chmurowych (np. DataBrick, Amazon AWS).
Dobre praktyki w programowaniu.
Wykorzystanie narzędzi AI wspomagających programowanie (np. github Copilot). Wersjonowanie kodu w Git. Przykłady tworzenia prostych aplikacji analitycznych (np. Streamlit). Zasady tworzenia wysokiej jakości kodu.
Sztuka wizualizacji i prezentacji danych (matplotlib, seaborn, plotly, dash).
Wizualizacje w Matplotlib. Tworzenie wykresów, facetowanie, kontrola nad warstwami i seriami. Konfiguracja podstawowych elementów wykresu, eksport wykresów do formatów wektorowych i rastrowych. Integracja Pandas z Matplotlib. Przegląd wizualizacji i funkcji w Seaborn. Przykłady interaktywnych wykresów w Plotly. Przegląd zaawansowanych i nietypowych technik wizualizacji danych. Dobre praktyki w wizualizacji danych. Sztuka efektywnej wizualizacji danych (tworzenie wykresów w najlepszy sposób przekazujących informacje). Przykłady skutecznego storrytellingu w analizie danych. Przykłady dashboardów w Dash.
Interpretacja wyników analiz statystycznych i badanie przyczynowości.
Popularne błędy poznawcze w statystyce (statistical fallacies), pułapki myślenia według Kahnemana, praktyczne przykłady intuicyjnego posługiwania się statystyką do opisu zjawisk, badanie przyczynowości w statystyce, ekonometrii i Data Science/Machine Learning. Przegląd metod: eksperymenty, podejście quasi eksperymentalne, causal Machine Learning.