Wstęp do Data Engineeringu w GCP
Informacje ogólne
Kod przedmiotu: | 2400-ZEWW925 |
Kod Erasmus / ISCED: | (brak danych) / (brak danych) |
Nazwa przedmiotu: | Wstęp do Data Engineeringu w GCP |
Jednostka: | Wydział Nauk Ekonomicznych |
Grupy: |
Przedmioty kierunkowe do wyboru - studia II stopnia IE - grupa 1 (6*30h) Przedmioty wyboru kierunkowego dla studiów licencjackich IE |
Punkty ECTS i inne: |
3.00
|
Język prowadzenia: | polski |
Rodzaj przedmiotu: | nieobowiązkowe |
Skrócony opis: |
Kurs jest skierowany do wszystkich, którzy myślą o potencjalnym rozwoju w kierunku inżynierii danych i nie tylko. Podzielony jest on na trzy główne części – pierwsza część dotyczy zagadnień związanych z BigQuery oraz SQL, druga część poświęcona jest w całości Pythonowi, zaś trzecia część skupia się na najczęściej wykorzystywanych narzędziach w inżynierii danych i wykorzystaniem uprzednio zdobytej wiedzy z Pythona i SQLa. Po pierwszej i drugiej części przewidziany jest mikro test, zaś po trzeciej części samodzielny projekt do zrobienia. W trakcie kursu do wykonania będą zadania o różnym poziomie trudności. Podczas kursu będziemy korzystać z chmury google’a – Google Cloud Platform (GCP) oraz z Pythona w wersji 3.11. Sugerowane IDE do części związanej z Pythonem to Pycharm Enterprise (wszystko w wersjach darmowych) |
Pełny opis: |
Spis treści 1. Wstęp 1.1 Do kogo skierowany jest niniejszy kurs – wymagania wstępne 1.2 O kursie 1.3 Czym właściwie jest Data Engineering 2. Google Cloud Platform – informacje ogólne 2.1 Czym jest Google Cloud Platform 2.2 Konfiguracja projektu w GCP 2.3 Zarządzanie kosztami – billing 2.4 Zarządzanie dostępem (IAM) 2.5 Monitoring i logowanie 3. Google BigQuery 3.1 Czym jest Google BigQuery 3.2 Datasety w BigQuery 3.3 Pisanie zapytań 3.4 Tworzenie tabel w BigQuery 3.4.1 Tworzenie tabel będących wynikiem zapytania 3.4.2 Tworzenie tabel z Google Sheet’a 3.4.3 Tworzenie tabel z plików csv/parquet/avro w Google Cloud Storage 3.5 Schedulowanie zapytań 3.6 Data Transfer 4. SQL 4.1 Struktura zapytania 4.2 Funkcje skalarne w Standard SQL 4.3 Instrukcje warunkowe 4.4 Podzapytania i CTE 4.5 Złączenia tabel 4.6 Funkcje okienkowe 4.7 Funkcja Pivot 4.8 Praca z obiektami ARRAY 4.9 Praca z obiektami STRUCT 4.10 Praca z obiektami JSON 4.11 Optymalizacja zapytań w BigQuery 5. Python 5.1 Konfiguracja lokalnego środowiska pracy 5.1.1 Instalacja Python 3.11, Git oraz PyCharm 5.1.2 Tworzenie virtual environment 5.2 Podstawy składni Python 5.2.1 Komunikacja z użytkownikiem 5.2.2 Zmienne i typy danych 5.2.3 Definiowanie funkcji 5.2.4 Operacje na tekstach 5.2.5 Operacje na datach – biblioteka datetime 5.3 Struktury danych 5.3.1 Listy 5.3.2 Krotki (tuples) 5.3.3 Słowniki 5.3.4 Sety 5.3.5 Porównanie struktur danych 5.4 Instrukcje warunkowe 5.4.1 Instrukcja if, elif, else 5.4.2 Instrukcja match 5.5 Pętle 5.5.1 Pętla for 5.5.2 Pętla while 5.6 Praca z danymi – biblioteka Pandas 5.6.1 Wprowadzenie do biblioteko Pandas 5.6.2 Podstawowe struktury danych w Pandas 5.6.3 Tworzenie DataFrame 5.6.4 Przeglądanie danych 5.6.5 Manipulacja danymi 5.6.6 Czyszczenie danych 5.6.7 Agregacja i grupowanie danych 5.6.8 Łączenie DataFrames 5.7 Praca z danymi – biblioteka JSON 5.7.1 Ładowanie i zapisywanie danych 5.7.2 Parsowanie i manipulacja danymi JSON 5.8 Praca z API – biblioteka requests 5.8.1 Wprowadzenie do requests 5.8.2 Podstawowe operacje HTTP 5.8.3 Praca z odpowiedzią 5.8.4 Parametry i nagłóki zapytań 5.9 Scraping danych – biblioteka BeautifulSoup 5.9.1 Wprowadzenie do web scrapingu 5.9.2 Instalacja i konfiguracja bs4 5.9.3 Podstawowe operacje – parsowanie HTML 5.9.4 Wyszukiwania elementów: find, find_all 5.9.5 Praca z danymi zebranymi z sieci 5.10 Wczytywanie plików zewnętrznych 6. Google Cloud Shell 6.1 Wprowadzenie do Google Cloud Shell 6.2 Podstawowe komendy i operacje 6.3 Konfiguracja środowiska pracy 6.4 Tworzenie i zarządzanie projektami GCP z Cloud Shell 6.5 Operacje na tabelach w BigQuery 6.6 Integracja z GitHubem 7. Cloud Functions 7.1 Czym są Cloud Functions 7.2 Tworzenie Cloud Function 8. Cloud Scheduler 8.1 Czym jest Cloud Scheduler 8.2 Schedulowanie funkcji przy użyciu CRONa 8.3 Automatyzacja zadań z użyciem Cloud Schedulera i Cloud Function 9. Cloud Pub/Sub 9.1 Wprowadzenie do Cloud Pub/Sub 9.2 Konfigurowanie i używanie tematów i subskrypcji 9.3 Integracja z innymi usługami GCP 10. Projekt końcowy |
Literatura: |
Oficjalna dokumentacja Google’a - https://cloud.google.com/docs |
Efekty uczenia się: |
Po ukończeniu kursu "Wstęp do Data Engineeringu w GCP", uczestnicy zdobędą umiejętności w korzystaniu z Google Cloud Platform, jednej z najpopularniejszych chmur na rynku. Będą w stanie pisać skomplikowane zapytania SQL oraz efektywnie wykorzystywać Pythona w codziennych zadaniach. Ponadto, zapoznają się z metodami integracji Pythona i SQL z chmurowym środowiskiem GCP. Kurs obejmuje również naukę systemu kontroli wersji GIT. Przygotowane zadania opierają się na rzeczywistych scenariuszach (real case’ach), z którymi uczestnicy mogą spotkać się w swojej przyszłej pracy zawodowej. |
Metody i kryteria oceniania: |
Dwa kolokwia cząstkowe (2x25%) + projekt końcowy (50%) |
Zajęcia w cyklu "Semestr zimowy 2024/25" (w trakcie)
Okres: | 2024-10-01 - 2025-01-26 |
Przejdź do planu
PN WT ŚR CZ PT KON
|
Typ zajęć: |
Konwersatorium, 30 godzin
|
|
Koordynatorzy: | Igor Rębas | |
Prowadzący grup: | Igor Rębas | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: |
Przedmiot -
Zaliczenie na ocenę
Konwersatorium - Zaliczenie na ocenę |
Właścicielem praw autorskich jest Uniwersytet Warszawski, Wydział Nauk Ekonomicznych.