Uniwersytet Warszawski, Wydział Nauk Ekonomicznych - Centralny System Uwierzytelniania
Strona główna

Wstęp do Data Engineeringu w GCP

Informacje ogólne

Kod przedmiotu: 2400-ZEWW925
Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Wstęp do Data Engineeringu w GCP
Jednostka: Wydział Nauk Ekonomicznych
Grupy: Przedmioty kierunkowe do wyboru - studia II stopnia IE - grupa 1 (6*30h)
Przedmioty wyboru kierunkowego dla studiów licencjackich IE
Punkty ECTS i inne: 3.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.

zobacz reguły punktacji
Język prowadzenia: polski
Rodzaj przedmiotu:

nieobowiązkowe

Skrócony opis:

Kurs jest skierowany do wszystkich, którzy myślą o potencjalnym rozwoju w kierunku inżynierii danych i nie tylko. Podzielony jest on na trzy główne części – pierwsza część dotyczy zagadnień związanych z BigQuery oraz SQL, druga część poświęcona jest w całości Pythonowi, zaś trzecia część skupia się na najczęściej wykorzystywanych narzędziach w inżynierii danych i wykorzystaniem uprzednio zdobytej wiedzy z Pythona i SQLa. Po pierwszej i drugiej części przewidziany jest mikro test, zaś po trzeciej części samodzielny projekt do zrobienia. W trakcie kursu do wykonania będą zadania o różnym poziomie trudności.

Podczas kursu będziemy korzystać z chmury google’a – Google Cloud Platform (GCP) oraz z Pythona w wersji 3.11. Sugerowane IDE do części związanej z Pythonem to Pycharm Enterprise (wszystko w wersjach darmowych)

Pełny opis:

Spis treści

1. Wstęp

1.1 Do kogo skierowany jest niniejszy kurs – wymagania wstępne

1.2 O kursie

1.3 Czym właściwie jest Data Engineering

2. Google Cloud Platform – informacje ogólne

2.1 Czym jest Google Cloud Platform

2.2 Konfiguracja projektu w GCP

2.3 Zarządzanie kosztami – billing

2.4 Zarządzanie dostępem (IAM)

2.5 Monitoring i logowanie

3. Google BigQuery

3.1 Czym jest Google BigQuery

3.2 Datasety w BigQuery

3.3 Pisanie zapytań

3.4 Tworzenie tabel w BigQuery

3.4.1 Tworzenie tabel będących wynikiem zapytania

3.4.2 Tworzenie tabel z Google Sheet’a

3.4.3 Tworzenie tabel z plików csv/parquet/avro w Google Cloud Storage

3.5 Schedulowanie zapytań

3.6 Data Transfer

4. SQL

4.1 Struktura zapytania

4.2 Funkcje skalarne w Standard SQL

4.3 Instrukcje warunkowe

4.4 Podzapytania i CTE

4.5 Złączenia tabel

4.6 Funkcje okienkowe

4.7 Funkcja Pivot

4.8 Praca z obiektami ARRAY

4.9 Praca z obiektami STRUCT

4.10 Praca z obiektami JSON

4.11 Optymalizacja zapytań w BigQuery

5. Python

5.1 Konfiguracja lokalnego środowiska pracy

5.1.1 Instalacja Python 3.11, Git oraz PyCharm

5.1.2 Tworzenie virtual environment

5.2 Podstawy składni Python

5.2.1 Komunikacja z użytkownikiem

5.2.2 Zmienne i typy danych

5.2.3 Definiowanie funkcji

5.2.4 Operacje na tekstach

5.2.5 Operacje na datach – biblioteka datetime

5.3 Struktury danych

5.3.1 Listy

5.3.2 Krotki (tuples)

5.3.3 Słowniki

5.3.4 Sety

5.3.5 Porównanie struktur danych

5.4 Instrukcje warunkowe

5.4.1 Instrukcja if, elif, else

5.4.2 Instrukcja match

5.5 Pętle

5.5.1 Pętla for

5.5.2 Pętla while

5.6 Praca z danymi – biblioteka Pandas

5.6.1 Wprowadzenie do biblioteko Pandas

5.6.2 Podstawowe struktury danych w Pandas

5.6.3 Tworzenie DataFrame

5.6.4 Przeglądanie danych

5.6.5 Manipulacja danymi

5.6.6 Czyszczenie danych

5.6.7 Agregacja i grupowanie danych

5.6.8 Łączenie DataFrames

5.7 Praca z danymi – biblioteka JSON

5.7.1 Ładowanie i zapisywanie danych

5.7.2 Parsowanie i manipulacja danymi JSON

5.8 Praca z API – biblioteka requests

5.8.1 Wprowadzenie do requests

5.8.2 Podstawowe operacje HTTP

5.8.3 Praca z odpowiedzią

5.8.4 Parametry i nagłóki zapytań

5.9 Scraping danych – biblioteka BeautifulSoup

5.9.1 Wprowadzenie do web scrapingu

5.9.2 Instalacja i konfiguracja bs4

5.9.3 Podstawowe operacje – parsowanie HTML

5.9.4 Wyszukiwania elementów: find, find_all

5.9.5 Praca z danymi zebranymi z sieci

5.10 Wczytywanie plików zewnętrznych

6. Google Cloud Shell

6.1 Wprowadzenie do Google Cloud Shell

6.2 Podstawowe komendy i operacje

6.3 Konfiguracja środowiska pracy

6.4 Tworzenie i zarządzanie projektami GCP z Cloud Shell

6.5 Operacje na tabelach w BigQuery

6.6 Integracja z GitHubem

7. Cloud Functions

7.1 Czym są Cloud Functions

7.2 Tworzenie Cloud Function

8. Cloud Scheduler

8.1 Czym jest Cloud Scheduler

8.2 Schedulowanie funkcji przy użyciu CRONa

8.3 Automatyzacja zadań z użyciem Cloud Schedulera i Cloud Function

9. Cloud Pub/Sub

9.1 Wprowadzenie do Cloud Pub/Sub

9.2 Konfigurowanie i używanie tematów i subskrypcji

9.3 Integracja z innymi usługami GCP

10. Projekt końcowy

Literatura:

Oficjalna dokumentacja Google’a - https://cloud.google.com/docs

Efekty uczenia się:

Po ukończeniu kursu "Wstęp do Data Engineeringu w GCP", uczestnicy zdobędą umiejętności w korzystaniu z Google Cloud Platform, jednej z najpopularniejszych chmur na rynku. Będą w stanie pisać skomplikowane zapytania SQL oraz efektywnie wykorzystywać Pythona w codziennych zadaniach. Ponadto, zapoznają się z metodami integracji Pythona i SQL z chmurowym środowiskiem GCP. Kurs obejmuje również naukę systemu kontroli wersji GIT. Przygotowane zadania opierają się na rzeczywistych scenariuszach (real case’ach), z którymi uczestnicy mogą spotkać się w swojej przyszłej pracy zawodowej.

Metody i kryteria oceniania:

Dwa kolokwia cząstkowe (2x25%) + projekt końcowy (50%)

Zajęcia w cyklu "Semestr zimowy 2024/25" (w trakcie)

Okres: 2024-10-01 - 2025-01-26
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Konwersatorium, 30 godzin więcej informacji
Koordynatorzy: Igor Rębas
Prowadzący grup: Igor Rębas
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Konwersatorium - Zaliczenie na ocenę
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski, Wydział Nauk Ekonomicznych.
ul. Długa 44/50
00-241 Warszawa
tel: +48 22 55 49 126 https://www.wne.uw.edu.pl/
kontakt deklaracja dostępności mapa serwisu USOSweb 7.1.0.0-7 (2024-10-21)