Uniwersytet Warszawski - Centralny System UwierzytelnianiaNie jesteś zalogowany | zaloguj się
katalog przedmiotów - pomoc

Analiza danych nieustrukturyzowanych ( ścieżka SAS)

Informacje ogólne

Kod przedmiotu: 2400-ZEWW330 Kod Erasmus / ISCED: 14.3 / (0311) Ekonomia
Nazwa przedmiotu: Analiza danych nieustrukturyzowanych ( ścieżka SAS)
Jednostka: Wydział Nauk Ekonomicznych
Grupy:
Punkty ECTS i inne: 3.00
zobacz reguły punktacji
Język prowadzenia: polski
Rodzaj przedmiotu:

nieobowiązkowe

Założenia (opisowo):

Założenia wstępne

Podstawowa wiedza z zakresu informatyki


Skrócony opis:

Celem zajęć jest zapoznanie studentów z metodami statystycznymi przydatnymi w analizie danych nieustrukturyzowanych oraz metodami sztucznej inteligencji, które umożliwiają strukturyzację informacji tekstowych oraz doskonalenie analiz i metod podejmowania decyzji poprzez przeprowadzenie analizy zawartości różnorodnych dokumentów tekstowych oraz znajdywanie nieznanych zależności, wzorców i trendów pomiędzy danymi w zgromadzonych zbiorach danych. Podczas wykładu zostaną omówione poszczególne metody i przykładowe zastosowania. Zajęcia praktyczne obejmują przeprowadzanie analiz przez studentów z wykorzystaniem programu SAS Enterprise Miner oraz SAS Text Miner.

UWAGA: Zajęcia są prowadzone w ramach ścieżki DMCP, po ukończeniu której studenci mogą uzyskać certyfikatu SAS

Pełny opis:

1. Wprowadzenie do metod analizy danych nieustrukturyzowanych. Techniki Data Mining, Text Mining, Web Mining

2. Funkcjonalności i działanie programu SAS Enterprise Miner 4.3 i Text Miner 3.1.

3. Funkcjonalności i działanie programu SAS Enterprise Miner 5.3 i Text Miner 3.2

4. Metody przeszukiwania informacji tekstowych. Dekompozycja danych tekstowych. Ilościowa reprezentacja zbioru dokumentów.

5. Automatyczne przetwarzanie danych tekstowych. Identyfikacja słów kluczowych.

6. Stop lista, start lista. Formy kanoniczne. Funkcje ważące. Wagi częstości.

7. Transformacja danych tekstowych. Redukcja wymiarów macierzy częstości.

8. Wizualizacja danych. Tworzenie drzewa powiązań.

9. Analiza dużych repozytoriów dokumentów. Zastosowanie makra %tmfilter w procesie text mining.

10. Analiza treści stron WWW. Zastosowanie makra %tmfilter w procesie web mining.

11. Metody klasteryzacji. Analiza profili segmentów i skupień.

12. Modele klasyfikacji. Scoring. Ocena wygenerowanego modelu.

13. Grupowanie danych tekstowych i modelowanie prognostyczne.

14. Prognozwanie na podstawie nieuporządkowanego tekstu.

15. Współpraca z innymi programami pakietu SAS Enterprise Miner. Inne narzędzia Text Miningu.

Literatura:

Literatura obowiązkowa:

[1] Lasek M., Pęczkowski M., Enterprise Miner. Wykorzystywanie narzędzi Data Mining w systemie SAS, podręcznik w przygotowaniu.

[2] Lasek M., Data Mining. Zastosowania w analizach i ocenach klientów bankowych, Oficyna Wydawnicza „Zarządzanie i finanse”, Warszawa 2002.

[3] Witkowska D., Sztuczne sieci neuronowe i metody statystyczne. Wybrane zagadnienie finansowe, Wydawnictwo C.H. Beck, Warszawa 2002.

[4] Text Mining Using SAS Software, SAS Education.

Literatura uzupełniająca:

[1] Frątczak E., Pęczkowski M., Sienkiewicz K., Skaskiewicz K., Statystyka od podstaw z systemem SAS, ISBN 83-7225-179-7, Oficyna Wydawnicza Szkoły Głównej Handlowej, Warszawa 2002.

[2] Giudici P., Applied Data Mining. Statistical Methods for Business and Industry, Wiley 2003.

[3] Hadasik D. (1998), Upadłość przedsiębiorstw w Polsce i metody jej prognozowania, Wydawnictwo Akademii Ekonomicznej w Poznaniu, Poznań.

[4] Jagielska J., Matthews Ch. Whitfort T. (1999), An investigation into the application of neural networks, fuzzy logic, genetic algorithms, and rough sets to automated knowledge acquisition for classification problems, Neurocomputing 24, 37-54.

[5] Jain L.B., Martin N.M. (eds.) (1999), Fusion of Neural Networks, Fuzzy Sets, and Genetic Algorithms. Industrial Applications, CRC Press.

[6] Kudyba S., Managing Data Mining. Advice from Experts, IT Solutions Series, ISBN 1-59140-243-3, CyberTech Publishing, Idea Group Inc. 2004.

[7] Nelles O. (2001), Nonlinear System Identification. From Classical Approaches to Neural Networks and Fuzzy Models, Springer Verlag, Berlin Heidelberg.

[8] Osowski S. (2001), Sieci neuronowe wykorzystujące systemy wnioskowania rozmytego, Software nr 2, 18-20 i 62.

[9] Raudys Š. (2001), Statistical and Neural Classifiers. An Integrated Approach to Design, Springer-Verlag, London.

[10]Ribeiro R., Zimmermann H.-J., Yager R., Kacprzyk J. (1999), Soft Computing in Financial Engineering, Studies in Fuzzines and Soft Computing, vol. 28, Physica Verlag, Heidelberg.

[11]Wang J. (ed.), Data Mining. Opportunities and Challenges, IRM Press 2003.

[12]Witten J.H., Frank E. (2000), Data Mining. Practical Machine Learning Tools and Techniques with Java Implementations, Academic Press, Morgan Kaufmann Publishers.

[13]Zwierz U., Wstęp do systemu SAS, Oficyna Wydawnicza Szkoły Głównej Handlowej, Warszawa 2001.

[14]Data & Text Mining, wydawca Prentice Hall

Efekty uczenia się:

Wiedza opanowana poprzez uczestnictwo w przedmiocie to znajomość poszczególnych metod statystycznych przydatnych w analizie danych nieustrukturyzowanychi oraz ich przykładowe zastosowania umożliwiające znajdywanie nieznanych zależności, wzorców i trendów pomiędzy danymi w zgromadzonych zbiorach danych, a także praktyczna umiejętność posługiwania się programem SAS Enterprise Miner oraz SAS Text Miner.

KW01, KW02, KW03, KU01, KU02, KU03, KK01, KK02, KK03

Metody i kryteria oceniania:

Zaliczenie studenci uzyskują na podstawie pracy zaliczeniowej polegającej na samodzielnie zaprojektowanym i zrealizowanym modelu analizy danych tekstowych.

Zajęcia w cyklu "Semestr letni 2020/21" (zakończony)

Okres: 2021-02-22 - 2021-06-13
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Konwersatorium, 30 godzin więcej informacji
Koordynatorzy: Karolina Kuligowska, Jacek Lewkowicz
Prowadzący grup: Karolina Kuligowska, Jacek Lewkowicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Konwersatorium - Zaliczenie na ocenę
Tryb prowadzenia:

zdalnie

Zajęcia w cyklu "Semestr letni 2021/22" (jeszcze nie rozpoczęty)

Okres: 2022-02-21 - 2022-06-15
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Konwersatorium, 30 godzin więcej informacji
Koordynatorzy: Karolina Kuligowska, Jacek Lewkowicz
Prowadzący grup: Karolina Kuligowska, Jacek Lewkowicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Konwersatorium - Zaliczenie na ocenę
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.