Vsebina:
- Kaj je podatkovno rudarjenje
- Statistično modeliranje, strojno učenje, programerski pristopi k modeliranju, povzemanje
- Statistične omejitve podatkovnega rudarjenja
- Princip Bonferoni in ostale omejitve
- MapReduce
- Primer Google, arhitektura MapReduce sistema, distribuiran datotečni sistem, preprost primer MapReduce algoritma: štetje besed
- Pomembnost besed v dokumentih
- Frequenca besede, mera za pomembnost
- Uporaba Hadoop-a
- Implementacija primera štetja besed
- Nadgradnja algoritma za štetje besed z algoritmom za iskanje pomembnih besed na primeru Wikipedije
Ciljna skupina:
Načrtovalci storitev, varnostni analitiki, R&D specialisti, strokovnjaki za tehnično podporo in svetovalci.
Cilji:
-
- poznati osnove podatkovnega rudarjenja, njegove omejitve in težave
- uporaba sistema MapReduce
- reševanje realnih problemiv z uporabo Hadoop-a
- Poudarek je na praktičnem delu, kjer udeleženci uporabljajo osnovne algoritme podatkovnega rudarjenja na realnih primerih. Podrobneje so predstavljene metode shranjevanja podatkov in algoritmi podatkovnega rudarjenja.
| |