| Indice
Prefazione XI
Capitolo 1 Introduzione al data warehousing 1
1.1 I sistemi di supporto alle decisioni 2
1.2 Il data warehousing 3
1.3 Architetture per il data warehousing 6
1.3.1 Architettura a un livello 7
1.3.2 Architettura a due livelli 7
1.3.3 Architettura a tre livelli 13
1.4 Gli strumenti ETL 13
1.4.1 Estrazione 15
1.4.2 Pulitura 15
1.4.3 Trasformazione 16
1.4.4 Caricamento 16
1.5 Il modello multidimensionale 17
1.5.1 Restrizione 22
1.5.2 Aggregazione 23
1.6 I meta-dati 23
1.7 Accedere al DW: reportistica, OLAP, data mining 28
1.7.1 Reportistica 28
1.7.2 OLAP 28
1.7.3 Data mining 37
1.8 ROLAP e MOLAP 40
1.9 Cenni al problema della qualita' 42
Capitolo 2 Il ciclo di vita dei sistemi di data warehousing 45
2.1 Fattori di rischio 45
2.2 Le metodologie 46
2.2.1 Il “Business Dimensional Lifecycle” 49
2.2.2 La “Rapid Warehousing Methodology” 50
2.3 La progettazione di un data mart 52
2.3.1 Analisi e riconciliazione delle fonti dati 53
2.3.2 Analisi dei requisiti 54
2.3.3 Progettazione concettuale 54
2.3.4 Raffinamento del carico di lavoro e validazione dello schema concettuale 55
2.3.5 Progettazione logica e fisica 55
2.3.6 Progettazione dell’alimentazione 56
Capitolo 3 Analisi e riconciliazione delle fonti dati 59
3.1 Ricognizione e normalizzazione degli schemi 62
3.2 Il problema dell’integrazione 63
3.2.1 Diversita' di prospettiva 65
3.2.2 Equivalenza dei costrutti del modello 66
3.2.3 Incompatibilita' delle specifiche 67
3.2.4 Concetti comuni 68
3.2.5 Concetti correlati 69
3.3 Le fasi dell’integrazione 69
3.3.1 Preintegrazione 70
3.3.2 Comparazione degli schemi 72
3.3.3 Allineamento degli schemi 74
3.3.4 Fusione e ristrutturazione degli schemi 75
3.4 Definizione delle corrispondenze 77
Capitolo 4 Analisi dei requisiti utente 79
4.1 I fatti 83
4.2 Il carico di lavoro preliminare 87
4.3 Altri requisiti 89
Capitolo 5 Modellazione concettuale 91
5.1 Il Dimensional Fact Model: concetti di base 94
5.2 Modellazione avanzata 100
5.2.1 Attributi descrittivi 101
5.2.2 Attributi cross-dimensionali 104
5.2.3 Convergenza 105
5.2.4 Gerarchie condivise 106
5.2.5 Archi multipli 107
5.2.6 Archi opzionali 109
5.2.7 Dinamicita' 110
5.2.8 Additivita' 112
5.3 Aspetti intensionali: descrizione formale 115
5.3.1 Il meta-modello 115
5.3.2 Formalizzazione dei concetti di base del DFM 115
5.4 Sovrapposizione di schemi di fatto 118
5.5 Gli eventi 122
5.6 Aggregazione di eventi 125
5.6.1 Aggregazione di misure additive 127
5.6.2 Aggregazione di misure non-additive 127
5.6.3 Aggregazione in presenza di convergenze e attributi cross-dimensionali 132
5.6.4 Aggregazione in presenza di archi opzionali o multipli 132
5.6.5 Aggregazione per schemi di fatto vuoti 137
5.6.6 Aggregazione in presenza di dipendenze funzionali tra le dimensioni 139
Capitolo 6 Progettazione concettuale 141
6.1 Progettazione da schemi concettuali Entity/Relationship 143
6.1.1 Definizione dei fatti 143
6.1.2 Costruzione dell’albero degli attributi 145
6.1.3 Potatura e innesto dell’albero degli attributi 151
6.1.4 Le associazioni uno-a-uno 156
6.1.5 Definizione delle dimensioni 157
6.1.6 Definizione delle misure 159
6.1.7 Generazione dello schema di fatto 160
6.2 Progettazione da schemi logici relazionali 165
6.2.1 Definizione dei fatti 165
6.2.2 Costruzione dell’albero degli attributi 166
6.2.3 Le altre fasi 169
6.3 Progettazione da schemi XML 173
6.3.1 Modellazione delle associazioni in XML 173
6.3.2 Fasi preliminari 176
6.3.3 Scelta dei fatti e costruzione dell’albero degli attributi 177
Capitolo 7 Carico di lavoro e volume dati 181
7.1 Il carico di lavoro 182
7.1.1 Espressioni dimensionali e interrogazioni sullo schema di fatto 182
7.1.2 Interrogazioni di drill-across 188
7.1.3 Interrogazioni composte 190
7.1.4 Interrogazioni GPSJ annidate 191
7.1.5 Validazione del carico di lavoro sullo schema concettuale 192
7.2 Il volume dati 193
Capitolo 8 Modellazione logica 197
8.1 I sistemi MOLAP 197
8.1.1 Il problema della sparsita' 198
8.2 I sistemi ROLAP 198
8.2.1 Lo schema a stella 199
8.2.2 Lo schema snowflake 201
8.3 Le viste 205
8.3.1 Schemi relazionali in presenza di dati aggregati 208
8.4 Scenari temporali 211
8.4.1 Gerarchie dinamiche: tipo 1 213
8.4.2 Gerarchie dinamiche: tipo 2 214
8.4.3 Gerarchie dinamiche: tipo 3 215
8.4.4 Cancellazione di tuple 218
Capitolo 9 Progettazione logica 219
9.1 Dagli schemi di fatto agli schemi a stella 220
9.1.1 Attributi descrittivi 220
9.1.2 Attributi cross-dimensionali 221
9.1.3 Gerarchie condivise 222
9.1.4 Archi multipli 223
9.1.5 Archi opzionali 228
9.1.6 Dimensioni degeneri 228
9.1.7 Problemi connessi all’additivita' 230
9.1.8 Utilizzo di schemi snowflake 232
9.2 Materializzazione delle viste 233
9.2.1 Risolvibilita' delle interrogazioni sulle viste 239
9.2.2 Formalizzazione del problema 242
9.2.3 Un algoritmo di materializzazione 244
9.3 Frammentazione delle viste 246
9.3.1 Frammentazione verticale delle viste 247
9.3.2 Frammentazione orizzontale delle viste 251
Capitolo 10 Progettazione dell’alimentazione 253
10.1 Alimentazione dello schema riconciliato 254
10.1.1 L’estrazione dei dati 255
10.1.2 La trasformazione dei dati 261
10.1.3 Il caricamento dei dati 263
10.2 Pulizia dei dati 264
10.2.1 Tecniche basate su dizionari 266
10.2.2 Tecniche di fusione approssimata 267
10.2.3 Tecniche ad hoc 270
10.3 Alimentazione delle dimension table 270
10.3.1 Identificazione dei dati da caricare 271
10.3.2 Sostituzione delle chiavi 271
10.4 Alimentazione delle fact table 273
10.5 Alimentazione delle viste materializzate 275
Capitolo 11 Indici per il data warehouse 279
11.1 I B+-Tree 279
11.2 Gli indici bitmap 282
11.2.1 Indici bitmap o B+-Tree? 285
11.2.2 Indici bitmap evoluti 287
11.3 Gli indici di proiezione 291
11.4 Indici di join e indici a stella 293
11.4.1 Indici Multi-Join 295
11.5 Indici spaziali 300
11.6 Algoritmi di join 302
11.6.1 Nested loop 302
11.6.2 Sort-merge 304
11.6.3 Hash Join 305
Capitolo 12 Progettazione fisica 309
12.1 L’ottimizzatore 309
12.1.1 Gli ottimizzatori basati su regole 315
12.1.2 Gli ottimizzatori basati sui costi 320
12.1.3 Gli istogrammi 322
12.2 La scelta degli indici 326
12.2.1 Indicizzazione delle dimension table 327
12.2.2 Indicizzazione della fact table 328
12.3 Altri elementi di progettazione fisica 329
12.3.1 Suddivisione in tablespace 330
12.3.2 Allocazione dei datafile 332
12.3.3 Dimensionamento dei blocchi di disco 336
Capitolo 13 La documentazione di progetto 339
13.1 Il livello del data warehouse 340
13.1.1 Lo schema di data warehouse 341
13.1.2 Lo schema di allocazione 342
13.2 Il livello dei data mart 345
13.2.1 Lo schema di data mart 345
13.2.2 Lo schema operazionale 346
13.2.3 Lo schema dell’alimentazione 347
13.2.4 Il glossario dei domini 348
13.2.5 Il carico di lavoro 349
13.2.6 Lo schema logico e lo schema fisico 350
13.3 Il livello dei fatti 352
13.3.1 Lo schema di fatto 352
13.3.2 Glossario degli attributi e delle misure 353
13.4 Linee guida metodologiche 355
Capitolo 14 Uno studio di caso 357
14.1 Il dominio applicativo 357
14.2 Pianificazione del data warehouse di StraSport 358
14.3 Il data mart commerciale 359
14.3.1 Analisi e riconciliazione delle fonti dati 359
14.3.2 Analisi dei requisiti utente 369
14.3.3 Progettazione concettuale 372
14.3.4 Progettazione logica 378
14.3.5 Progettazione dell’alimentazione 381
14.3.6 Progettazione fisica 383
14.4 Il data mart del marketing 385
Glossario dei termini 387
Bibliografia 393
Indice analitico 403 |