Depozite de date Migrarea datelor



Yüklə 483 b.
tarix27.03.2018
ölçüsü483 b.
#35142





Principala valoare = capacitatea de a transforma datele în informaţii.

  • Principala valoare = capacitatea de a transforma datele în informaţii.

  • Cine nu obtine informaţii suficient de repede şi nu le prelucrează eficient, rămâne în urmă sau dispare, într-un mediu concurenţial din ce în ce mai agresiv.

  • Business Intelligence se refera la sisteme informatice de identificare, extragere si analizare a datelor disponibile intr-o companie, sisteme al caror scop este de a oferi un suport real pentru luarea deciziilor de business.

  • O soluţie de Business Intelligence integrează datele curente ale afacerii dar şi date prealabile, provenind din mai multe programe şi aplicaţii şi le consolideaza într-o singură bază de date optimizată pentru regăsirea şi analiza informaţiei.



Consiliul OLAP 1995: o stocare centralizată a datelor detaliate provenite din toate sursele relevante din cadrul unei organizaţii ce permite interogarea dinamică şi analiza detaliată a tuturor informaţiilor.

  • Consiliul OLAP 1995: o stocare centralizată a datelor detaliate provenite din toate sursele relevante din cadrul unei organizaţii ce permite interogarea dinamică şi analiza detaliată a tuturor informaţiilor.

  • William Inmon: o colecţie de date orientate pe subiecte, integrate, istorice şi nevolatile destinată sprijinirii procesului de luare a deciziilor manageriale

  • +instrumente de interogare, analiza si prezentare a informatiilor

    • Instrum. de analiza on-line- OLAP
    • Instrum. de data mining


Dimensiunea DW – TBytes

  • Dimensiunea DW – TBytes

  • Costul implementarii – peste 1 mil $

    • Servicii profesionale
    • Software pentru extragere, transformarea, incarcarea si analiza datelor
    • Sisteme hardware si stocarea datelor
  • Gartner Group estimează o creştere dublă pe piaţa depozitelor de date în raport cu creşterea globală a pieţei de IT





Integrarea datelor

  • Integrarea datelor

    • modalităţi unice de codificare, sistem de unităţi de măsură consistente,
    • sistem stabil de reprezentare fizică a datelor,
    • convenţii clare privind modul de reprezentare a datelor calendaristice,
    • convenţii unice privind denumirile datelor.
  • FLEXIBILITATE – sa se conecteze la niv. intregii organizatii a.i. servere de la furnizori diferiti sa se poata conecta la depozitul existent

  • ARHITECTURA – adaptare usoara la modificarile de performante, capacitate si conectivitate

  • Data mart - >500 GB, <1mil $, <3 luni



William Inmon: este o colecţie de date orientate pe subiecte, integrate, istorice şi nevolatile, fiind destinat fundamentării deciziei manageriale.

  • William Inmon: este o colecţie de date orientate pe subiecte, integrate, istorice şi nevolatile, fiind destinat fundamentării deciziei manageriale.

  • O BD pentru luarea deciziilor, separata de BD operationala a companiei

  • Ofera suport pentru procesarea informatiilor, oferind o platforma de date istorice consolidate pentru analiza

  • Structurile de date într-un depozit de date sunt optimizate pentru o regasire şi o analiza rapida.



Organizat pe subiecte importante: client, produs, vanzari.

  • Organizat pe subiecte importante: client, produs, vanzari.

  • Accent pe modelarea si analiza datelor de catre decidenti

  • Ofera o perspectiva simpla si concisa asupra anumitor subiecte, excluzand datele care nu sunt utile in procesul de luare a deciziilor



Integreaza surse de date multiple

  • Integreaza surse de date multiple

  • Tehnici de curatare si integrare a datelor.

  • Consistenta in

    • conventiile de numire,
    • structura codurilor,
    • unitatile de masura folosite de diferitele surse
      • E.g., Pret hotel: moneda, taxe, mic dejun inclus, etc.


Datele sunt istorice şi sunt actualizate la intervale regulate.

  • Datele sunt istorice şi sunt actualizate la intervale regulate.

  • Orizontul de timp este mult mai mare decat la sist. operationale (ex: 5-10 ani)

  • Fiecare element stuctural cheie al depozitului:

    • Contine o referire temporala, implicita sau explicita, ceea ce nu are loc la datele operationale


Un depozit separat fizic de date transformate din mediul operational

  • Un depozit separat fizic de date transformate din mediul operational

  • In DW nu au loc actualizari operationale ale datelor.

    • Nu necesita mecanisme de procesarea tranzactiilor, recuperare si controlul concurentei
    • Sunt necesare doar 2 operatii pentru accesarea datelor :
      • Incarcarea datelor si accesul la date.
  • Actualizare doar adăugarea periodică a unor date extrase din sistemele operationale

  • Preocupare pt. optimizarea accesului la date: denormalizare, sumarizare, statistici ale accesării şi reorganizare dinamică a indexării



Telecomunicatiile.

  • Telecomunicatiile.

  • Bancile

    • gestionarea profitabilitatii generale, prin analizarea profitabilitatii pe produs si pe client.
    • determinarea profilurilor clientilor pentru a directiona cât mai eficient campaniile de marketing.
  • Comertul cu amanuntul.

    • trendul vânzarilor în functie de anotimp, vacante, campanii de publicitate, activitatea competitorilor.
    • mentalitatile si obiceiurile cumparatorilor = intrari in sistemul de dirijare a actiunilor promotionale si a altor campanii de marketing
    • analiza trendului performantelor
    • vânzari încrucisate
    • profilul consumatorului si piata tinta.




Performante mai bune

  • Performante mai bune

    • SGBD— potrivit pt OLTP: metode de acces, indexari, controlul concurentei, recuperare.
    • Depozit —potrivit pt OLAP: cereri complexe, perspective multidimensionale, consolidare
  • Functii si date diferite

    • Date: luarea deciziilor necesita date istorice
    • Consolidarea datelor: luarea deciziilor necesita consolidari de date din surse eterogene
    • Calitatea datelor: datele din surse diferite au reprezentari, codificari si formate diferite care trebuie reconciliate


1 DEPOZITE DE ÎNTREPRINDERE (ENTERPRISE

  • 1 DEPOZITE DE ÎNTREPRINDERE (ENTERPRISE

  • WAREHOUSE)

    • întreaga structură organizaţională
    • un volum extins de date: atât informaţii detaliate, cât şi agregate.
    • suporturi hardware performante.
    • costurile si timpul de proiectare şi implementare sunt considerabile,
  • 2 DATA MART

    • specific unui anumit subset de cerinte sau unui departament din cadrul organizatiei
    • de regulă, datele conţinute într-un data mart sunt agregate.
    • costurile şi termenele de implementare sunt considerabil reduse
  • 3 DEPOZIT VIRTUAL (VIRTUAL WAREHOUSE)

    • o serie de vederi (views) realizate direct asupra BD operaţionale.
    • procesele de agregare pot afecta capacităţile de prelucrare ale serverelor utilizate în activitatea operaţională,
    • aparent uşor de implementat, necesita capacităţi de procesare deosebite.
    • necesita curatare si consolidare in timpul rularii


permite vizualizarea datelor prin mai multe filtre sau dimensiuni in acelasi timp.

  • permite vizualizarea datelor prin mai multe filtre sau dimensiuni in acelasi timp.

  • Dimensiuni=coordonate=

  • categorii de informaţie.

  • De ex:

    • Care sunt vanzarile reale in
    • comparatie cu cele previzionate
    • pe zona, pe vanzator, pe produs?
    • Care este profitabilitatea pe produs, pe client?


Tabelele de fapte (masuri)

  • Tabelele de fapte (masuri)

    • conţin faptele şi cheile externe către tabelele de dimensiuni.
    • de obicei date numerice - totalizate şi analizate pe diferite niveluri.
  • Tabele dimensiuni

    • categorii de informatii care organizeaza datele
    • fiecare tabelă dimensiune are câte o cheie principala
    • câmpurile sunt de obicei textuale - sursă pentru restricţii şi pentru rândurile din rapoarte.
    • datele sunt de obicei colectate la nivelul cel mai de jos şi mai detaliat şi agregate pe nivelele superioare pentru analiză.
  • Atribut - un nivel al unei dimensiuni, intr-o IERARHIE

  • Ierarhiile

    • sunt structuri logice utilizate pentru ordonarea nivelelor de reprezentare a datelor.
    • definesc caile de navigare în interiorul datelor, permiţând detalierea graduală a datelor.


Volumul vanzarilor – functie de produs, luna, si zona

  • Volumul vanzarilor – functie de produs, luna, si zona





Granularitatea – reprezinta nivelul de detaliere la care sunt pastrate datele in depozit

  • Granularitatea – reprezinta nivelul de detaliere la care sunt pastrate datele in depozit

  • In functie de cerintele de analiza, datele se pot pastra la nivel mai detaliat sau mai agregat (depinde de niv. de detaliere a dimensiunilor)

  • Agregarea datelor- cresterea performantelor DW

  • 10 magazine, 100 produse/marca, vanzari saptamanale



premise diferite, tehnici diferite şi produc BD cu structuri diferite.

  • premise diferite, tehnici diferite şi produc BD cu structuri diferite.

  • modul de abordare a datelor (utilizator/date):

    • model multidimensional - dimensiuni cât mai apropiate de cele naturale şi de perspectiva utilizatorului.
    • model relational – perspectiva datelor
  • model multidimensional:

    • o BD mult mai uşor de consultat şi de interogat la un nivel înalt, sintetic, agregat
    • o BD cu mai putine tabele şi chei de administrat decât modelul relational


procesul de transformare succesivă a unei BDR în vederea aducerii sale într-o formă standard optimizată

  • procesul de transformare succesivă a unei BDR în vederea aducerii sale într-o formă standard optimizată

  • eliminarea anomaliilor, redundanţelor, dependenţelor nedorite între date

  • Anomalii de actualizare

    • limitarea posibilităţilor de inserare a datelor
    • pierderi de date la ştergere
    • apariţia de inconsistenţe la modificarea datelor
  • Dependente

    • Dependenţă funcţională – A depinde funcţional de un B dintr-o tabelă dacă fiecărei valori a lui A îi corespunde numai o valoare a lui B. B depinde funcţional complet de un grup de atribute dacă B este dependent funcţional de fiecare atribut din grup.
    • Dependentă tranzitivă –daca B depinde de A şi C depinde de B atunci C se află în dependenţă tranzitivă faţă de A.
    • Dependenţă multivaloare – dacă valorii unui atribut A îi corespund două sau mai multe valori ale atributului B


Forma normală 1 (FN1) dacă atributele sunt la nivel atomic şi au fost eliminate grupurile de atribute repetitive

  • Forma normală 1 (FN1) dacă atributele sunt la nivel atomic şi au fost eliminate grupurile de atribute repetitive

  • Forma normală 2 (FN2) dacă este în FN1 şi nu există dependenţe funcţionale parţiale pentru atributele non-cheie

  • Forma normală 3 (FN3) dacă este în FN2 şi nu există dependenţe funcţionale tranzitive pentru atributele non-cheie

  • Forma normală 4 (FN4) dacă este în FN3 şi există cel mult o dependenţă funcţională multivaloare pentru atributele non-cheie

  • Forma normală 5 (FN5) dacă este în FN4 şi nu există dependenţe joncţiune pentru atributele non-cheie





cel mai des utilizat model de organizare al depozitelor de date

  • cel mai des utilizat model de organizare al depozitelor de date

  • tabela de fapte cuprinde, fără redundanţe, marea parte a datelor

  • tabela de fapte este conectata la tabelele dimensiune pe baza cheilor externe pe care acestea le conţin.

  • star join = legatura stabilita între un tabel de fapte si tabelele dimensiune

  • star query = jonctiunea dintre un tabel de fapte si mai multe tabele dimensiune

  • Avantaj: performante optime pentru interogarile dintr-un depozit de date





seminormalizat”, avantajele modelului relaţional.

  • seminormalizat”, avantajele modelului relaţional.

  • tabelele dimensiune respecta regulile de normalizare din modelul relaţional =>economie de spaţiu

  • nu va conduce la reducerea spaţiului pt tabela de fapte

  • Avantaje:

    • Redundanta redusa
    • Usor de întretinut
  • Dezavantaje: la cereri de interogare complexe(join)=> creste timpul de raspuns





Schema galaxie

  • Schema galaxie

  • mai multe tabele de fapte, conectate ce utilizează aceleaşi tabele-dimensiune

  • pe lângă tabela de fapte Vânzări, o tabelă suplimentară de fapte Aprovizionări, legata de dimensiuni







Baze de date distribuite

  • Baze de date distribuite

  • Depozite de date

  • Migrarea datelor



Migrare sau reproiectare la schimbarea BD

  • Migrare sau reproiectare la schimbarea BD

  • Avantaje reproiectare

    • posibilitatea de a începe de la zero şi a elimina slăbiciunile structurale;
    • adoptarea de noi tehnologii;
    • crearea unei fundaţii proaspete pentru noul sistem
  • Dezavantaje reproiectare

    • analiza, proiectarea şi implementarea unui nou sistem solicită mult timp şi resurse
    • este posibil ca noul sistem să fie mai puţin funcţional decât vechiul


Diferenţele de sintaxă SQL între principalele SGBD-uri;

  • Diferenţele de sintaxă SQL între principalele SGBD-uri;

  • Integrarea de restricţii de integritate şi algoritmi atat in BD sursa, cat si in destinatie

  • Asistent de migrare, care să automatizeze cele mai multe sarcini, iar administratorul BD să faca doar corecţii minore şi de fineţe.

  • Interdependenţa dintre obiectele BD

  • Volumul mare de date – durata mare transfer



Export si conversie

  • Export si conversie

  • Transfer si procesare

  • Import



Se exporta si se convertesc toate/ o parte din obiectele BD

  • Se exporta si se convertesc toate/ o parte din obiectele BD

    • Tabele
    • Viziuni
    • Proceduri/ functii/ pachete stocate
    • Declansatori
  • Redenumiri sau schimbari de tipuri

  • => Fisiere ASCII cu comenzi SQL pentru crearea structurii si cu date pentru popularea BD



Optionala, daca e nevoie de transfer

  • Optionala, daca e nevoie de transfer

  • Procesarea scripturilor transferate – modificari pt nevoi neacoperite de agentul de migrare folosit



Scriptul creat la A si prelucrat la B e executat pe BD destinatie

  • Scriptul creat la A si prelucrat la B e executat pe BD destinatie

  • Utilitare pt executia scripturilor:

    • SQL Plus pentru Oracle;
    • CLP (Command Line Processor) pentru IBM DB2;
    • ISQL pentru Ms SQL Server şi SyBase;
    • linia de comandă MySQL.
  • Utilitare pt. incarcare date din fisiere ASCII:

    • SQL Loader pentru Oracle;
    • LOAD/IMPORT pentru IBM DB2;
    • BCP pentru SQL Server şi Sybase;
    • LOAD DATA INFILE pentru MySQL;
    • BUTIL pentru Persasive SQL.








Strategia “Big Bang”

  • Strategia “Big Bang”

    • migrarea tuturor datelor si trecerea la noul sistem in acelasi pas.
    • avantajul -lipsa nevoii interoperabilitatii intre vechiul sistem si noul sistem.
    • dezavantaj- durata mare de “downtime” sau neputinta testarii in productie
  • Strategia “Chicken Little”

    • sistemul sursa este divizat in unitati cu cat mai putine interdependente
    • vechiul sistem si noul sistem ruleaza in paralel in timp ce modulele sunt transferate
    • migreaza datele incremental, asigurand integritatea informatiei.
    • Avantaj: timpul de stabilizare permis intre migrarile modulelor., testare
  • Strategia “Butterfly”

    • sursa este migrata iterativ pana cand diferenta dintre cele doua sisteme a atins pragul prestabilit, moment in care, restul informatiei este transferat si noul sistem este pornit
    • nu se foloseste de portalul intre cele doua sisteme.
    • sistemul tinta nu se afla in productie deci nu trebuie sincronizat dupa fiecare migrare.


Yüklə 483 b.

Dostları ilə paylaş:




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə