SEBUAH MODEL YANG DIUSULKAN UNTUK PROSES ETL DATA WAREHOUSE
SEBUAH MODEL YANG DIUSULKAN UNTUK PROSES ETLDATA WAREHOUSE
Sudarmawan, Mohammad Saifullah
Universitas Dr.Soetomo
Abstrak
Ekstraksi-Transformasi-Loading (ETL) adalah sebuah perangkat lunak yang bertanggung jawab untuk ekstraksi data dari beberapa sumber, pembersihan, kustomisasi, reformatting, integrasi, dan memasukkan ke dalam data warehouse.
Membangun proses ETL berpotensi dari salah satu tugas terbesar untuk membangun sebuah datawarehouse, dan kompleks ini sebagian besar aktu dipergunakan untuk pembangunan proyek data warehouse dalam pelaksanaan usaha, laporan biaya, dan sumber daya pembangunan.
Membangun data warehouse ini membutuhkan kefokusan dan pemahaman pada tiga bidang utama yaitu : bidang daerah sumber, bidang daerah tujuan dan dan bidang daerah pemetaan (ETL proses).
Bidang daerah sumber memiliki standar model seperti hubungan diagram entitas, dan daerah tujuan yang memiliki standar model seperti skema bintang, tetapi pemetaan daerah tidak memiliki standar model sampai sekarang. Meskipun proses ETL sangat penting, sebab karenah itu penelitian kecil ini telah dilakukan dalam bidang ini karena kompleksitas pada Bidang Daerah sumber tersebut. Dan kurang jelasnya model standar ini, ada yang bisa digunakan untuk mewakili skenario ETL kali ini.
Kata kunci : Data warehouse; ETL proses; Database; konsep model
I. PENDAHULUAN
1.1 Latar Belakang
Data Warehouse (DW) adalah kumpulan teknologi data yang bertujuan untuk memungkinkanpengambilan data keputusan yang lebih baik dan lebih cepat.Data warehouse berbeda dari databaseoperasional bahwa mereka tunduk berorientasi, terpadu, waktu varian, non volatile, diringkas, lebih besar,tidak normal, dan melakukan OLAP.
Generik arsitektur data warehouse terdiri dari tiga lapisan yaitu (sumber data, DSA, dan gudangdata primer) (Inmon, 2002; Vassiliadis, 2000). Untuk membangun data warehouse (DW) kita harus menjalankan alat ETL yang memiliki tiga tugas :
( 1 ) data diambil dari data yang berbeda sumber,
( 2 ) disebarkan ke daerah pementasan data yang berubah dan dibersihkan kemudian
( 3 ) dimuat ke data gudang
Alat ETL adalah kategori alat khusus dengan tugas yang berhubungan dengan beberapa data warehouse homogenitas , membersihkan , masalah transformasi , dan pemuatan ( Shilakes dan Tylman ,1998) .
Penelitian ini akan mencoba untuk menemukan formal representasi model untuk menangkap proses ETL yang memetakan data yang masuk dari DSS yang berbeda dalam cocok format untuk memuat target DW atau DM .
1.2 Rumusan Masalah
Meskipun proses ETL daerah sangat penting, ia memiliki sedikit kesulitan penelitian. Hal ini dikarnakan sulitnya dan kurangnya model formal untuk mewakili kegiatan ETL yang memetakan data yang masuk dari DSS yang berbeda dalam format yang tidak sesuai untuk memuat target DW atau DM (Kimball dan Caserta, 2004; Demarest, 1997; Oracle Corp, 2001; Inmon, 1997).
1.1 Tujuan
Tujuan kami adalah untuk mengusulkan model konseptual untuk digunakan dalam pemodelan berbagai proses ETL dan menutupi keterbatasan proyek penelitian sebelumnya .
Model yang akan digunakan untuk merancang skenario ETL dan dokumen adalah data untuk menyesuaikan dan menyederhanakan penelusuran pemetaan antara sumber data atribut dan yang sesuai dalam data warehouse .
Model yang diusulkan memiliki karakteristik sebagai berikut :
Model yang akan digunakan untuk merancang skenario ETL dan dokumen adalah data untuk menyesuaikan dan menyederhanakan penelusuran pemetaan antara sumber data atribut dan yang sesuai dalam data warehouse .
Model yang diusulkan memiliki karakteristik sebagai berikut :
Sederhana: untuk dipahami oleh desainer DW.
-Lengkap: untuk mewakili semua kegiatan proses ETL.
- Customizable: untuk digunakan dalam lingkungan DW yang berbeda
- Customizable: untuk digunakan dalam lingkungan DW yang berbeda
Jurnal ini akan diatur sebagai berikut:
Bagian 2 akan membahas konsep pemodelan ETL. ETL proses yang terkait atau bekerja sebelumnyadibahas dalam Bagian 3. Kita akan membahas kerangka yang diusulkan dalam Pasal 4. perbandingan antara model sebelumnya dan yang diusulkan adalah dibahas dalam Bagian 5. Selanjutnya, karya-karya lain yang terkait akan ditampilkan dalam Pasal 6. Akhirnya, Bagian 7 menunjukkan kesimpulan dan masa depan kerja.
II. LANDASAN TEORI
2.1 Konsep Pemodelan ETL
Kerangka umum untuk proses ETL ditunjukkan pada Gambar. 1.Data ini diambil dari sumber data yang berbeda, dan kemudian disebarkan ke DSA dimana akan berubah dan dibersihkan sebelum dimuat ke data warehouse. Sumber pementasa data lingkungan daerah dan sasarannya mungkin memiliki banyak data yang berbeda format struktur sebagai flat file, XML set data, relasional tabel, sumber-sumber non elasional,sumber log web, sistem warisan, dan spreadsheet.
2.1.1 Tahapan ETL
Selama proses ETL, data diambil dari database OLTP, ditransformasikan agar sesuai dengan skema data warehouse, dan dimasukkan ke database data warehouse ( Berson dan Smith, 1997; Moss, 2005). Banyak data warehouse juga menggabungkan beberapa data dari sistem non- OLTP, seperti file teks, sistem warisan, dan spreadsheet .Proses ETL merupakan kombinasi yang kompleks dan teknologi yang mengkonsumsi sebagian besar dari upaya pengembangan data warehouse dan membutuhkan keterampilan analis bisnis, desainer database , dan aplikasi pengembang.
Proses ETL bukanlah peristiwa satu kali sebagai data sumber mengubah data warehouse akan diperbarui secara berkala . Juga sebagai perubahan bisnis sistem DW perlu berubah dalam rangka mempertahankan nilainya sebagai alat untuk pengambil keputusan , sebagai akibat dari yang ETL juga berubah dan berkembang.
2.1.2 Pencabutan
Langkah pertama dalam setiap skenario ETL adalah ekstraksi data langkah ekstraksi bertanggung jawab untuk mengekstrak data dari sistem sumber dan setiap sumber data yang berbeda telah menetapkankarakteristik yang perlu dikelola untuk mengekstrak efektif data proses ETL.Proses ini perlu untuk mengintegrasikan sistem yang memiliki platform yang berbeda, seperti gambar dibawa ini:
Gambar1 : Satu kerangka umum untuk proses ETL.
2.1.3 Transformasi
Langkah kedua dalam setiap skenario ETL adalah transformasi data , Langkah transformasi inicenderung membuat beberapa pembersihan yang sesuai pada data masuk untuk mendapatkan data yang benar benar akurat, lengkap, konsisten, dan tidak ambigu.
2.1.4 Pemuatan
Data ke struktur multidimensi target adalah final ETL yang langkap dalam langkah ini,diekstraksi dan diubah, ditulis ke dalam dimensi struktur sebenarnya diakses oleh pengguna akhir sistem aplikasi.
2.2 Model Proses ETL
Bagian ini akan menavigasi melalui upaya yang dilakukan untuk konsep proses ETL.
Proses ETL sangat penting dalam membangun dan memelihara sistem DW, tetapi metode ini ada kurangnya dalam model standar yang dapat digunakan untuk mewakili skenario ETL.
Setelah kita membangun model ini, kami akan membuat perbandingan antara model ini dan model yang dibahas dalam bagian.
Penelitian di bidang pemodelan proses ETL dapat dikategorikan menjadi tiga pendekatan utama:
1. Berdasarkan modeling ekspresi pemetaan dan pedoman.
2. Berdasarkan modeling gagasan konseptual.
3. Berdasarkan modeling UML lingkungan.
Dan dibawa ini, penjelasan singkat dari masing-masing pendekatan yang diatas:
2.2.1 Proses ETL pemodelan
Proses ini menggunakan ekspresi pemetaan Rifaieh dan Benharkat (2002) telah menetapkan model meliputi berbagai jenis ekspresi pemetaan. Mereka menggunakan model ini untuk menciptakan alat ETL aktif.
2.2.2 pedoman pemetaan (Mapping guideline)
Mapping guideline adalah himpunan informasi yang didefinisikan oleh pengembang dalam rangka mencapai pemetaan antara atribut dari dua skema.
Mapping guideline ini digunakan untuk banyak aplikasi. Secara tradisional, dan pedoman inididefinisikan secara manual selama implementasi sistem.
Dalam kasus terbaik, mereka akan disimpan sebagai dokumen kertas. ini Pedoman ini digunakansebagai referensi setiap kali ada kebutuhan untuk memahami bagaimana atribut dari skema target telahdihasilkan dari sumber atribut.
Metode ini sangat lemah dalam pemeliharaan dan evolusi sistem. Untuk menjaga dan memperbarui pedoman ini adalah tugas yang sangat sulit, terutama dengan versi yang berbeda pedoman. Untuk memperbarui pemetaan atribut dalam sistem, salah satu harus mencakup update untuk dokumen kertaspedoman juga, oleh karena itu sangat sulit untuk mempertahankan seperti tugas tugas terutama denganupdate simultan oleh pengguna yang berbeda.
2.2.3. Memetakan ekspresi
Memetakan ekspresi dari satu atribut adalah keterangan yang dibutuhkan untuk mengenali satu atribut sasaran yang diciptakan dari sumber atribut.
Contoh dari aplikasi dimana memetakan ekspresi dipergunakan didaftarkan sebagai berikut:
Pemetaan bagan ( Madhavan et al., 2001 ): untuk database pemetaan bagan, ekspresi pemetaan diperlukan ke definisi penyesuaian untuk mencocokan unsur.
1. Alat penggudangan data ( ETL ) ( Staudt et al., 1999 ): Meliputi satu ragam proses dimana penyesuaian di antara data sumber dan sasaran DW untuk didefinisikan.
2. Pesan pemetaan EDI : kebutuhan dari satu terjemahan pesan kompleks yang diperlukan untuk EDI, dimana data harus ditransformasikan dari satu pesan format EDI ke EDI lainnya.
EAI ( integrasi aplikasi perusahaan ): integrasi dari sistem informasi dan aplikasi ini memerlukan satu middleware untuk mengatur proses( Stonebraker dan Hellerstein, 2001 ), yang meliputi ketentuan manajemen dari satu aplikasinya perusahaan, dan data acak untuk ketentuan aplikasi terkait untuk ketentuan konversi data biasanya, ketentuan konversi data didefinisikan diperlukan ekspresi pemetaan dengan data terintegrasi.
2.2.4. Contoh Memetakan Ekspresi
Beberapa contoh dari ekspresi pemetaan dari identifikasi berbeda jenis dari aplikasi diperlihatkan sebagai berikut:
1. Pecah / penggabungan : di contoh ini, nilai dari satu bidang didirikan dengan memecah nilai dari satu sumber dan dengan sumber nilai lain, seperti terlihat di Ara. 2 .
2. Pemetaan bersyarat : kadang kala dari nilai satu atribut sasaran bergantung kepada nilai atribut lainnya.
Seperti pada contoh: kalau X= 1 maka Y =A selain itu =B Y, seperti terlihat di Ara. 3 . Lebih tentang ketentuan ekspresi pemetaan dan notasi adalah di dirikan Jarke et al. (2003) dan et al Pengilang. (2000).
Gambar 2, Contoh 1 : Break-down/concatenation (Jarke et al.,2003).
2.3 Proses pemodelan ETL menggunakan konstruksi konseptual
Proses pemodelan ETL menggunakan concIn Vassiliadis et al . ( 2002a , 2003, 2005 ) penulis mencoba memberikan model pertama menuju model konseptual dari proses data warehousing ETL . Mereka memperkenalkan kerangka untuk pemodelan kegiatan ETL . Kerangka kerja mereka mengandung tiga lapisan , seperti yang ditunjukkan pada Gambar, 4.
Lapisan bawah yaitu; lapisan skema , melibatkan spesifik Skenario ETL . Semua entitas dari lapisan skema adalah contoh dari jenis kelas data, jenis fungsi , aktivitas dasar , recordset dan hubungan. Semakin tinggi lapisan yaitu; lapisan metamodel melibatkan kelas tersebut . Keterkaitan antara metamodel yang dan lapisan skema dicapai melalui Instansiasi ( '' '' InstanceOf ) hubungan .
Lapisan metamodel mengimplementasikan generalitas tersebut : lima kelas yang terlibat di lapisan metamodel cukup generik model setiap skenario ETL , melalui Instansiasi yang tepat. Lapisan tengah adalah lapisan Template . Konstruksi dalam lapisan template juga meta - kelas , tetapi mereka cukup custom- eptual konstruksi.
Gambar,3 Contoh 2: Conditional mapping (Jarke et al., 2003).
Gambar,4 Metamodel for the logical entities of the ETL environment (Vassiliadis et al., 2003).
2.4 DIUSULKAN METODE PROSES ETL (EMD)
Konsep Proses ETL ini digunakan untuk data peta dari sumber untuk skema sasaran data warehouse, seperti yang kita pelajari dalam proyek penelitian sebelumnya yaitu membuat beberapa integrasi, dan menambahkan beberapa ekstensi dengan pendekatan yang disebutkan di atas.
Kami mengusulkan diagram pemetaan entitas (EMD) sebagai konseptual baru untuk proses skenario pemodelan ETL. Kami mengusulkan mengikuti pendekatan pemodelan ini berdasarkan konseptual konstruksi. Model yang diusulkan diatas akan memenuhi enam persyaratan (El Bastawesy et al, 2005;. Maier, 2004;. Arya et al, 2006):
(1). Mendukung integrasi berbagai sumber data.
(2). Apakah kuat dalam pandangan mengubah sumber data.
(3). Mendukung transformasi fleksibel.
(4). Dapat dengan mudah digunakan dalam implementasi yang sesuai lingkungan.
(5). Apakah cukup lengkap untuk menangani berbagai ekstraksi, transperasi pembentukan, dan pemuatan.
(6). Apakah sederhana dalam menciptakan dan memelihara.
2.4.1. kerangka EMD
Gambar. 9 di bawah menunjukkan kerangka umum dari entitas yang diusulkan diagram pemetaan.
Figure 9 A general framework of EMD.
- Dalam sumber data bagian (s): Sumber data terrsebut dapat terstruktur database atau sumber-sumber non-terstruktur.
Dalam hal sumber terstruktur tersebut, database berpartisipasi dalam penggunaan atribut secara langsung, sebagai dasar sumber dalam kasus dari sumber-sumber non-terstruktur;
langkah konversi harus diterapkan, yang pertama untuk merubah sumber non-terstruktur menjaditerstruktur (tabel dan atributnya). Ada satu konstruk konversi yang dapat merubah non-struktur sumber keterstruktur database, setiap jenis non-terstruktur sumber akan memiliki modul konversi sendiri yang disebut wrapper. Dan wrappers mengkhususkan rutinitas program yang otomatis mengambil data dari sumber yang berbeda dengan format yang tidak sama, dan mengubah informasi menjadi format terstruktur.
- Extraction : selama proses ekstraksi sementara beberapa tabel dapat dibuat untuk menahan hasil konversisumber - sumber non-terstruktur ke dalam database. Untuk proses ekstraksi awal dan penyegaran, ekstraksi terjadi ketika skenario ETL dieksekusi untuk pertama kalinya, sementara data di tempatkan di data warehouse. Dan pada refresh ekstraksi ini bertujuan untuk menangkap data delta ( perbedaan antara data lama di Data DW dan diperbarui dalam sumber data ) . Hal ini lebih disukai untuk memisahkan skenario ETL skenario refresh ekstraksi.
Dalam scenario Ini pengguna mungkin perlu membangun dua scenario ETL model EMD yang sama, dan dua scenario itu diantarany: (a). untuk ekstraksi awal (b). dan yang lainnya untuk refresh ekstraksi menggunakan data lama di temp tabel ditemukan di area stage.
- Bagian Skema DW: tabel skema data warehouse ini fakta dan tabel dimensinya jelas berbeda dalam fungsi fungsi lainnya, tetapi semua fitur ini adalah data kontainer.
- Bagian Pemetaan : fungsi transformasi yang diperlukan diambil dan pengoperasian transformasi berlangsung pada data yang masuk dari kedua sumber di area stage sumber.
- In the mapping part: pada wadah fisik ini berisi semua tabel yang dibuat selama proses.
- Loading: sebagai data format yang mencapai akhir ini dimuat ke elemen data yang sesuai dengan skemaDW, dan data dapat dimuat langsung sebagai hasil dari fungsi tersebut.
2.4.2 EMD Metamodel
Medel ini adalah model konseptual untuk pemodelan proses ETL yang diperlukan untuk memetakan data, dari data sumber ke skema data warehouse. Dan pada Gambar. 10 menunjukkan metamodel yang
arsitektur untuk model konseptual yang diusulkan EMD.
arsitektur untuk model konseptual yang diusulkan EMD.
Figure 10 EMD metamodel.
Figure 11 Types of transformations in EMD.
Metamodel EMD tersebut diatas diusulkan terdiri dari dua lapisan;
- Lapisan pertama adalah lapisan abstraksi, di mana terdapat lima objek yaitu: (fungsi, wadah data, entitas, relasi, dan atribut)
- Lapisan kedua adalah lapisan Template, yang merupakan perluasan dari lapisan abstraksi, hubungan antara lapisan abstraksi dan template lapisan dapat dianggap sebagai hubungan agregasi.
2.4.3. Primitif dari EMD konstruksi
Dasar konstruksi yang digunakan dalam entitas yang diusulkan diagram pemetaan di atas ditunjukkan pada Gambar. 12.
Pada bagian ini, beberapa penjelasan tentang penggunaan konstruksi yang diusulkan
entitas diagram pemetaan akan diberikan, sebagai berikut:
entitas diagram pemetaan akan diberikan, sebagai berikut:
- Hubungan loader: digunakan ketika data dipindahkan langsung dari elemen terakhir sumber (sumber yang sebenarnya atau sementara) ke elemen data sasaran.
- Hubungan loader Opsional: digunakan untuk menunjukkan bahwa data dimuat ke atribut yang bisa diambil dari calon elemen sumber x atau calon sumber elemen y.
- Konversi ke dalam struktur: Operasi konversi diperlukan untuk merestrukturisasi sumber dasar non-erstruktur ke satu terstruktur (hubungan sebagai tabel dan atribut).
Figure 12 Graphical constructs for the proposed EMD
Operasi konversi menyimpan hasilnya koversi ke dalam tabel sementara, sehingga operasi transformasi dapat ditambahkan ke sumber sementara.
- Operasi transformasi entitas: jenis transformasi biasanya menghasilkan entitas sementara.
Ada standar operator yang digunakan dalam konstruksi ini, pada Gambar. 11 (a) menunjukkan beberapa operator tersebut.
- Atribut operasi transformasi: Operasional standar digunakan dengan konstruksi ini, pada Gambar. 11 (b) menunjukkan sampel operator ini.
- Pengguna didefinisikan function (UDF) sebagai operasi transformasi: pengguna dapat menggunakan definisi operasi ini, sehingga segala jenis transformasi dapat ditambahkan, seperti fungsi konversi mata uang, seperti yang ditunjukkan pada Gambar. 11 (c).
- Sumber Non-terstruktur: merupakan sumber yang tidak struktur relasional, sumber non-terstrukturmungkin terstruktur atau tidak terstruktur, seperti file XML, Web Log, Excel Workbook, Berorientasi, objekdatabase, dll. Seperti ditunjukkan pada Gambar. 11 (d). Perhatikan simbol atau singkatannya, dari operasidiletakkan dalam entitas atau transformasi atribut. Fungsi transformasi yang berlangsung di atasdiklasifikasikan menjadi built-in atau fungsi standar, seperti bergabung serikat dan mengubah nama.
Figure 13 Relational schema DS1 for books-orders database.
2.4.4. Contoh Demonstrasi (Demonstration example)
Untuk menggambarkan penggunaan model grafis kami memperkenalkan contoh sederhana yaituSebuah perusahaan ingin membangun data gudang untuk memantau proses penjualan dalam dua cabang.
Perusahaan tersebut memiliki sumber data relasional yang dijelaskan oleh skema DS1, untukpenjualan buku, seperti yang ditunjukkan pada Gambar. 13. Dan pada Relasional sumber data lain yang dijelaskan di skema DS2 untuk menjual produk umum, seperti yang ditunjukkan pada Gambar. 14. Dan disini juga Sebuah gudang data relasional dirancang untuk menangkap data penjualan dari dua sumber data yang telah ditetapkan. seperti bintang skema pada Gambar. 15, yang menunjukkan desain pengusulan data warehouse yang terdiri dari satu tabel fakta dan empat tabel dimensi.Gambar. 16 menggambarkan diagrampemetaan entitas untuk membangun produk dimensi dari sumber data yang diinginkan, melewati kegiatanETL yang diperlukan.
Penjelasan diagram diatas adalah sebagai berikut:
- DS1: mengacu pada sumber data pertama
Figure 14 Relational schema DS2 for products-orders database.
Figure 16 EMD scenario for building products dimension.
- DS2 : mengacu pada sumber data kedua ( produk -orderdatabase).
Ada dua entitas dari masing-masing sumber data yang berpartisipasi dalam diagram di atas adalah Book ( BookID , booktitle , CategoryID ) dan Kategori ( CategoryID , CategoryName ) dari sumber data yang pertama, Produk (ProductID , ProductName , BrandID ) dan Merek ( BrandID , CategoryName ) yang keduaanya dari sumber data.
DW1 : mengacu pada skema data warehouse dimana data akan dipindahkan, dan mungkin kita memiliki satu atau lebih skema DW tersebut, satu atau lebih data mart ( DM ) skema , atau kombinasi dariDW dan DM .
Dim_Products adalah entitas dimensi yang ditemukan di DW1, berada di tengah diagram, dan proses pemetaan yang diwakili untuk menggunakan serangkaian langkah-langkah transformasi, yang dimulai dengan penggabungan operasi antara Book dan Kategori meja, kemudian mengeluarkan catatan dengan menerapkan duplikat eliminasi operasi.
Entitas Sementara ( Temp1 ) dibuat untuk menangkap data yang dihasilkan dari operasi sebelumnya, dan pemberitahuan data atribut Temp1. CategoryID opsional dapat dimuat dari DS1.Book.CategoryID atau DS1.Category.CategoryID. Kegiatan yang sama berlangsung di situs lain yangberisi DS2 untuk menghasilkan tabel Temp2. Setelah itu beberapa operasi transformasi atribut mengambil tempat sebelum pemuatan data ke data warehouse sasaran, beberapa dari mereka yang digambarkan sebagai berikut : ( + + ) adalah pengguna didefinisikan transformasi operasi diterapkan untuk Temp1.ProductID untuk menambahkan 10,00,000 ke setiap nomor kode produk sebagai kebutuhan pengguna.
Tipe data ProductID dan CategoryID diubah untuk tipe data string dengan menggunakan ToString operasi ( TS ), tabel temp2 ditransfer ke lokasi DS1 dengan menggunakan file transfer protocol operasi (FTP ), maka operasi Union ( U ) berjalan untuk menggabungkan dua tabel .
Hubungan kedua loader terhubung ke ProductName dan Atribut CategoryName dan data tersebut dimuat kedalam atribut yang sesuai DW tanpa transformasi apapun.
Figure 17 Basic modules of ‘‘EMD Builder’’
2.5 Model evaluasi dan perbandingan
Tabel 1 berisi matriks yang digunakan untuk membandingkan berbeda Pemodelan ETL dan pendekatan untuk mengevaluasi usulan model terhadap model-model lain. Surat matriks dan model – model diatas telah didukung sebagaian besar sudah sesuai dengan kriteria saat ini.
2.6 Pekerjaan terkait lainnya
Proses ETL , data warehouse , adalah titik panas penelitian karena pentingnya dan biaya dalam proyek data warehouse bangunan dan pemeliharaan . Metode tinjauan sistematis untuk mengidentifikasi , mengekstrak dan menganalisis usulan utama pada pemodelan proses ETL konseptual untuk PRT (Mun~oz et al . , 2010a ). Membangkitkan proses ETL untuk tambahan pemuatan (Jo¨rg dan Deßloch,2008)
Sebuah model simulasi untuk ekstraksi data yang aman dalam proses ETL ( Mrunalini et al . , 2009).
Satu set langkah-langkah yang dapat digunakan untuk mengevaluasi kompleksitas struktural dari proses ETL modeli tingkat konseptual dibahas dalam Mun~oz et al . ( 2010b ) .InSimitsis dan Vassiliadis ( 2008) penulis membahas pemetaan model konseptual ke model logis.Membangkitkan proses ETL tambahan secara otomatis dari proses ETL penuh, dibahas dalam Zhang et al . ( 2008).
InSimitsis et al . ( 2008) penulis membahas penerapan alam teknik generasi pembahasan dengan lingkungan ETL .
Tindakan proses ETL model dalam gudang data yang dibahasdi Mun~oz et al . (2009) .
III. KESIMPULAN
Proses ETL adalah masalah yang sangat penting dalam penelitian saat ini yaitu Data Warehouse. Dalam tulisan ini , kami telah menginvestigasi masalah yang sangat penting dalam penelitian saat ini data pergudangan . Masalah ini merupakan kebutuhan nyata untuk menemukan standar model konseptual untuk mewakili dengan cara sederhana ekstraksi , transformasi , dan pemuatan ( ETL ) proses beberapa pendekatan telah diperkenalkan untuk menangani masalah ini . kami telah mengklasifikasikan pendekatan ini menjadi tiga kategori :
1. Pemodelan berdasarkan ekspresi pemetaan dan pedoman
2. Pemodelan berdasarkan gagasan konseptual
3. Pemodelan berbasis UML lingkungan .
Kami memiliki menjelaskan masing-masing model dalam beberapa detail . Terlebih lagi , kami mengusulkan sebuah novel konseptual model entitas diagram pemetaan ( EMD ) sebagai model yang disederhanakan untuk mewakili proses ekstraksi , transformasi , dan pemuatan data proyek pergudangan . Untuk menjelaskan model yang diusulkan kami , kita mendefinisikan beberapa model untuk diagram pemetaan entitas . dalam metamodel kita mendefinisikan dua lapisan:
1. Abstraksi
lapisan di mana lima objek ( fungsi , data yang kontainer , entitas , hubungan , dan atribut ) didefinisikan dengan jelas . Benda-benda di lapisan abstraksi adalah pandangan tingkat tinggi dari bagian atau benda yang dapat digunakan untuk menggambar skenario EMD .
2. Lapisan Template yang merupakan ekspansi abstraksi lapisan
Pengguna dapat menambahkan lapisan sendiri di mana desainer ETL menarik skenario EMD nya. Kami juga menetapkan kerangka kerja untuk menggunakan model ini. Kerangka kerja ini terdiri dari sumber data bagian, data warehouse skema bagian, dan bagian pemetaan.
kedua Data sumber dan skema data warehouse harus didefinisikan secara jelas sebelum mulai menggambar skenario EMD. Dengan membandingkan diusulkan model untuk proyek-proyek penelitian sebelumnya menggunakan evaluasi matriks, model yang diusulkan dapat menangani titik lemah yang muncul dalam pekerjaan sebelumnya. Dalam pekerjaan di masa depan makalah ini, kami akan mengembangkan dan menguji alat prototipe menyebutnya 'EMD Builder' untuk mencapai tugas-tugas berikut: memperkenalkan alat untuk menggambar entitas pemetaan skenario diagram
menggunakan palet grafis konstruksi, menerapkan seperangkat operasi transformasi, mengubah model grafis untuk kode oleh menghasilkan skrip SQL, dan menghasilkan dokumen pemetaan sesuai dengan standar Kimball.
IV. DAFTAR PUSTAKA
1. Arya, P., Slany, W., Schindler, C., 2006. EnhancingWrapper Usability through Ontology Sharing and Large Scale Cooperation. <www.ru5.cti.gr/HT05/files/andreas_rath.ppt> (accessed 2006).
2. Bernstein, P., Rahm, E., 2000. Data warehouse scenarios for model management. In: Proceedings of the 19thInternational Conference on Conceptual Modeling (ER’00), LNCS, vol. 1920, Salt Lake City, USA, pp. 1–15.
3. Berson, A., Smith, S.J., 1997. Data Warehousing, Data Mining, and OLAP. McGraw-Hill.
4. Demarest, M., 1997. The Politics of Data Warehousing. <http://www.hevanet.com/demarest/marc/dwpol.html>.
5. Dobre, A., Hakimpour, F., Dittrich, K.R., 2003. Operators and classification for data mapping in semantic integration. In: Proceedings of the 22nd International Conference on ConceptualModeling (ER’03), LNCS, vol. 2813, Chicago, USA, pp. 534–547.
Tidak ada komentar:
Posting Komentar