Sunday, October 11, 2015

DATA WAREHOUSE DAN BIG DATA


Data Warehouse
Data warehouse adalah suatu konsep dan kombinasi teknologi yang memfasilitasi organisasi untuk mengelola dan memelihara data historis yang diperoleh dari sistem atau aplikasi operasional [Ferdiana, 2008].  Pemakaian teknologi data warehouse hampir dibutuhkan oleh semua organisasi, tidak terkecuali Perpustakaan. Data warehouse memungkinkan integrasi berbagai macam jenis data dari berbagai macam aplikasi atau sistem. Hal ini menjamin mekanisme akses “satu pintu bagi manajemen untuk memperoleh informasi, dan menganalisisnya untuk pengambilan keputusan”.


Data Warehouse hanya dapat dilakukan dengan menggunakan 2 server atau lebih. Data Warehouse    apat menyimpan data-data yang berasal dari sumber-sumber yang terpisah kedalam suatu format yang konsisten dan saling terintegrasi satu dengan lainnya. Dengan demikian data tidak bisa dipecah-pecah karena data yang ada merupakan suatu kesatuan yang menunjang keseluruhan konsep Data Warehouse itu sendiri. Dengan kata lain informasi dikumpulkan dari data yang terpisah yang kemudian disatukan menjadi sebuah ringkasan.

Big Data

Apakah sebenarnya Big Data itu? hingga saat ini masih belum ada definisi baku yang disepakati secara umum. Ada yang mendeskripsikan Big Data sebagai fenomena yang lahir dari meluasnya penggunaan internet dan kemajuan teknologi informasi yang diikuti dengan terjadinya pertumbuhan data yang luar biasa cepat, yang dikenal dengan istilah ledakan informasi (Information Explosion) maupun banjir data (Data Deluge). Hal ini mengakibatkan terbentuknya aliran data yang super besar dan terus-menerus sehingga sangat sulit untuk dikelola, diproses, maupun dianalisa dengan menggunakan teknologi pengolahan data yang selama ini digunakan (RDBMS). Definisi ini dipertegas lagi dengan menyebutkan bahwa Big Data memiliki tiga karakteristik yang dikenal dengan istilah 3V: Volume, Variety, Velocity. Dalam hal ini, Volume menggambarkan ukuran yang super besar, Variety menggambarkan jenis yang sangat beragam, dan Velocitymenggambarkan laju pertumbuhan maupun perubahannya. Namun demikian, definisi ini tentu masih sulit untuk dipahami. Oleh karena itu, uraian berikut mencoba memberikan gambaran yang lebih jelas dan nyata berkaitan dengan maksud definisi Big Data tersebut.



Gambar 1. Big Data 3V

Gambar 1 menggambarkan 3 karakteristik Big Data. Gabungan dari ketiga karakteristik ini menghasilkan data yang terlalu kompleks untuk ditangani dengan sistem konvensional.

Kesimpulan
Berdasar uraian diatas, dapat ditarik kesimpulan bahwa Big Data itu adalah limpahan data dengan volume dan ragam yang melampaui kapasitas sistem manajemen data konvensional, yang terbentuk dari meluasnya penggunaan internet maupun pemanfaatan teknologi informasi yang semakin canggih, dan memiliki tiga ciri khas : volume, variety, velocity.


Processing Data Warehouse dan Big Data
Dalam membangun Data Warehouse juga dapat membantu dalam membangun open-standards API untuk memungkinkan fleksibilitas ketika dikemudian hari diperlukannya teknologi Big Data karena akan lebih mudah dalam membangun API dari sumber data yang ada dari berbagai sumber operasional yang telah disetujui. Hadoop Platform sendiri merupakan suatu project teknologi yang dikembangkan oleh apache dalam mengelola data besar sehingga jauh lebih efektif dan efisien. Dalam hadoop sendiri terdiri dari berbagai komponen, bahkan hingga hadoop sendiri memiliki distributed file system sendiri yang disebut dengan (HDFS). Kelebihan dari dari HDFS ini sendiri adalah :
  • Fault tolerance, dan di-deploy untuk low cost hardware
  • Write Onece, Read many, merupakan koherensi sederhana, dan terlebih lagi framework yang dibangun dalam hadoop ketika kita akan menggunakan hadoop, menggunakan teknologi java.
  • Memindahkan komputasi/proses lebih cepat dari memindahkan data.
  • Mirip Google File System, tetapi HDFS membagi file menjadi block dalam cluster node yang terdistribusi.
  • Core component : master vs slave, name node vs data node, job tracker vs task tracker.

Apache Hadoop terdiri dari 4 modul yaitu, Hadoop Common (berisi libraries dan utilities yang dibutuhkan oleh modul Hadoop lainnya), HDFS atau Hadoop Distributed File System (sebuah distributed file-system), Hadoop YARN (sebuah platform resource-management yang bertanggung jawab untuk mengelola resources dalam clusters danscheduling), dan Hadoop MapReduce (sebuah model programming untuk pengelolaan data skala besar).

Analisa Data dengan OLAP
OLAP adalah singkatan dari Online Analytical Processing. OLAP digunakan untuk pengambilan keputusan, OLAP berguna dalam melakukan analisis data yang sudah ada untuk membantu dalam pengambilan keputusan di masa yang akan datang. OLAP merupakan teknologi yang memproses data di dalam database dalam struktur multidimensi, menyediakan jawaban yang cepat untuk query dan analisis yang kompleks. Data yang disajikan biasanya merupakan suatu fungsi agregasi seperti summary (rangkuman), max (nilai maksimum), min (nilai minimum), average (rata-rata), dan sebagainya.Sejak tahun 1980-an , baik organisasi swasta maupun pemerintahan telah bekerja dengan data dalam interval megabyte sampai gigabyte bahkan terabyte. Oleh karena itu, kebutuhan akan alat cangih dan cepat dalam menganalisis data semakin meningkat. Hal ini dikarenakan maju atau mundurnya perusahaan akan sangat bergantung oleh seberapa cepat dan canggihnya sistem informasi yang mereka miliki serta kemampuan mereka dalam menganalisis informasi dengan sistem tersebut. Dengan memanfaatkan relational database yang sudah ada maka didapat suatu cara untuk mengantisipasi kebutuhan guna menganalisa data secara cepat untuk membantu mendapatkan keputusan dalam suatu aplikasi atau organisasi.Sudah sekian lama, perusahaan menganalisis data dengan menggunakan relational DBMS yang sangat sederhana, dan tentunya memiliki keterbatasan dalam melakukan aggregate, summarize, consolidate, sum, view, dan analyze. Kekurangan tersebut akan muncul jika datanya bersifat multidimensi, karena banyak perusahaan menganalisis berbagai data dalam satu waktu yang bersamaan. Oleh karena itu, dibutuhkan suatu multidimensional data analysis sehingga muncullah Online Analytical Processing (OLAP).

Transaksi Data dengan OLTP
OLTP adalah singkatan dari Online Transaction Processing. OLTP merupakan suatu aplikasi atau program yang digunakan dalam operasional perusahaan sehari-hari seperti melakukan insert (memasukan data), update(mengubah data) dan delete (menghapus data) berbagai macam data, seperti penjualan, pembelian, produksi dan lain sebagainya. OLTP bertujuan untuk memproses suatu transaksi secara langsung melalui komputer yang tergabung didalam jaringan. Contohnya seperti aplikasi yang digunakan minimarket dalam melayani penjualan, jika ada suatu transaksi penjualan, seorang kasir dapat langsung memasukan data kedalam aplikasi yang terhubung didalam jaringan, sehingga pemrosesan data terbantu oleh adanya OLTP tersebut. Berdasarkan datanya, OLTP menggunakan data asli atau hari ini dan dapat di update setiap saat. OLTP biasanya memiliki ukuran yang relatif kecil.
Proses transactional (transaksi) dan analytical (analisis) adalah proses yang terpisah. Kedua proses ini akan terhubung oleh proses ETL yaitu, ExtractionTransformation dan Loading.

ETL (ExtractionTransformationLoading)
Proses ETL (Extraction, Transformation, Loading) merupakan proses yang harus dilalui dalam pembentukan data warehouse (Kimball, 2004). Berikut adalah penjelasan dari tiap proses.

Ekstraksi Data (Extract)

Ekstraksi data adalah proses dimana data diambil atau diekstrak dari berbagai sistem operasional, baik menggunakan query, atau aplikasi ETL. Terdapat beberapa fungsi ekstraksi data, yaitu :
  1. Ekstraksi data secara otomatis dari aplikasi sumber.
  2. Penyaringan atau seleksi data hasil ekstraksi.
  3. Pengiriman data dari berbagai platform aplikasi ke sumber data.
  4. Perubahan format layout data dari format aslinya.
  5. Penyimpanan dalam file sementara untuk penggabungan dengan hasil ekstraksi dari sumber lain.

Transformasi Data (Transformation)

Transformasi adalah proses dimana data mentah (raw data) hasil ekstraksi disaring dan diubah sesuai dengan kaidah bisnis yang berlaku. Langkah-langkah dalam transformasi data adalah sebagai berikut :
  1. Memetakan data input dari skema data aslinya ke skema data warehouse.
  2. Melakukan konversi tipe data atau format data.
  3. Pembersihan serta pembuangan duplikasi dan kesalahan data.
  4. Penghitungan nilai-nilai derivat atau mula-mula.
  5. Penghitungan nilai-nilai agregat atau rangkuman.
  6. Pemerikasaan integritas referensi data.
  7. Pengisian nilai-nilai kosong dengan nilai default.
  8. Penggabungan data.

Pengisian Data (Loading)

Proses terakhir yang perlu dilakukan adalah proses pemuatan data yang didapatkan dari hasil transformasi ke dalam data warehouse. Cara untuk memuat data adalah dengan menjalankan SQL scriptsecara periodik.

DAFTAR PUSTAKA

Opistation. 2013. Penggetian Data Warehouse. https://opistation.wordpress.com/2013/10/15/pengertian-data-warehouse/  11 Oktober 2015.

Sahputra, Muhammad. 2014. Apa Itu Bigdata
https://www.linkedin.com/pulse/20140727111659-27264088-apa-itu-bigdata. 11 Oktober 2015.

Vijjam Wijaya. 2013. Definisi Big Data. 
http://vijjam.blogspot.co.id/2013/12/memahami-definisi-big-data.html  11 Oktober 2015.
.
dundung blog. 2014. Oltp dan Olap.
http://dundungismyblog.blogspot.co.id/2014/09/data-warehouse-oltp-dan-olap-simak.html. 11 Oktober 2015

arie brigida. 2014. ETL.
http://informatika.web.id/etl-extraction-transformation-loading.htm. 11 Oktober 2015





No comments:

Post a Comment

silahkan postkan komentar anda