SP07h2xosbbkqVeFtGDx6IHrN3J20p9OptU54Mu3

BIG DATA ANALYTICS: VOLUME, VARIETY, VELOCITY DAN VERACITY

BIG DATA ANALYTICS:  VOLUME, VARIETY, VELOCITY DAN VERACITY

Volume, Variety, Velocity, Veracity
Artikel ini lanjutan dari artikel sebelumnya yaitu Perbedaan: Data Science vs Big Data vs Data Analytics. 

Tentu kalian tidak asing lagi mendengar kata "BIG DATA ANALYTICS" dimedia. Diartikel kali ini kita akan membahas apa itu big data analytics dan step by step prosesnya. Mari kita mulai dengan video pengantar berikut:
Secara definisi BIG DATA adalah kumpulan data yang ukurannya di luar kemampuan alat perangkat lunak database yang khas (typical database software tools) untuk menangkap (capture), menyimpan (store), mengelola(manage) dan menganalisis (analyze).
Dari definisi diatas kita dapat melihat kata "Khas"/typical. Khas disini dimaksudkan perangkat lunak dari segi waktu dan merujuk pada teknologi terkini. Bisa saja yang disebut big data 10 tahun lalu, sekarang karena alat teknologi dan perangkat lunak telah berubah sehingga tidak disebut big data lagi. Disisi lain, apa yang kita sebut big data sekarang, mungkin bukan lagi big data 5 tahun mendatang. 

MENGENAL 4 V (VOLUME, VARIETY, VELOCITY DAN VERACITY)

Untuk menentukan apakah data termasuk data yang besar kita dapat mempertimbangkannya dengan 4V. 4V adalah Volume, Variety (variasi), Velocity (kecepatan) dan Veracity (Kebenaran). 

Volume

Volume disini mengacu pada jumlah data yang akan disimpan. Misalnya, Walmart, mereka menangani lebih dari 1 juta transaksi pelanggan setiap jam, mengimpor lebih dari 2,5 petabyte data ke dalam basis data mereka. Jumlah ini 167 kali jumlah informasi yang terkandung dalam semua buku di Perpustakaan kongres Amerika.

Tabel berikut mencantumkan unit kapasitas penyimpanan yang berbeda. Untuk menempatkan ini dalam konteks, ada 8.000.000.000.000.000.000.000.000.000 bit (angka 8 yang diikuti 24 nol) atau yottabyte.
bit, byte, kilobyte, megabyte, gigabyte, terabyte, petabyte, exabyte, zettabyte, yottabyte

*Perhatikan bahwa karena bit bersifat biner dan merupakan nilai dasar penyimpanan.  Semua nilai untuk unit penyimpanan data didefinisikan "terms of powers of 2". Sebagai contoh, kilo awalan biasanya berarti 1000; namun, dalam penyimpanan data, satu kilobyte = 2^10 = 1024 byte.
Untuk mengelola volume data yang besar, kita memiliki dua opsi untuk menangani beban tambahan (additional load).
  • Scale Up: artinya kita menyimpan jumlah sistem yang sama untuk menyimpan dan memproses data, tetapi memigrasikan setiap sistem ke sistem yang lebih besar.
  • Skale Out: artinya kita meningkatkan jumlah sistem, tetapi tidak bermigrasi ke sistem yang lebih besar.

Velocity (Kecepatan)

Velocity mengacu pada kecepatan dimana data dimasukkan ke dalam suatu sistem dan harus diproses. Misalnya, Amazon menangkap setiap klik mouse saat pembeli menjelajah di situs webnya ini terjadi dengan cepat.
Kecepatan penting dalam stream prosessing. Data dari radio-frequency identification (RFID), global positioning system (GPS), near-field communication (NFC) dan sensor Bluetooth yang membanjiri sistem. Stream processing bertujuan untuk mengumpulkan data tunggal dari high-velocity data sehingga memicu high-level event ketika pola tertentu terdeteksi. Ini juga berfokus pada memutuskan data mana yang akan disimpan dari stream, karena tidak mungkin untuk menyimpan semua data yang masuk.

Variety (Varietas)

Varietas mengacu pada kompleksitas format data. Big data terdiri dari berbagai bentuk data. Misalnya, ketika perusahaan telekomunikasi seperti Telkomsel merekam data panggilan ke pusat panggilannya, data ini mencakup:
  • Data terstruktur, yang sesuai dengan model data yang telah ditentukan sebelumnya (Data pelanggan, Waktu panggilan , Jenis layanan), dan
  • Data tidak terstruktur (Rekaman panggilan, sejarah masalah yang terkait dengan panggilan pelanggan).

Veracity (Kebenaran)

Veracity mengacu pada kepercayaan data. Semakin banyak data dikumpulkan dan dianalisis secara otomatis akan tetapi tidak ditangkap secara keseluruhan (karena volume dan kecepatan tinggi). semakin besar data semakin tinggi  pula ketidakpastian tentang keakuratan data tersebut. Misalnya, sangat sulit untuk memverifikasi kebenaran postingan di platform media sosial, karena kita tidak selalu tahu latar belakang dan niat mereka.  Kita ingin data yang diperoleh merupakan data yang valid dengan tingkat kebenaran yang tinggi.

IBM Big Data & Analytics Hub menyediakan infografis yang menjelaskan dan memberikan contoh masing-masing dari 4V tersebut.


gambar full detail dari infografik diatas dapat kamu akses disini.

Selain 4V diatas terdapat V lainnya sebagai berikut:
Value: seberapa berartinya data tersebut.
Visualisasi: representasi grafis untuk membantu manusia dalam memahami big data yang diproses.

Artikel selanjutnya kita akan membahas tentang step by step dari BIG Data Analysis.

Yuk Diskusi di Komentar Kalau Ada yang Kurang Jelas atau Berupa Saran.

Feedback Anda Sangat Membantu Agar Blog Ini Menjadi Lebih Baik

Terima Kasih Sudah Berkunjung

Jangan Lupa di Follow dan Share yah, Agar Selalu Mendapatkan Artikel Terbaru 😊  


Related Posts
Ahmad Amiruddin
Saat ini mengambil jurusan Teknik Lingkungan di Universitas Pertamina. Seorang yang sangat menyukai membahas isu-isu yang ada di masyarakat utamanya mengenai masalah lingkungan. Selain mengenai lingkungan, juga tertarik dengan platform minyak dan gas serta desain. "VI VERI VENI VERSUM VIVUS VICI"

Related Posts

Posting Komentar