Skip to content Skip to sidebar Skip to footer

Dataset Adalah: Pengertian, Tipe, Perbedaan dengan Database, dan 10 Web Penyedia


KompasNusantara - Dalam dunia data mining dan profesi yang berkaitan dengan data science umum dikenal istilah dataset. Ilmu komputer dan teknologi informasi mengenal istilah ini untuk merujuk pada lebih dari satu variabel data dengan korelasinya masing-masing. Lantas, apa sih yang dimaksud dengan dataset ini? Mari kita simak ulasan lengkapnya berikut ini.

Apa itu dataset?


Dilansir dari IBM, dataset diartikan sebagai kumpulan daya atau dokumen yang berisi satu atau lebih catatan (record). Setiap kelompok record ini tadi disebut sebagai dataset dan memiliki peran untuk menyimpan informasi seperti catatan medis, asuransi, program, dan sistem data institusi. Dataset digunakan untuk menyimpan informasi yang dibutuhkan oleh aplikasi atau sistem operasi tertentu seperti sumber pemrograman, pustaka makro, atau variabel serta parameter sistem.

Dataset juga dapat didefinisikan sebagai kumpulan atau himpunan data yang disajikan dalam pola tabel. Setiap kolom dalam tabel data tersebut menggambarkan variabel tertentu sehingga dalam satu dataset terdapat beberapa variabel. Secara teknis, dataset merupakan bagian dari manajemen data. Sedangkan, nilai-nilai dari himpunan data ini disebut sebagai datum.

Secara teknis, dataset merupakan kumpulan item terkait yang dapat diakses secara individu atau dalam kombinasi pengelolaan tertentu sebagai satu kesatuan. Dataset dapat diatur ke dalam beberapa jenis struktur data. Contoh dataset dalam dunia bisnis bisa dilihat dari nama, gaji, informasi kontak karyawan, hingga angka penjualan, dan sebagainya.

Jika disimpulkan, dataset merupakan kumpulan data yang terurut dan diperoleh dari kumpulan informasi. Kumpulan informasi sendiri diperoleh dari pengamatan, pengukuran, studi, atau analisis hingga menjadi data. Data bisa berupa fakta, angka, nama, atau bahkan deskripsi. Oleh karena itu, dataset berkaitan erat dengan kegiatan data mining yang membantu para data scientist untuk menganalisis data menjadi suatu informasi koheren.

Perbedaan dataset dengan database


Meski terkesan serupa, namun sejatinya dataset berbeda dengan database atau basis data. Adapun perbedaan-perbedaan tersebut antara lain dapat dilihat dari tabel berikut.

Dataset
  • Kumpulan data terstruktur yang umumnya dikaitkan dengan kumpulan pekerjaan atau proyek unik
  • Umumnya satuan atau kelompok datanya tidak bisa diperbarui maupun diubah
  • Terdiri dari beberapa fakta pengukuran dan observasi
  • Berorientasi terpisah dan dapat diakses secara offline
Database
  • Kumpulan data terorganisasi yang disimpan sebagai beberapa dataset
  • Disimpan dan diakses secara elektronik dari sistem komputer dengan kemudahan akses, pembaruan, dan manipulasi
  • Terdiri dari berbagai tipe perencanaan, operasi, dan juga diperkuat oleh SQL
  • Umumnya hanya bisa diakses dengan konektivitas komputasi dan berbasis penyimpanan seperti cloud
10 Web penyedia public dataset


Untuk mempermudah kamu dalam mencari dataset, berikut ini adalah sepuluh situs penyedia dataset yang dapat mendukung proyek maupun pekerjaanmu.

1. Google Dataset Search

Salah satu situs populer untuk mencari dataset adalah Google Dataset Search. Kamu bisa mengaksesnya dengan mengklik tautan berikut ini. Google Dataset Search merupakan data-data yang dikumpulkan oleh Google untuk menyediakan sumber data eksternal beserta deskripsi dan pembaruan terkininya.

2. Datahub.io

Jika kamu ingin mencari dataset dengan fokus bisnis dan keuangan, kamu bisa mengaksesnya lewat Datahub.io. Kamu bisa mengakses sebagian besar dataset di sini secara gratis tanpa registrasi. Umumnya dataset yang tersedia berfokus pada bidang pasar saham, harga properti, inflasi, dan logistik.

3. Earth Data

Bagi kamu yang bekerja atau studi di bidang lingkungan maupun geografi, dataset dari Earth Data amat membantu. Kamu bisa mengakses data mengenai kebumian secara gratis tanpa registrasi dan kamu bisa menemukan berbagai hal seperti pengukuran cuaca, iklim, pemetaan vegetasi, hingga suhu laut dengan dataset ini.

4. Global Health Observatory Data Repository

Selama pandemi, mungkin beberapa dari kamu ingin mencari tahu bagaimana data kesehatan di seluruh dunia. Nah, kamu bisa mengakses dataset kesehatan dunia lewat dataset rilisan World Health Organization ini dengan mengklik tautan berikut. Selain gratis dan tanpa registrasi, kamu juga bisa mengakses berbagai statistik terkait kesehatan dari seluruh dunia seperti malaria, HIV/AIDS, hingga tingkat vaksinasi lewat Global Health Observatory Data Repository.

5. Kaggle

Kaggle menyediakan berbagai data dan dapat diakses secara gratis namun perlu pendaftaran di depan. Kamu bisa mencari dataset di Kaggle lewat tautan berikut ini. Lewat Kaggle, kamu bisa mendapatkan berbagai data dari semua topik, bahkan suhu rerata harian di berbagai kota dapat ditemukan di Kaggle.

6. BFI Film Industry Statistics

Bagi kamu yang menggemari film dan mengaku diri sebagai sinefil dengan riset-riset terkait film, maka situs dataset dari British Film Institute ini tepat buat kamu. Selain dapat diakses secara gratis tanpa registrasi, kamu bisa menemukan berbagai angka box office di Inggris hingga demografi penonton untuk film-film Inggris yang bisa kamu analisis. Kamu bisa mengakses dataset ini lewat tautan berikut.

7. FBI Crime Data Explorer

Kali ini, bagi kamu yang mendalami ilmu kriminologi atau bekerja di bidang intelijen dan memerlukan dataset khusus, maka FBI Crime Data Explorer bisa menjadi rujukan tepat buat kamu. Kamu bisa mengakses segala informasi mengenai pelanggaran kriminal, kejahatan, dan narkoba lewat situs rilisan FBI ini dengan mengklik tautan berikut.

8. Open Data Jakarta

Bagi kamu yang tinggal di Jakarta dan sekitarnya, pemerintah DKI Jakarta memiliki dataset berisi berbagai informasi dengan akses mudah lewat Open Data Jakarta. Kamu bisa mengakses berbagai hal seperti indeks standar pencemaran udara (ISPU) dari berbagai tahun serta data-data lainnya.

9. Satu Data Indonesia

Untuk dataset nasional, kamu bisa mengakses Satu Data Indonesia lewat situsnya data.go.id. Lewat dataset ini kamu bisa mengakses data mengenai ekonomi dan industri, pembangunan daerah, pendidikan dan tenaga kerja, serta berbagai hal lain secara mudah.

10. Databoks Katadata

Selain situs milik pemerintah, kamu juga bisa mengakses berbagai dataset lewat Katadata dengan rilisan Databoks milik mereka. Kamu bisa mencari dan menemukan data dengan mengisi kata kunci, pilihan industri, sub industri, dan berbagai macam data dari berbagai sumber seperti dari Badan Pusat Statistik (BPS) dan sebagainya.

Itulah tadi berbagai hal mengenai dataset yang bisa kamu pelajari beserta contoh-contoh situs untuk kamu akses. Kamu akan lebih mudah melakukan analisis data atau pengumpulan data sekunder lewat kumpulan dataset ini.

close