Başlangıcı klişe cümlelerle yapalım. Veri bilimi, yapay zeka, yapay öğrenme ve derin öğrenme gibi kavramlarla sıkça karşılaşıyoruz. Özellikle bu konulara ilgi duyup kendimizi bu alanlarda geliştirmeye başlıyoruz. Çeşitli eğitimler alıyor, kitaplar okuyoruz. Fakat sıra gerçek veriyle uğraşıp, analiz etmeye ve model kurmaya geldiğinde kimi zaman duraksayabiliyoruz. En önemlisi de “Veriyi nereden bulacağım ?” sorusunu soruyoruz ?
Bu yazıda aktaracağım siteleri zaten halihazırda veri bilimi üzerine çalışan ve kendini geliştirmek adına projeler gerçekleştiren arkadaşlarımız biliyordur. Yine de bilgileri tazelemek ve belki de farklı bir açık kaynak veri platformu öğrenmek iyidir 🙂
“Veriyi nereden bulacağım?” sorusuna cevap olarak aşağıda listelediğim web sitelerini ziyaret edebilir ve projeleriniz için uygun veri setlerine göz atabilirsiniz. O zaman başlayalım 🤟🏻
Veri Bilimi İçin Platformlar
IBB Açık Veri Portalı
İstanbul Büyükşehir Belediyesi tarafından yayına alınan İBB Açık Veri Portalı’nda İBB’ye ait veri setlerine ulaşabilirsiniz. Temel analizler ve belli başlı modeller kurabileceğiniz veri setleri Ekonomi, Afet Yönetimi, Yönetişim ve Çevre gibi farklı kategorilerden oluşmakta. Aynı zamanda basit grafiklerle de sizlerin analiz yapmasına gerek kalmadan istatistikleri platform üzerinde görebilirsiniz.
Kaggle
Kaggle, dünyada belki de en çok kullanılan veri kaynağı platformudur. Yalnızca veri setlerini bulacağınız bir platform olmakla kalmıyor. Bunun yanı sıra Kaggle üzerinde düzenlenen yarışmalara katılıp, ödül kazanma şansınız da var. Farklı kişilerin, seçtiğiniz veri setinde üzerinde gerçekleştirdikleri analizleri ve kurdukları modelleri inceleyebilir, problemi nasıl çözdüklerine göz atabilirsiniz. Aynı zamanda içeride bulunan Kaggle Community’sinde sorularınız var ise dünyanın her yerinden veri bilimi ile uğraşan kişilerle etkileşime geçebilir, veri bilimi ve yapay öğrenme gibi konularda eğitimler alabilirsiniz.
Kısacası Kaggle’ın faydaları saymakla bitmez 🙂
UCI(University of California,Irvine) Machine Learning Repository
UCI ML Repository sayfasında farklı veri setlerini inceleyebilirsiniz. Filtreleme modülüyle birlikte kolayca uygulamak istediğiniz algoritmaları vs. seçerek size ve geliştirmek istediğiniz yeteneğinize/projenize en uygun veri setine kolaylıkla erişebilirsiniz.Hatta dünya üzerinde çok popüler olan Iris ve Breast Cancer Wisconsin gibi veri setlerinin çıkış noktası UCI ML Repository 🙂
https://archive.ics.uci.edu/ml/datasets.php
Data.gov
Amerikan Hükümetinin açık kaynak veri platformu olan Data.gov sitesinde 300 bine yakın veri setine erişebilirsiniz. Özellikle son dönemde veri analistleri ve veri bilimcileri tarafından sevilen COVID-19 hakkında da büyük veri setleri bulunmakta.
Data.gov
FiveThirtyEight
FiveThirtyEight benim özellikle spor alanındaki gelişmeleri takip etmek için gezindiğim bir web sitesi.Sadece makale yazmıyorlar, bunu istatistik ve veriye dayandırarak yazıyorlar. Özellikle spor alanında istatistik ve veri biliminin önemi çok büyük ve başarıyla kullanıldığında güzel sonuçlar elde edilmekte.
Eğer sizlerde FiveThirtyEight’in makalelerin arkasında yatan verileri ve analizleri merak ediyorsanız inceleyebilisiniz. Ayrıca kendi görsellerinizi ve analizlerinizi yaratmak isterseniz bir göz atın derim.
https://data.fivethirtyeight.com/
İlk yazımızda veri bilimine başlayanlar için kaynak ve eğitim önerilerinde bulunmuştuk. Veriyi nereden bulabileceğinizi de aktarmış olduk.
Bir sonraki yazımızda da bu veriler ile hangi projeleri gerçekleştirebiliriz ? Neler yapabiliriz ? Onları tartışacağız. 🙂 Stay tuned 🦾
2021 Mayıs ayı ücretsiz eğitimlerine göz atın!