Türkiye İstatisik Kurumu (TÜİK), internet üzerinden satışı her geçen gün artan birtakım eserlerin fiyatını da enflasyon hesaplamasında dikkate alacak.
TÜİK’ten edinilen bilgiye nazaran, internet üzerinden mal ve hizmet satın alımları her geçen gün daha da yaygınlaşırken istatistik ofislerinin kelam konusu güçlü data kaynağını göz arkası etmemesi kıymet taşıyor. İnternet fiyatlarının TÜFE’ye entegre edilmesinin gerekli hale geldiği değerlendirilirken, böylelikle istatistik üretiminde bilgi derleme sıklığının daha yüksek ve daha büyük hacimli olması hedefleniyor. Kelam konusu dataların mevcut yapıyı geliştirmek ve yeni değişkenleri elde etmek için büyük bir fırsat sunduğu düşünülüyor.
Otomatik olarak bir web kaynağından data derlemeye data kazıma (web scraping) deniliyor. Bu ekseriyetle bir kazıyıcı (scraper) yardımıyla oluyor ve daha gelişmiş istatistiksel tahliller için ham datayı derleyip temizliyor.
Otomatik data kazıma teknolojilerini kullanarak günlük, saatlik ve hatta daha yüksek sıklıkta bilgi yapısıyla optimal data derleme stratejileri elde edilebiliyor. Böylelikle, ayrıntılı metaveri bilgileri derlenerek hesaplamalar geliştirilebiliyor. Bu formülde genel maksat, web sitesinde yer alan HTML formatındaki bilgiyi tahlil ve hesaplamalar için daha uygun yapılara dönüştürmek.
Sitenin temsiliyet, içerik ve hacmine bakılacak
Bu metotta, uygun web sitesi seçimi için birtakım kriterler de aranıyor. Bunun için sitenin temsiliyet, hacim, içerik kaynağı, sürdürülebilirliği, teknik özellikleri, metaveri ve gaye değişkenleri üzere ögelere bakılıyor.
TÜİK, internetten bilgi kazıma çalışmaları kapsamında 2020 yılında TÜBİTAK ile ortaklaşa TÜİK Büyük Data İleri Analitik Projesi’ni gerçekleştirdi. Data kaynakları olan firmalardan gerekli müsaadeler alınarak, internetten bilgi kazıma fiyat derleme sisteminin altyapısı hazırlandı.
Proje sonucu gelen ham bilgi, TÜİK teknik çalışanı tarafından tahlil edildi, kusurlar belirlendi ve fiyat derlenebilecek hale getirildi. Daha sonra datanın tablo formatında, fiyat takibi yapılabilir ve data tahliline uygun olması sağlandı.
Fiyatı yıl boyunca izlenecek
Beyaz eşya, elektronik eserler, mobilya, birinci el arabalar ve otobüs bileti fiyatları için 2022 yılı prestijiyle internet üzerinden derlenen fiyatlar endeks hesaplamalarında kullanılacak. Aralık ayı temel alınarak takibi kararlaştırılan eserlerin fiyatı, eser kodu ya da eser barkodu üzerinden yıl boyunca takip edilecek. Böylelikle tıpkı kalitedeki eserlerin fiyat gelişimleri endeks hesaplamalarına yansıtılacak. Bu kapsamdaki fiyatların sayısı aylık yaklaşık 20 bin civarında.
Data kazıma yoluyla elde edilen bilgiler günlük olarak takip edilerek fiyat değişim tahlilleri de yapılıyor. Ayrıyeten fiyatı gelen eserlerin satışının devamlılığı da fiyat derleme devri içindeki fiyat sayıları denetim edilerek gözleniyor.
İnternet verisinin kullanımı yaygınlaştırılacak
Gelecek devirde yeni sisteme adapte edilen eser fiyatlarının günlük olarak data akışı sağlanacak, tahlilleri yapılacak ve öbür bilgi derleme sistemleri olan barkod ve alan verisiyle birlikte fiyat derleme periyodunun sonunda endeks hesaplamalarında kullanılacak. TÜFE kapsamında derlenen aylık fiyatların yaklaşık olarak yüzde 40-45’i barkod ve internetten data kazımayla elde edilmiş olacak ve böylelikle bilgi, kaynağında mümkün olan en hakikat haliyle derlenecek.
TÜİK, bu kapsamda en az maliyetle en yanlışsız datayı elde edebilecek. Bu gaye doğrultusunda öbür ülke çalışmaları da dikkate alınarak barkod ve internet bilgilerinin kullanımının yaygınlaştırılması öngörülüyor.