Tez No İndirme Tez Künye Durumu
615423
Towards unifying mobility datasets / Mobil veri kümelerini birleştirmeye doğru
Yazar:FUAT BASIK
Danışman: PROF. DR. ÖZGÜR ULUSOY
Yer Bilgisi: İhsan Doğramacı Bilkent Üniversitesi / Mühendislik ve Fen Bilimleri Enstitüsü / Bilgisayar Bilimleri Ana Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2019
119 s.
Konumlandırma sistemleriyle entegre akıllı telefonların yaygınlaşması ve nesnelerin internetinin (Internet of Things - IoT) günlük hayatımızdaki etkisinin artmasıyla birlikte, mobil veri kümeleri yaygın bir şekilde erişilebilir oldu. Günümüzde birçok mobil servis ve uygulama, ya lokasyon bazlı bir içeriğe sahip ya da yan ürün olarak mekan-zaman bilgisi içeren kayıtlar üretmektedir. Bu kayıtlar, hem kendilerini üreten varlıklar veya kullanıcılar, hem de üretildikleri çevre hakkında bilgiler içerir. Bu kayıtların kullanılabilirliği sağlık hizmetleri, hesaplamalı sosyal bilimler ve konum tabanlı pazarlama gibi alanlarda akıllı hizmetleri destekler. Bu çalışma, farklı servislerin kullanımı sonucu elde edilen, gerçek dünyada aynı varlık tarafından üretilen ve mekan-zaman bilgisi içeren kayıtların eşleştirilebileceğini öne sürmektedir. Bu eşleştirme, güvenlik için kullanıcı kimliklerini bağlama, konum tabanlı hizmetlerin gizlilik sınırlamalarını anlama ve kentsel planlama ve trafik yönetimi için birden fazla kaynaktan birleşik bir veri kümesi oluşturma gibi birçok uygulamada temel bir zorunluluktur. Bu tür birleştirilmiş mobil veri kümeleri, servis sağlayıcıların hizmetlerini optimize etmeleri ve iş zekasını geliştirmeleri için de önemlidir. Dolayısıyla, bu çalışma, iki mobil veri kümesindeki varlıkları birbirine bağlamak ve mobil veri kümelerini birleştirmeye giden yolda bir adım daha ilerleyebilmek amacıyla, yalnızca mekansal-zamansal bilgileri kullanarak ölçeklenebilir çözümler araştırmak için yapılmıştır ve sonuç olarak bu eşleştirmeye iki farklı yaklaşım önermektedir. Önerilen ilk yaklaşım, kullanım kayıtları arasındaki yakınlığın hem mekansal hem de zamansal yönlerini kapsamak üzere geliştirilen, k - l çeşitleme kavramına dayanan kurala dayalı eşlemedir. Bu modelin etkinliği ve ölçeklenebilirliği, eşleşen varlıklar için arama alanını önemli ölçüde azaltan etkili mekansal ve zamansal filtreleme mekanizmalarını kullanan ST-LINK adlı ölçeklenebilir bir eşleme algoritması geliştirilerek ölçülmektedir. Bu algoritma, mekansal ve zamansal filtreleme adımlarına ek olarak rastgele disk erişimden kaçınan sıralı tarama prosedürlerini kullanarak büyük veri kümelerine ölçeklenmeyi arttırır. İkinci yaklaşım, varlıkların mekan-zaman bilgisi içeren kullanım geçmişlerinin gösterimi ve bu gösterimler arasındaki benzerliğin tanımlanmasına bağlı, benzerliğe dayalı eşleştirmedir. Bu yaklaşım aynı zamanda eşleştirme işleminin ne zaman durduracağına otomatik olarak karar veren bir durma mekanizması ve eşleşen varlıkları tespit edebilmek için etkili bir eşleştirme sistemi geliştirmektedir. Büyük veri kümelerine ölçeklenebilirlik, eşleştirme sisteminin işleyeceği aday varlık çiftlerini önemli oranda azaltan yakınlığa-duyarlı-karım (Locality-Sensitive-Hashing LSH) sayesinde yapılmaktadır. Çalışma bu modelin ve yakınlığa-duyarlı-karım tabanlı ölçeklenebilirliğin etkinliğini ve verimliliğini ölçmek için SLIM adlı bir algoritma da içermektedir. Çalışma son kısmında, hem kural tabanlı, hem de benzerlik tabanlı eşleme yaklaşımlarını çeşitli veri setleri kullanarak doğruluk ve performans açısından inceleyen deneysel değerlendirmeyi sunmaktadır. Bu deneyler, hem ST-Link hem de SLIM algoritmalarının, mekansal-zamansal eşleme için pratikte etkili olduğunu ve büyük veri kümelerine ölçeklenebileceğini göstermektedir. Dahası, yakınlığa-duyarlı-karım tabanlı ölçeklenebilirlik adımının eşleştirme işlemini 10 üzeri 2 ila 10 üzeri 4 kat hızlandırdığı gözlemlenmiştir.
With the proliferation of smart phones integrated with positioning systems and the increasing penetration of Internet-of-Things (IoT) in our daily lives, mobility data has become widely available. A vast variety of mobile services and applications either have a location-based context or produce spatio-temporal records as a byproduct. These records contain information about both the entities that produce them, as well as the environment they were produced in. Availability of such data supports smart services in areas including healthcare, computational social sciences and location-based marketing. We postulate that the spatio-temporal usage records belonging to the same real-world entity can be matched across records from different location-enhanced services. This is a fundamental problem in many applications such as linking user identities for security, understanding privacy limitations of location based services, or producing a unified dataset from multiple sources for urban planning and traffic management. Such integrated datasets are also essential for service providers to optimise their services and improve business intelligence. As such, in this work, we explore scalable solutions to link entities across two mobility datasets, using only their spatio-temporal information to pave to road towards unifying mobility datasets. The first approach is rule-based linkage, based on the concept of k-l diversity --- that we developed to capture both spatial and temporal aspects of the linkage. This model is realized by developing a scalable linking algorithm called ST-Link, which makes use of effective spatial and temporal filtering mechanisms that significantly reduce the search space for matching users. Furthermore, ST-Link utilizes sequential scan procedures to avoid random disk access and thus scales to large datasets. The second approach is similarity based linkage that proposes a mobility based representation and similarity computation for entities. An efficient matching process is then developed to identify the final linked pairs, with an automated mechanism to decide when to stop the linkage. We scale the process with a locality-sensitive hashing (LSH) based approach that significantly reduces candidate pairs for matching. To realize the effectiveness and efficiency of our techniques in practice, we introduce an algorithm called SLIM. We evaluated our work with respect to accuracy and performance using several datasets. Experiments show that both ST-Link and SLIM are effective in practice for performing spatio-temporal linkage and can scale to large datasets. Moreover, the LSH-based scalability brings two to four orders of magnitude speedup.