Tez No İndirme Tez Künye Durumu
790637
Deep learning based surgical phase recognition in laparoscopic videos / Laparoskopik videolarda derin öğrenme tabanlı cerrahi faz tanıma
Yazar:KADİR KIRTAÇ
Danışman: PROF. DR. NİZAMETTİN AYDIN
Yer Bilgisi: Yıldız Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı
Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Dizin:
Onaylandı
Doktora
İngilizce
2023
116 s.
Derin öğrenme ve bilgisayarla görüye dayalı cerrahi karar desteği ameliyathanedeki görevleri otomatikleştirmek için önemli bir potansiyel sunmaktadır. Bu tezde, laparoskopik cerrahi videolarda faz tanıma için derin öğrenme tabanlı yöntemleri inceledik. Özellikle, veri kümelerini ve model performans değerlendirmesini içeren veri merkezli bir çalışma gerçekleştirdik. İlk olarak, mevcut derin öğrenmeye dayalı faz tanıma yöntemlerini ve veri kümelerini ayrıntılı bir şekilde inceledik. Bu bağlamda 384 adet laparoskopik kolesistektomi videosundan oluşan veri kümesi oluşturduk. Bu veri kümesi mevcut cerrahi faz tanıma veri kümeleri arasında en büyüklerinden birisi haline geldi. İkinci olarak, veri kümemiz ile cerrahi faz tanıma için en sık kullanılan açık erişimli veri kümesi olan Cholec80 arasında sistematik bir karşılaştırma gerçekleştirdik. Sonuç olarak bu iki veri kümesi arasında önemli farklılıklar gözlemledik. Kendi veri kümemizin videoları çok daha uzun ve Cholec80'de bulunmayan ek fazlar içermekteydi. Buna ek olarak, cerrahi faz geçişleri daha karmaşıktı. Sonra, Cholec80 veri kümesinde en yüksek performansı göstermiş olan iki adet iki aşamalı faz tanıma modelini veri kümemiz ile eğittik ve performanslarını ayrıntılı olarak değerlendirdik. Modellerin performansı cerrahi fazlar ve videolar arasında büyük farklılıklar gösterdi. Sonuçlarımız oldukça az temsil edilen cerrahi fazları tanımanın zorluğunu gösterdi. Ana fazlar en az yüzde 76 geri çağırma ile tanındı. Üçüncüsü, büyük ölçekli veri kümemizde eğitilen bir modelin, veri kümemizden önemli ölçüde daha küçük olan Cholec80'e transfer öğrenmesi ile nasıl uyarlanabileceğini çalıştık. Bu amaçla, hedef veri kümesinde farklı sayıda etiketli videolar kullanarak model uyarlanması için ince ayar stratejileri sunduk. Modelin Cholec80 veri kümesinden yalnızca 5 video ile ince ayarı yapıldığında elde edilen performans orjinal kümedeki tüm videolarla (40 video) eğitilmesiyle elde edilenden daha fazla oldu. Bu sonuç transfer öğrenmesinin veri kıtlığının önemli ölçüde belirgin olduğu cerrahi faz tanıma için önemli bir katkı sunabileceğini gösterdi. Sonuçlarımız, cerrahi faz tanıma modellerinin gerçek ortamda tam otomatik olarak kullanılması için daha büyük veri kümelerine ihtiyaç olduğunu ortaya koydu. Çalışmamızın bu modelleri gerçek ortamda kullanan uzmanlar ve özel veri kümelerine sınırlı erişimi olup sürekli olarak açık kaynak verilerle çalışan araştırmacılar için faydalı bir rehber olacağına inanıyoruz.
Deep learning and computer vision-based surgical decision support offer great potential for automating tasks in the operating room. In this thesis, we focused on deep learning-based methods for surgical phase recognition in laparoscopic surgery videos. In particular, we conducted a data-centric study that included datasets and model performance evaluation in depth. First, we reviewed existing deep learning-based phase recognition methods and datasets in detail. To this end, we created a dataset of 384 laparoscopic cholecystectomy videos. This dataset has become one of the largest among the existing surgical phase recognition datasets. Second, we performed a systematic comparison between our dataset and Cholec80, which is the most frequently used publicly available dataset for surgical phase recognition, and observed significant differences between the two datasets. Our videos were much longer and included additional phases. The phase transitions in our dataset were more complex. Next, we trained two two-stage phase recognition models with our dataset, which had previously shown the highest performance on the Cholec80, and evaluated their performance in detail. The performance of the models varied greatly between surgical phases and videos. In particular, our results demonstrated the difficulty of recognizing the highly underrepresented surgical phases. Major phases were recognized with at least 76 percent recall. Third, we studied how a model trained on our large-scale dataset could be adapted to Cholec80, which is significantly smaller than our dataset. To this end, we presented fine-tuning strategies for model adaptation, experimenting with different numbers of labeled videos in the target dataset. Our experiments showed that when fine-tuned with only five videos from Cholec80, the model achieved a higher performance than that obtained by training it with all the videos in the original set (40 videos). This result showed that transfer learning can make an important contribution to surgical phase recognition where data scarcity is significantly evident. Our results revealed that larger datasets are needed for the fully automatic use of surgical phase recognition models in the real world. We believe that our study will be a useful guide for experts who deploy and use these models in the real world, and for researchers who constantly work with public data having limited access to private datasets.