Twitter üzerinde Türkçe sahte haber tespiti

Süleyman Gökhan Taşkın, Ecir Uğur Küçüksille, Kamil Topal

Öz


Son yıllarda internet kullanımının artmasıyla insanların bilgi ve haber alma kaynakları da değişmiştir. Radyo, televizyon, gazete ve dergi gibi geleneksel medya platformları yerine sosyal medya platformlarının kullanımı giderek artmaktadır. Geleneksel medyada haberler belirli bir kaynak tarafından gönderilirken, sosyal medyada her kullanıcı bir haber kaynağı olabilmektedir. Bu da sosyal medyadaki haberlerin bir süzgeçten geçirilmeden paylaşılmasına ve sahte haberlerin büyük bir hızla yayılmasına neden olmaktadır. Sahte haber; propaganda, provokasyon veya insanları yanıltma amacıyla sahte veya provokatif kullanıcılar tarafından yayılan haberlerdir. Dikkat çekici özellikte oldukları için sosyal medya aracılığı ile çok kısa sürede yayılabilmektedirler. Bu nedenle sahte haberlerin en kısa sürede tespit edilmesi büyük öneme sahiptir. Çoğu sosyal medya platformunda sahte haber tespiti uzmanlar tarafından yapılmaktadır. Çok yoğun paylaşım trafiği bulunan sosyal medya platformlarında uzmanlar tarafından kısa sürede sahte haber tespiti mümkün olmamaktadır. Bu da sahte haberin kısa sürede çok kişi tarafından paylaşılmasına neden olmaktadır. Bu nedenle yarı otomatik ve otomatik sahte haber tespiti sistemleri, uzmanlara göre daha kısa sürede sahte haber tespitini sağlayabilmektedir. Sahte haberleri kısa sürede tespit edebilmek için otomatik tespit sistemlerinin geliştirilmesi gerekmektedir. Bu çalışmada Türkçe dilinde, denetimli ve denetimsiz makine öğrenmesi algoritmaları kullanılarak Twitter üzerinde sahte haber tespiti yapılmış ve sonuçları incelenmiştir. Denetimsiz öğrenme algoritmalarından, K-ortalamalar (K-means), Negatif Olmayan Matris Çarpımı (Non-Negative Matrix Factorization-NMF) ve Doğrusal Diskriminant Analizi (Linear Discriminant Analysis-LDA); denetimli öğrenme algoritmalarından, K En Yakın Komşu (K Nearest Neighbor-KNN), Destek Vektör Makinaları (Support Vector Machines-SVM) ve Rassal Orman (Random Forest-RF) algoritmaları ile tahmin yapılmıştır. Her bir algoritma 100 defa çalıştırılarak ortalama F1 metrik değerleri incelenmiştir. Denetimli öğrenme algoritmalarında 0.86 F1-metrik değeriyle başarılı sonuçlar alınmıştır. Denetimsiz öğrenme algoritmalarının F1-metrik değeri ise 0.72'de kalmıştır.


Anahtar Kelimeler


Sahte haber tespiti; makine öğrenmesi; yapay zeka

Tam Metin:

PDF

Referanslar


M. Del Vicario vd., The spreading of misinformation online, Proceedings of the National Academy of Sciences, 113, 3, 554–559, (2016).

Twitter, "KAMUOYUNA DUYURU İletişim Başkanlığı, vatandaşlardan hiçbir şekilde kredi kartı bilgilerini talep etmez. Kurumumuzun adı ve logosu ile yayılan “elektrik ve doğal gaz fatura iadesi” bildirimi, dolandırıcıların milletimizin devletimize olan güvenini kötüye, [Tweet]" (2020). https://twitter.com/iletisim/status/1213530046733979649, (04.1.2020).

Twitter, "Yoğun kar yağışı,buzlanma ve soğuk nedeniyle, 07 Ocak 2020 Salı günü, il merkezi dışında kalan resmi ve özel tüm okul ve kurumlarımızda (okul öncesi, ilkokul, ortaokul, lise ve yaygın eğitim kurumları) eğitim öğretime bir gün ara verilmiştir. [Tweet]", (2020). https://twitter.com/eskvalilik/status/1214309576939573248, (07.1.2020).

Ihlas Haber Ajansi, Eskişehir’de sahte hesaptan kar tatili mesajı atıldı, 2020. https://www.iha.com.tr/haber-eskisehirde-sahte-hesaptan-kar-tatili-mesaji-atildi-821170/, (06.1.2020).

K. Shu, A. Sliva, S. Wang, J. Tang, ve H. Liu, Fake News Detection on Social Media, ACM SIGKDD Explorations Newsletter, 19, 1, 22–36, (2017).

N. Newman, R. Fletcher, A. Kalogeropoulos, ve R. Nielsen, Reuters Institute Digital News Report 2018, Teknik Rapor, Reuters Institute for the Study of Journalism, Oxford, (2018).

N. Newman, R. Fletcher, A. Kalogeropoulos, ve R. Nielsen, Reuters Institute Digital News Report 2019, Teknik Rapor, Reuters Institute for the Study of Journalism, Oxford, (2019).

X. Zhao ve J. Jiang, An empirical comparison of topics in twitter and traditional media, Singapore Management University School of Information Systems Technical paper series, (2011).

Twitter, Twitter Inc., 2006. https://twitter.com/, (10.10.2018).

E. Alpaydin, Machine Learning: The New AI. Cambridge, MA: The MIT Press, (2016).

E. Rosten ve T. Drummond, Machine Learning for High-Speed Corner Detection, European Conference on Computer Vision, Lecture Notes in Computer Science, 430–443, Graz- Austria, (2006).

I. Arganda-Carreras vd., Trainable Weka Segmentation: a machine learning tool for microscopy pixel classification, Bioinformatics, 33, 15, 2424–2426, (2017).

D. Amodei vd., Deep Speech 2: End-to-End Speech Recognition in English and Mandarin, Computing Research Repository,(2015).

J. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, ve Y. Bengio, Attention-Based Models for Speech Recognition, Computing Research Repository, (2015).

B. Pang ve L. Lee, Opinion Mining and Sentiment Analysis, Foundations and Trends® in Information Retrieval, 2, 1–2, 1–135, (2008).

B. Pang ve L. Lee, A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts, (2004), doi: 0409058.

D. Pomerleau ve D. Rao, Fake News Challenge, (2015). http://www.fakenewschallenge.org/, (11.07.2018).

S. Vosoughi, Automatic Detection and Verification of Rumors on Twitter, Yüksek Lisans Tezi, Massachusetts Institute of Technology, Cambridge, (2015).

Y. Chen ve H. Chen, Opinion Spam Detection in Web Forum : A Real Case Study, Www 2015, 1, 173–183, (2015).

H. Ahmed, Detecting Opinion Spam and Fake News Using N-gram Analysis and Semantic Similarity, Yüksek Lisans Tezi, University of Ahram Canadian, Kahire, (2017).

S. Bajaj, “The Pope Has a New Baby !” Fake News Detection Using Deep Learning, 1–8, (2017).

M. Granik ve V. Mesyura, Fake news detection using naive Bayes classifier, Electrical and Computer Engineering (UKRCON), 2017 IEEE First Ukraine Conference on, 900–903, (2017).

M. Patel, Detection of Maliciously Authored News Articles, Yüksek Lisans Tezi, The Cooper Union For The Advancement of Science and Art, New York, (2017).

E. Tacchini, G. Ballarin, M. L. Della Vedova, S. Moret, ve L. de Alfaro, Some like it Hoax: Automated fake news detection in social networks, SoGood 2017 - Second Workshop on Data Science for Social Good, Skopje-Macedonia,(2017).

A. Ågren ve C. Ågren, Combating Fake News with Stance Detection using Recurrent Neural Networks, Yüksek Lisans Tezi, University of Gothenburg, Gothenburg, (2018).

G. Rajendran, B. Chitturi, ve P. Poornachandran, Stance-In-Depth Deep Neural Approach to Stance Classification, International Conference on Computational Intelligence and Data Science (ICCIDS 2018), 132, 1646–1653, (2018).

U. Mertoğlu, H. Sever, ve B. Genç, Savunmada Yenilikçi bir Dijital Dönüşüm Alanı: Sahte Haber Tespit Modeli, SAVTEK 2018 - 9. Savunma Teknolojileri Kongresi, 771–778, (2018).

U. Mertoğlu, B. Genç, H. Sever, ve F. Sağlam, Auto-Tagging Model For Turkish News, içinde International Ankara Conference on Scientific Researches, 615–623, (2019).

Twitter Search API, Twitter Search API, Twitter, (2018). https://developer.twitter.com/en/docs/basics/getting-started, (10.06.2018).

Github, TweetScraper, (2019). https://github.com/jonbakerfish/TweetScraper, (10.06.2018).

Teyit.org, teyit.org, (2016). https://teyit.org/, (01.08.2018).

V. I. Levenshtein, Двоичные коды с исправлением выпадений, вставок и замещений символов (Binary Codes Capable of Correcting Deletions, Insertions, and Reversals), Доклады Академий Наук СССР, 163, 4, 845–848, (1965).

S. Bird, E. Klein, ve E. Loper, Natural language processing with Python: analyzing text with the natural language toolkit. O’Reilly Media, Inc., (2009).

T. Mikolov, K. Chen, G. Corrado, ve J. Dean, Efficient Estimation of Word Representations in Vector Space, (2013).

Q. V. Le ve T. Mikolov, Distributed Representations of Sentences and Documents, (2014). http://arxiv.org/abs/1405.4053, (16.03.2019).

I. Goodfellow, Y. Bengio, ve A. Courville, Deep learning. Cambridge, MA: The MIT Press, (2017).

P. Cunningham ve S. J. Delany, k-Nearest Neighbour Classifiers -- 2nd Edition, (2020). http://arxiv.org/abs/2004.04523, (10.11.2019).

V. Vapnik, The Nature of Statistical Learning Theory. Springer, (1995).

L. Breiman, Random Forests, Machine Learning, Springer, 5–32, (2001).

D. Arthur ve S. Vassilvitskii, k-means++: The Advantages of Careful Seeding, (2006). http://ilpubs.stanford.edu:8090/778/, (08.11.2019).

D. D. Lee ve H. S. Seung, Learning the parts of objects by non-negative matrix factorization, Nature, 401, 6755, 788–791, (1999).

F. Shahnaz, M. W. Berry, V. P. Pauca, ve R. J. Plemmons, Document clustering using nonnegative matrix factorization, Information Processing & Management, 42, 2, 373–386, (2006).

W. Xu, X. Liu, ve Y. Gong, Document clustering based on non-negative matrix factorization, Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval - SIGIR ’03, 267, (2003).

R. A. Fisher, The Use of Multiple Measurements in Taxonomic Problems, Annals of Eugenics, 7, 2, 179–188, (1936).


Refback'ler

  • Şu halde refbacks yoktur.


Telif Hakkı (c) 2020 Süleyman Gökhan TAŞKIN, Ecir Uğur KÜÇÜKSİLLE, Kamil TOPAL

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.