Video: R Studio Get Twitter data with Hastag And Export to Excel (Listopad 2024)
Pokud byste chtěli prozkoumat, jak program dokáže rozlišit škodlivé e-mailové zprávy od běžné pošty, měli byste analyzovat miliony vzorků reálného světa, špatných a dobrých. Pokud však nemáte v NSA přítele, měli byste tyto vzorky těžko získat. Twitter je naproti tomu vysílacím médiem. Prakticky každý tweet je viditelný pro každého, kdo má zájem. Profesorka Jeanna Matthewsová a Ph.D. student Joshua White na Clarksonově univerzitě využil tuto skutečnost k nalezení spolehlivého identifikátoru pro tweety generované sadou Blackhole Exploit Kit. Jejich prezentace byla oceněna jako nejlepší příspěvek na 8. mezinárodní konferenci o škodlivém a nežádoucím softwaru (zkráceně Malware 2013).
Kdokoli s touhou poslat spam, vytvořit armádu robotů nebo ukrást osobní údaje, může začít zakoupením Blackhole Exploit Kit. Matthews uvedl, že jeden odhad naznačuje, že společnost BEK byla v roce 2012 zapojena do více než poloviny všech napadení malwarem. Další zpráva spojuje BEK s 29 procenty všech škodlivých adres URL. Navzdory nedávnému zatčení údajného autora Blackhole je tato sada významným problémem a jedním z mnoha způsobů jejího šíření je převzetí účtů na Twitteru. Infikované účty odesílají tweety obsahující odkazy, které, pokud na ně někdo klikne, si nárokují další oběť.
Pod čarou
Matthews a White shromažďovaly v průběhu roku 2012 z Twitteru několik terabajtů dat. Odhaduje, že jejich datová sada obsahuje 50 až 80 procent všech tweetů během této doby. To, co dostali, bylo mnohem více než pouhých 140 znaků na pípání. Záhlaví JSON každého tweetu obsahuje velké množství informací o odesílateli, tweetu a jeho propojení s jinými účty.
Začali jednoduchou skutečností: některé tweety generované BEK obsahují konkrétní fráze jako „Jste na fotce?“ nebo více provokativních frází jako „Na večírku jste byli nahí) skvělá fotka)“. Při těžbě obrovského souboru dat pro tyto známé fráze identifikovali infikované účty. To jim zase umožní objevovat nové fráze a další značky tweetů generovaných BEK.
Samotný papír je vědecký a úplný, ale konečný výsledek je poměrně jednoduchý. Vyvinuli relativně jednoduchou metriku, která by při použití na výstup daného účtu Twitter mohla spolehlivě oddělit infikované účty od čistých. Pokud účet dosáhne určitého limitu, je účet v pořádku; pod řádkem, je infikován.
Kdo infikoval koho?
S touto jasnou metodou pro rozlišení infikovaných účtů pokračovali v analýze procesu nákazy. Předpokládejme, že účet B, který je čistý, následuje účet A, který je infikován. Pokud je účet B infikován krátce po příspěvku BEK účtem A, je velmi pravděpodobné, že účet A byl zdrojem. Vědci modelovali tyto vztahy ve skupinovém grafu, který velmi jasně ukázal malý počet účtů způsobujících obrovské množství infekcí. Jedná se o účty vytvořené vlastníkem sady Blackhole Exploit Kit konkrétně za účelem šíření infekce.
Matthews poznamenal, že v tuto chvíli měli možnost informovat uživatele, jejichž účty jsou napadeny, ale cítili, že by to mohlo být považováno za příliš invazivní. Pracuje na setkání s Twitterem, aby zjistila, co lze udělat.
Moderní techniky dolování dat a analýzy velkých dat umožňují vědcům najít vzory a vztahy, kterých by bylo prostě nemožné dosáhnout jen před několika lety. Ne každá snaha o poznání se vyplácí, ale tohle udělalo v piky. Upřímně doufám, že se profesorovi Matthewsovi podaří přimět Twitter o praktickou aplikaci tohoto výzkumu.