什麼是爬蟲?一個讓 Google 聞名全世界的工具


今天看到一個爬蟲懶人包
剛好最近也在研究一些爬蟲相關的東西~
也想分享一些小小的整理給大家!
也當成我自己的一些小記錄😆

 

到底什麼是爬蟲呢?

爬蟲其實也叫做網路蜘蛛,而爬蟲的英文則是Crawler,它是一種可以在網路上自動抓取資料的工具,假如說我今天想要蒐集一些特定資料,像是整理 Blink 平台裡的前 50 篇熱門文章資訊,包括文章標題、作者、閱覽人數等資料,並且進行分析;又或者,在臉書的留言串中進行特定留言的蒐集,並進行抽獎活動等工作時,往往會需要將資料複製貼上整理成一個表格,而這個過程也會耗費非常大的時間,但若如果我會利用爬蟲來協助的話,也就能很快速地將這些資料蒐集完畢,提升自己的工作效率!

 

 

爬蟲的運用?

像剛剛所說的就是爬蟲對工作上的運用,那你知道其實我們每天接觸成千上萬次的 Google 大神,其實也是透過爬蟲這個原理進行的嗎?其實像 Google、Yahoo 奇摩這些以搜尋引擎為主要服務的公司,他們就是利用所謂的爬蟲來協助我們找到我們所需要的資料!而這些網站的順序也牽涉許多 SEO 的層面在裡面,如果你有興趣的話可以看看這篇文章~

三分鐘快速了解搜尋引擎原理!提升網站排名的必備知識

 

 

而除了搜尋引擎之外,其實爬蟲還有許多其他功能!像 Booking、Trivago 或是機票比價這些比價網站,基本上都是透過爬蟲去蒐集他人的資訊,再整理整理變成你平常所看到頁面!而跟我們日常工作最有關的也就是可以透過爬蟲來輕鬆抓取我們所需要的資料,避免許多重複而且繁雜的工作,這些工作就可以直接交給我們的電腦"自動化"執行啦~

 

那要怎麼寫爬蟲?很困難嗎?

這一個部分也是我目前正在學習的部分,我們都知道爬蟲要透過特定程式語言去撰寫,而其中最為容易上手的就是 Python!所以你如果想自己嘗試做一隻爬蟲的話,不妨可以先從程式語言開始學起喔!最近也有一個學習用 Python 寫爬蟲的工作坊【當 Python 結合社群,從零挑戰動手做出社群爬蟲及資料分析工具】,有興趣的話也可以去看看,而其他像是PHP、JavaScript、Java、C++這些程式語言也都可以拿來撰寫爬蟲程式!

 

 

聽到這裡你一定會想"那這樣我的(網站的)隱私豈不就被看光光了"?

別擔心~如果你真的很討厭爬蟲,不想被別人爬取到網站的資訊,又或者是只提供給內部人使用,不開放搜尋的網站,例如網站後台等,那你就可以利用 robots.txt 這個文件檔,避免你的資料被爬取喔!

 

 

《以上圖片已獲得快樂學程式同意分享,若你喜歡或想了解更多爬蟲小知識的話請多多支持原版圖片懶人包喔》

👉https://www.facebook.com/happytocoding/post/868843806792613

 

最後因為使用他們的圖,因此需要幫他們分享一下目前的活動~

有興趣的人也可以到上面懶人包了解更多喔~
以上,謝謝大家~


本文章發表於:觀點放送

加入383

程式海獺

國立臺北大學 企業管理學系

追蹤 83 鼓勵作者

鼓勵作者

目前持有 Blink Coin: Loading..

選擇禮物


愛心

(Coin 10)

幫高調

(Coin 20)

咖啡

(Coin 30)

掌聲鼓勵

(Coin 40)

崇拜眼神

(Coin 50)

驚呆了

(Coin 60)

神人4ni

(Coin 70)

花束

(Coin 100)

鑽石

(Coin 300)

紅寶石

(Coin 500)

藍寶石

(Coin 1000)

黃寶石

(Coin 3000)


送出鼓勵



發表匿名文章不會出現你的大頭圖與名稱,你可暢所欲言,但文章內容務必遵守「佈告欄使用規範」!


回應

送出回應


想回應這篇文章嗎?也想發表文章嗎?
馬上登入來發表文章、追蹤作者、收藏文章或回應文章吧!

註冊 登入