淺談大數據分析應用

淺談大數據分析應用,掌握先機的關鍵鑰匙

「大數據big data」或許不是陌生的名詞,但是,您知道它的原理和運用方法嗎?您是否聽說過「大數據的5V原則」?

大數據(big data)在現今的數位科技界早已不是陌生詞彙,卻依然擁有極高的討論度,只因其伴隨而來的分析以及後續應用,正持續打破人們對於數位資訊的固有想像。從商業決策到行為預判、從資訊科技基礎建設到日常生活每一個環節,到處都有大數據的蹤影,大數據儼然已成為一種指標。

大數據是什麼?集「5V」於一體的巨量資料

顧名思義,「大數據」可簡單理解為龐大資料的集合體,又稱為巨量資料。每當有人使用電腦或是與網路連線,都是在添加更多的新資料,而隨著科技發展,數據的產生速度正以爆炸性的幅度增長。如YouTube的觀看次數、電商的顧客購買資料、每日金融交易資訊、甚至是社群媒體的互動紀錄、或是單一網頁的停留秒數等,這類龐大又複雜的資料,都可視為大數據的一部分。

看過以上的定義,您可能覺得「大數據」和「數據」之間沒有任何差異,所有的數據都是某種「大數據」。事實並非如此,「大數據」除了擁有更複雜且更龐大的資料量,讓傳統的資料處理技術無力負荷,往往也需要更多台電腦同時處理,才能進行相關的分析與應用,導致公部門與私部門紛紛建立資料中心、或是伺服器農場。針對大數據的具體描述,以2001年高德納諮詢公司(Gartner)分析員萊尼(Doug Laney)所提出的「3V原則」最廣為人知,分別為:

● 數據量(Volume)
大數據最顯著的特點,就是需要處理的資料量十分可觀,單一網站的瀏覽紀錄等,所構成的資料量隨著時間尺度而不同,可能達TB(terabyte)、PB(petabyte),甚至EB(exabyte)的程度。

● 多樣性(Variety)
大數據不只是「大」,還有「雜」,存有多種型態不一的資料類型,除了結構化資料以外,隨著技術演進、資料定義的改變,非結構化資料也與日俱增,不同型態的資料都需經過分析處理,才能夠有效應用。

● 速度(Velocity)
儘管大數據的資料量龐大,數據產生、接收與處理的速度,也不同於傳統數據處理效率,亦可理解為數據處理的即時性。

數位資訊快速膨脹,所產生的資料量只會更大、更瑣碎,且型態更為多元;因此,資料可信度與分析後的可用性,已成為大數據逐漸重視的特點,以至於大數據的定義新增了真實性(Veracity)與價值性(Value)兩個新「V」,統稱為「5V原則」。而依照目前科技推進的速度,相信不久後將有更多特性催生而出,再次刷新大數據的定義。