一、大數據ABC
2. 美國“大數據”事業發展
大數據(BIG DATA)是指所涉及到的數據量規模巨大到無法通過人工在合理時間內達到獲取、管理、處理、并整理成為人類所能解讀的信息。
5. 大數據4V特性
花樣多、體量大、速度快、價值高
6. 數據從哪來?
數據來源主要從以下四個渠道:
互聯網公司(BAT等)
通信運營商(移動、聯通、電信)
金融、酒店、醫療、電力等行業
物聯網、傳感器等
7. 大數據商業價值
8. 大數據的行業應用
大數據在各個行業上的應用都很廣泛,舉幾個例子:
大數據的應用幾乎覆蓋了所有行業,企業、娛樂、電商、政府、醫療等等,這些大數據往往只是基于互聯網,但我們不應摒棄傳統數據,那些基于數據統計、問卷調查、用戶訪談、人工統計、遙感影像、地圖測繪等渠道獲得的傳統數據同樣具有價值,要將傳統數據與大數據相結合。
二、 大數據時代的旅游業
旅游行業有行業廣、規模大、移動性強的特點,因此更加依賴大數據。當前,旅游業也在“新常態”下迎來了升級的挑戰和變革的機遇,新常態對于一般的經濟部門是經濟速度放慢、人均GDP增速減小,很多傳統行業在調整結構,但新常態對旅游行業卻是速度加快的。
對大數據來講,和旅游業產業的密切配合主要體現在以下幾個方面:
(1)景區票務系統可統計游客量數據,通過與互聯網、運營商等第三方大數據整合,可對未來幾天人流量、車流量進行預測;
(2) 智慧景區監控系統可對突發事件如踩踏、擁擠進行實時監測,及時預警;
(3)通過監控系統及數據分析,對景區人力、物力資源進行科學分配,并加強市場違規行為管理
(4) 通過景區一卡通系統,可以對游客的屬性、行為偏好進行分析,同時整合互聯網大數據,可以針對全國市場范圍進行客源地與目標消費者的精準定位;
三、 為旅游分析大數據
數據分析共五個流程:數據獲取→預處理→綜合分析(數據模型)→成果可視化→對策應用
(1)數據獲取:游前、游中、游后全過程的大數據獲取,傳統數據和大數據相結合。
(2)綜合分析(數據模型):將數據預處理后,進行數模分析,例如將過去五年的五一黃金周游客的來源和過去五年景區的銷售記錄建成數據模型,根據模型預測明年甚至后年的游客量、游客從哪來?這對于市場非常重要,可以根據這些特點對癥下藥。
(3)對策應用
(4) 景區對大數據應用的困境
(5)景區對大數據應用的解決之道
四、 為景區生產數據產品
隨著“互聯網+”時代的到來,包括旅游業在內的傳統行業迎來了一次大變革。大地云游多年深耕于旅游行業,基于宏觀經濟、旅游產業、遙感及GIS數據等構建了龐大的數據庫,并同百度等大數據企業開展深度跨界合作,整合了包括百度搜索引擎、百度地圖、百度糯米等50條產品線的上億用戶量的數據,雙方共同開發了旅游行業的大數據產品——“景區大數據畫像”。
百度大數據和大地云游兩家共同合作,提出一套理論叫做用戶痕跡復原分析法。用戶痕跡復原分析法,它的作用一是能夠把握景區發展外部環境與市場導向,洞察游客基本屬性與行為特征,精準分析游客旅游路線,實時監控景區游客量。二是為城市及景區實現旅游市場細分、旅游營銷診斷、景區精準管理提供有力工具。
景區自己搞大數據是比較困難的,存在著數據獲取困難、寄存存儲困難、分析方法不了解等問題,未來的發展方向應該是景區收集內部的小數據然后和專業公司合作,用大數據、小數據、大小結合提出一個整套的方案,景區自身要注重線下數據積累,建立流行化平臺,建立一個數據中心,和數據專家溝通,提出一套適合自身景區的方案。這適用于所有旅游局、旅游景區、酒店旅行社等,都可以做這樣的旅游分析的報告用來幫助景區定位、分析、營銷、提高景區投入回報率。
怎么為景區數據生產?用旅游專業的知識和經濟框架,用百度大數據包括百度搜索引擎、百度地圖、百度糯米等上億用戶量的數據,以景區為案例和景區大數據框架。
數據有兩種來源,一種是我們過去積累的傳統數據,如區域經濟數據、遙感數據、GIS數據,另一種是游客微觀數據,包括百度大數據及新浪微博等,使用用戶痕跡復原分析法將景區四方面情況把它展現出來,這樣的一套診斷工具、管理工具、營銷工具、可以為景區提供規劃、發展之路。
大地云游旅游數據庫包括:
(1)區域經濟數據
全國各地級市的旅游產業數據,包括旅游收入、游客量、出入境旅游人次、人口、GDP、財政收入、居民收入水平、居民消費能力等等; (2)遙感衛星數據
包括EOS衛星、Landsat衛星數據、全國DEM地形數據等;
(3)GIS數據
全國各縣、各地級市、交通路網(包括高速路、國道、省道、鐵路等)、全國機場、旅游景點等的GIS數據;
(4)氣象數據
全國各監測站近30年的707個氣象監測站的數據,包括各月氣溫(℃)、相對濕度(%)、日照時數(h/d)、平均風速(m/s)等。
游客微觀數據庫包括:
(1)百度搜索
作為全球最大的中文搜索引擎,百度每天響應超過100億次來自電腦手機的搜索請求,為超過全國95%的網民發現答案,提供所需;
(2)百度地圖百度地圖每天響應超過100億次定位請求,基于百度地圖定位數據,可以對游客軌跡進行精準刻畫;
(3)百度用戶畫像
基于百度超過50條產品線數據以及海量外部線上線下數據進行深度挖掘,從人口的自然、社會、地理位置屬性和興趣關注等維度,以及醫療、教育、旅游等32個垂直行業細分萬級別標簽,全方位刻畫用戶屬性偏好,采用最高精度算法和最全多屏用戶數據,覆蓋國內超過4億用戶,采用DNN深度學習、規則與統計分析、WordVec等挖掘算法,挖掘結果準確率大于90%;
(4)新浪微博
用戶在新浪微博的評論及簽到數據。
案例研究:武夷山旅游景區
將大地云游數據庫中全國345個地級市(含省直轄縣)統計數據、GIS數據與遙感數據進行整合;百度數據的采集時間為2015年1月1日至2015年4月7日,來過武夷山和福建的游客,數據規模為2000萬游客數據;微博數據采集時間為2014年9月23日至10月8日(含十一黃金周),10000余條新浪微博記錄建立一個分析體系。
這個分析體系可以給景區外部環境分析、客源市場分析、旅客量預測、景區熱力圖、市場氣氛、關聯景區分析、也就是這批游客到了武夷山同時還玩了哪幾個景區,幾個景區就可以一起做區域合作、做共同營銷,這是有數據基礎的。分別對武夷山景區進行外部環境分析和客源地及市場洼地探析。
1. 外部環境分析
武夷山外部環境分析—旅游發展階段:以武夷山為中心的周邊地區,包括長三角、福建、珠三角等,已經進入觀光與休閑旅游多元化階段。
這是由于武夷山景區有較適宜的外部環境,包括:
2. 客源地及市場洼地探析
從客源市場角度來講,通過大數據對武夷山客源地分析,根據百度地圖LBS定位,2015年1月1日至2015年4月7日到達武夷山的游客數據總量70萬人次的記錄量。可以判斷客源地的來源,客源地以福建本省居民居多,其次是上海、浙江、江西等較近旅游市場。客源城市排名依次為:南平、福州、廈門、北京、上海、泉州、杭州、上饒、溫州、三明、廣州、蘇州、漳州、深圳、金華、寧德、沈陽、鄭州、無錫、莆田。通過這些客觀的數據可以有針對性的進行區域宣傳。
通過百度可以統計出過去三個月中全國人民哪些區域搜索武夷山的關鍵詞,最集中的搜索量依次是南平市、福州市、廈門市、北京市、泉州市、上海市、杭州市、廣州市等對武夷山搜索量較高。但搜索量高卻沒有到武夷山來,這就是客源漏損指數,客源漏損指數是通過游客實際到訪量與搜索量計算得來。漏損指數較高城市依次是南通、成都、合肥、臨沂、揚州、揭陽、天津、石家莊。對漏損原因進行深度分析作為重點突破。
省內競爭指數:某一城市到訪武夷山游客量與到訪福建省游客量之比。省內競爭指數較低城市:南寧、贛州、重慶、深圳、揭陽、惠州、珠海、合肥、東莞、廣州、海口(這些地區來福建游客到武夷山之外的福建旅游城市較多)。省內競爭指數較高城市:衢州、麗水、上饒、承德、張家口、牡丹江、金華、鞍山、邯鄲、東營(這些地區來福建游客到武夷山人數較其他福建城市為多)。
3. 景區游客量預測
百度對九寨溝做過一個研究,游客從哪幾個城市會飛到九寨溝來?游客會乘坐什么交通工具?各個客源地城市游客的數量有多少?百度大數據可以預測。
華北、西北、東北地區游客量與逗留時長之間呈現明顯的U型曲線,較長時間滯留游客比例較大,華中、華南、西南等地游客逗留時長不夠高。
與百度旅游網民數據相比,武夷山游客中女性游客占比要高于百度旅游網民中女性比重,表明女性相對男性對武夷山更為青睞。
本科及以上學歷的游客占游客總量的61%,表明學歷層次較高的游客對武夷山景區頗為青睞,同時,百度對更精細的學歷層次正在研發中,即將推出。
文體娛樂、IT通信、醫藥衛生、住宿旅游等職業的游客在武夷山總游客量中占比最高,與百度旅游網民相比,文體娛樂、IT通信、醫藥衛生等職業的游客對武夷山更為青睞。
武夷山游客中有車的游客占比32%,高于全體國民中有車人士占比,表明在產品開發方面,武夷山景區可針對自駕車游客策劃自駕車營地項目等;
武夷山游客對社交、網購、旅游、金融財經等興趣較高,在制定營銷策略時,可以針對社交性的媒體、網購類網站、旅游類網站等選擇合適的營銷渠道;
青年旅舍在80、90后游客中占比最高,深受青年人的喜愛;快捷酒店以其標準化、高性價比的服務對商務人群、學生群體吸引力較大,品牌忠誠度較高;
景點關注度:游客對天游峰、九曲溪、一線天、水簾洞、大王峰、玉女峰、虎嘯巖、龍川等景點的關注度最高,表明這些景點的品牌知名度較高。
外地游客來武夷山旅游的同時,還去鼓浪嶼、左海公園、福建土樓、燕尾山公園、胡里山炮臺等景點旅游,鼓浪嶼是外地游客去福建省旅游的主要旅游目的地之一。
(1)微博語義分析:游客所發微博內容主要圍繞“武夷山”、“旅行”和“紅袍”三個關鍵詞展開。其中“旅行”、“竹筏”、“漂流”等關鍵詞代表游客對這類旅游項目關注度較高;“紅袍”、“茶葉”、“喝茶”代表游客對于武夷山當地茶葉特產的關注度較高。
(2)微博情緒分析:通過數據挖掘,對微博內容進行情緒語義分析,并將其分為積極、中性和消極三類,其中積極情緒占比最高,占比達57%,消極情緒占比最低,總體來看,游客對武夷山的印象以積極正面為主。
武夷山景區改進策略:
五、 從非移動景區到移動旅游目的地
過去旅游產品是旅游到什么地方去,景區是不可以移動的,在旅游學教科書里是這樣強調的。但是在如今的大數據時代,在移動互聯網時代,在移動知識時代,你的旅游目的地要變成移動目的地,也就是說從非移動地區到移動旅游目的地的一個變化。
(4)移動性(mobility)控制一切
(5)移動中的社交媒體及其對品牌影響
現在全球的旅游研究當中,最核心的是移動性研究,不是簡單的信息、交通,而是人本身的移動,根據移動的特征進行景區的管理。移動性需要靠大數據來研究,景區移動性、大數據、移動旅游目的地、這些邏輯關系是非常清晰的,我們過去的游客中心就是放幾個地圖,兩個景區工作人員介紹,而現在的大數據時代把他變成非移動和移動的交接點,這時的游客中心就要進行非常徹底的改造。移動性的管理,擁擠、地質災害、警告、檢測都是要動態的。建議地方政府要把wifi免費。
結論
(1)“互聯網+”時代,大數據促進旅游產業轉型升級
(2) 旅游大數據的應用價值在于多數據源的整合
(3)旅游大數據指導景區管理已初見成效
(4) 如何進一步提升旅游大數據效用仍然任重而道遠
(5)移動互聯網時代,景區已經不再靜止不移
(內容由大地風景研究院根據吳必虎教授在“第十屆全國旅游景區創A培訓班”演講內容整理,技術支持來自大地云游。)