【內容提要】
大地云游在5月21日推出了景區大數據畫像后引起很強的反響,但另一方面,也引出了景區管理者們的眾多疑問:“樣本具有代表性嗎?”,“能像傳統統計數據一樣實在和準確嗎?”,“只統計百度地圖用戶數據,那不用百度地圖的就不統計嗎?”,諸如此類,不一而足。那么,相比傳統數據,大數據又有什么優勢呢?我們又該怎樣客觀地來看待旅游大數據?本文將從覆蓋維度、數據量、數據粒度等角度來系統分析大數據的優勢。
1.大數據可能是非結構化的
大數據的結構是非常復雜的,既包括像搜索量、時間、游客量等連續型數值變量,像性別、行業、興趣等離散型變量這樣傳統的結構化數據,更增添了如文本、社會關系網絡,乃至語音、圖像等大量新興的非結構化數據,而這些非結構化數據蘊含的信息量往往更加巨大。
2.大數據可能是殘缺的
在現實的世界里,由于用戶注冊時填寫的信息不全、計算機數據存儲的錯誤等種種原因,數據缺失是常見的現象。但通過不同數據維度的關聯特征,能夠準確復原缺失數據,并推斷產生新的數據指標,這就是用戶痕跡復原方法(Utra)。
3.大數據是存在異常值的
在現實的世界里,大數據里也會存在異常值(outlier)。比如某些連續型變量(如針對某景區某天的搜索量)的取值太大,就會被當做異常值,對待異常值還需要考慮實際情況。大數據分析前,首先要對數據進行清洗和去噪,以此提出異常值對分析結果的不良影響,最大程度上保證數據分析精度。
可見,大數據存在諸多弱點,但通過一定的算法設計和數據處理流程,完全可以保證數據的質量,加上其數據量大、抽樣范圍廣、數據維度大等優勢,使其在不同行業里得到快速應用,毫不夸張的說,大數據已經給全行業帶來了顛覆性的改變,互聯網行業首當其沖,接著是商業智能與咨詢服務領域、零售行業,還包括醫療、衛生、交通、物流甚至生物科技、天文……大數據催生的數據服務意識和能力,正在影響這個社會的方方面面,從旅游到醫療、政府、教育、經濟、人文以及社會的其他各個領域,并催生了了各行各業的變革力量。
二、不同數據源的優劣比較
那么旅游大數據對比傳統數據到底有哪些不同呢?下表或許會帶給我們更進一步的認識。
三、旅游大數據的優勢是什么?
1.大數據擁有巨大的數據量
大數據來源于互聯網文本數據、OTA數據、用戶注冊信息、搜索引擎數據等諸多數據源,這些互聯網用戶行為每天成萬上億次的發生在互聯網的各個領域,因此積累了極為龐大的數據量,僅針對景區而言,一年時間便能夠回溯百萬級用戶交易數據,數據規模早已突破原有數據倉庫和數據集市的規模,蘊藏了極其豐富的數據價值。
2.大數據擁有豐富的數據維度
不同數據源的數據維度存在很大差異,以通信運營商為例,其具有十分龐大的數據量和較高的數據精度,但數據維度相對較少,僅限于用戶性別、注冊地、年齡、籍貫等信息。相比之下,搜索引擎數據、OTA數據等具有較高的數據維度,不僅包括用戶基本屬性數據,還包括偏好特征和行為習慣等諸多細化指標,復合以百度地圖等LBS數據,能夠進行多維度交叉數據分析(切片分析),從而產生更加的數據價值。
3.大數據抽樣時間尺度大、空間范圍廣
調查問卷通常集中于數天或數周內,且問卷集中于某一目的地,在時間和空間維度上抽樣均存在很大的局限性。旅游行業具有時間波動性、空間異質性特征,不同的時段旅游消費行為存在很大的差異,不同的旅游目的地空間也存在很大的差異,因此,調查問卷存在抽樣范圍過小的問題。相比之下,旅游大數據能夠回溯數天、數月甚至數年的信息,抽樣時間和空間都足夠大,從而保證數據分析具有很高的可信度。
4.大數據采集成本較低
大數據的一個典型特征是數據積累是發生在業務或交易過程當中的,既沒有刻意查找和存儲數據,大數據往往是平臺業務的一個附屬產品,因而相較于調查問卷、普查數據等,大數據具有相對較低的采集成本。
由上可見,旅游大數據比傳統數據更有利用和挖掘分析的價值。百度&大地云游大數據畫像,基于已經構建的旅游產業數據庫和百度50余個在線產品數據,通過用戶痕跡復原方法(Utra)對多維數據聚合與挖掘,最大限度上規避了各數據源的弱點,最大程度上保留了大數據分析的優勢,從而為旅游景區管理與營銷提供堅持的數據基礎。
來源:大地云游信息開發有限公司