地圖數(shù)據(jù)的主要采集方式

  

  

下面一米軟件來給大家分享一下目前比較常見的地圖數(shù)據(jù)的主要采集方式:


地圖數(shù)據(jù)的主要采集方式


1、通過系統(tǒng)日志采集大數(shù)據(jù)


用于系統(tǒng)日志采集的工具常見的有Hadoop Chukwa、Cloudera Flume、Facebook Scribe和LinkedIn Kafka等。這些工具是分布式架構(gòu),滿足每秒數(shù)百M(fèi)B的日志數(shù)據(jù)采集和傳輸需求。


2、通過網(wǎng)絡(luò)進(jìn)行地圖數(shù)據(jù)采集


主要指通過網(wǎng)絡(luò)爬蟲或者網(wǎng)站公開API等方式從網(wǎng)站上獲取大量數(shù)據(jù)信息方式,將網(wǎng)站上非結(jié)構(gòu)化的數(shù)據(jù)抽取出來,采用結(jié)構(gòu)化的方法,同意儲(chǔ)存在本地,支持圖片、音頻、視頻、文字等多種形式的素材采集。網(wǎng)絡(luò)爬蟲的工具主要分為3類:分布式網(wǎng)絡(luò)爬蟲工具(Nutch)、Java網(wǎng)絡(luò)爬蟲工具(Crawler4j、WebMagic、WebCollector)、非Java網(wǎng)絡(luò)爬蟲工具(Scrapy)。


3、通過其他數(shù)據(jù)采集方法


生產(chǎn)和業(yè)務(wù)數(shù)據(jù)或?qū)W術(shù)研究數(shù)據(jù),如更高數(shù)據(jù)的保密性要求,可以通過與企業(yè)或者研究機(jī)構(gòu)合作,使用特定系統(tǒng)接口等相關(guān)方式采集數(shù)據(jù)。

  
相關(guān)資訊

推薦軟件