數(shù)據(jù)采集系統(tǒng)
- 系統(tǒng)簡(jiǎn)介
數(shù)據(jù)采集系統(tǒng)是基于大數(shù)據(jù)、云計(jì)算和網(wǎng)絡(luò)爬蟲技術(shù)的海量數(shù)據(jù)采集工具,多用于公安網(wǎng)頁數(shù)據(jù)采集、系統(tǒng)日志采集、公安內(nèi)部數(shù)據(jù)采集和社會(huì)化數(shù)據(jù)采集,數(shù)據(jù)采集系統(tǒng)采用分布式架構(gòu),適應(yīng)離線批量采集和在線實(shí)時(shí)采集,能滿足每秒數(shù)百兆日志數(shù)據(jù)采集和傳輸需求。數(shù)據(jù)采集系統(tǒng)可以采集結(jié)構(gòu)化數(shù)據(jù),也可以將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中或一般文件中抽取出來,將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,并以結(jié)構(gòu)化的方式存儲(chǔ)。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動(dòng)關(guān)聯(lián)。

