您的位置:首頁(yè) > 學(xué)生信息 > 學(xué)習(xí)心得
來源:北大青鳥飛迅校區(qū)|發(fā)布時(shí)間:2013-04-17 16:44:52
在這個(gè)云計(jì)算熱炒的時(shí)代,如果你沒有處理過海量數(shù)據(jù)的話,你將不再是個(gè)合格的Coder,F(xiàn)在趕緊補(bǔ)補(bǔ)吧~
前一陣子分析了一個(gè)將近1TB的數(shù)據(jù)群(gz文件,壓縮率10%)。因?yàn)榈谝淮畏治鋈绱司薮蟮臄?shù)據(jù),沒有經(jīng)驗(yàn),所以浪費(fèi)了許多時(shí)間。下面是我整理的一些經(jīng)驗(yàn),方便后者。
歡迎各種補(bǔ)充,我會(huì)不斷更新這篇文章;覺得有用的話,速度分享鏈接;有不同意見的話,請(qǐng)果斷拍磚;
下載數(shù)據(jù)
Q:怎么自動(dòng)下載多個(gè)文件?
這是我遇到的第一個(gè)問題。當(dāng)數(shù)據(jù)量很大時(shí),一般都會(huì)分成很多個(gè)文件存放。這時(shí)下載文件比較麻煩。
A:用Wget命令。Windows下花費(fèi)一點(diǎn)時(shí)間去下載安裝。但之于手動(dòng)下載,能省不少時(shí)間。
我提供兩種方式方式下載文件,
a)用Wget的遞歸下載選項(xiàng) “-r”。一般命令如下
wget –r http://<下載數(shù)據(jù)的根目錄>/ -o <下載記錄文件名> -np
因?yàn)檫f歸下載沒法控制進(jìn)度,所以建議不一要次遞歸下載太多的文件
b)用Bat+Wget,多次執(zhí)行Wget。一般命令如下
wget –r http://<下載數(shù)據(jù)的根目錄分支1>/ -o <下載記錄文件名> -np
wget –r http://<下載數(shù)據(jù)的根目錄分支2>/ -o <下載記錄文件名> -np
wget –r http://<下載數(shù)據(jù)的根目錄分支3>/ -o <下載記錄文件名> -np
…… ……
wget –r http://<下載數(shù)據(jù)的根目錄分支N>/ -o <下載記錄文件名> -np
用Bat可以降低出錯(cuò)帶來的影響。
另外,Wget可以通過 –A 選項(xiàng)來指定希望下載的文件的后輟,通過 –P 選項(xiàng)來指定下載文件存放路徑。更多命令,參見wget -h
Q:這速度。。。什么時(shí)候才能下完?
網(wǎng)速永遠(yuǎn)是個(gè)瓶頸
A:如果下載服務(wù)很遠(yuǎn)的話,你應(yīng)該考慮代理。wget設(shè)置代理的方式如下
set http_proxy=http://<代理服務(wù)器>
不要忘了多開幾個(gè)進(jìn)程,20個(gè)試試?
打開文件
Q:怎么打開文本文件
這不是弱智問題。你用記事本打開一個(gè)1000MB的文件試試
A:LTF viewer
Large Text File viewer, 打開速度會(huì)讓你驚奇
Q:怎么打開二進(jìn)制文件
A:Hex Editor Neo
你可以通過下面方式來選擇進(jìn)制:
右擊數(shù)據(jù)區(qū) => Display As => Hex|Decimal|Octal|Binary|Float|Double
你可以通過下面方式來選擇按多少字節(jié)顯示:
右擊數(shù)據(jù)區(qū) => Group By => Bytes|Words|Double|Quad
編程語言
當(dāng)數(shù)據(jù)量很大時(shí),選擇語言要慎重了。因?yàn)椴煌Z言有不同的特點(diǎn),你要在編程時(shí)間和運(yùn)行時(shí)間之間權(quán)衡。
模型測(cè)試
開始時(shí),一般挑幾個(gè)小的數(shù)據(jù)進(jìn)行測(cè)試,獲取第一份分析結(jié)果。這時(shí)當(dāng)然希望能快速編程實(shí)現(xiàn)。腳本語言是一個(gè)很好的選擇,比如Python。
全程面授,不高薪都難
申請(qǐng)成功后,我們將在24小時(shí)內(nèi)與您聯(lián)系
招生熱線: 4008-0731-86 / 0731-82186801
學(xué)校地址: 長(zhǎng)沙市天心區(qū)團(tuán)結(jié)路6號(hào)
Copyright © 2006 | 湖南大計(jì)信息科技有限公司 版權(quán)所有
湘ICP備14017520號(hào)-3