今天,公眾號(hào)“生物學(xué)霸”給大家?guī)砹艘粋€(gè) PDF 數(shù)據(jù)獲取神器,還贈(zèng)送大家資源包,要不要了解一下? 還記得學(xué)霸君本科時(shí)候,有一次老板丟了一個(gè)滿滿是數(shù)據(jù)表格的 PDF,讓小編去整理成 Excel 表格,真的是輸了小編三四天數(shù)據(jù),現(xiàn)在回想起來還記憶猶新。 眾所周知,將數(shù)據(jù)從 PDF 表格中提取出來是一件很煩人的任務(wù),比如將下圖的表格粘貼到 Excel 中,就會(huì)是這樣! 在 PDF 中很是工整。但是!一旦,復(fù)制,然后再粘貼到 Excel 中,就變了模樣,真的認(rèn)不出。這種時(shí)候,很多同學(xué)想必就是無奈地手動(dòng)輸入了。真的是慘啊,如果數(shù)據(jù)量少還好,一多簡(jiǎn)直是要命啊! 但是,這些問題都難不倒機(jī)智的學(xué)霸君! 是不是很 nice 啊。接下來就讓學(xué)霸君給打家介紹中這款工具,及其使用。 先說福利:已經(jīng)為大家準(zhǔn)備了安裝包,大家在「生物學(xué)霸」公眾號(hào)回復(fù)「0323」即可下載。 這款小工具叫做 Tabula,是一個(gè)免費(fèi)的開源小工具,對(duì)的,沒有看錯(cuò),是免費(fèi)的哦。它除了免費(fèi),還有一個(gè)優(yōu)點(diǎn),就是多平臺(tái)! 除了 PC 用戶,還支持 Mac,真的是 Mac 黨的福音啊。接下來學(xué)霸君會(huì)給大家詳細(xì)介紹如何使用。 首先就是下載啦。解壓后,打開軟件,會(huì)自動(dòng)打開瀏覽器。 打開后界面是這樣的,這個(gè)時(shí)候,剩下的幾乎都傻瓜操作。 我們可以參照這個(gè)步驟來操作。 上傳包含數(shù)據(jù)表的 PDF 文件。 通過單擊表格的左上角并將鼠標(biāo)拖到右下角來選擇表格,直到所有數(shù)據(jù)都包含在陰影選擇區(qū)域中。 這里有幾個(gè)注意點(diǎn),一定要切記! 第 1:不要將標(biāo)題圈進(jìn)陰影區(qū)域,不然會(huì)打亂格式! 第 2:如果表格的表頭包含合并單元格,不要圈進(jìn)陰影區(qū)域,可以后續(xù)提取完數(shù)據(jù)再做處理! 隨后,點(diǎn)擊綠色按鈕。 隨后會(huì)出現(xiàn)一個(gè)包含您的數(shù)據(jù)的窗口。檢查數(shù)據(jù)以確保它看起來正確。如果數(shù)據(jù)丟失,我們可能需要稍微擴(kuò)展我們的選擇。 選擇我們需要的格式,點(diǎn)擊下載按鈕。 打開文件,我們就可以將數(shù)據(jù)作為文本文件或電子表格,而不是 PDF 來進(jìn)行處理! 但是學(xué)霸君發(fā)現(xiàn)一個(gè)問題,就是有時(shí)一些符號(hào)在 CSV 中會(huì)出現(xiàn)亂碼,但是不知道是不是因?yàn)?Mac 的 Excel 兼容性不是特別好,但是這問題很好解決。 只要選擇 Excel 的替換功能,然后將亂碼字符統(tǒng)一替換就好! 就會(huì)得到想要的結(jié)果啦。具體的一些操作和小訣竅,還需要大家使用以后來告訴學(xué)霸君呦。 |
|