（原創分享）尋找學術資料的“五條真經” | iResearch

roamingcosmos3 2017-05-31

展開全文

大家好！很榮幸在這里閑聊幾句，好像又回到了美麗寧靜的川外校園。最近幾年，我時常跟身邊的一些朋友們交流，在“找資料”方面有了些心得。顯然，“資料”這個字眼在不同人看來有不同的含義，有的人只是看看文章，有的人還會自己嘗試下載和安裝各種軟件，有的人卻不斷下載“各種經典書籍”。因此，嚴格來說，在網絡上下載資料，不僅僅包括了嚴肅的學術文獻，也包括了各種軟件，甚至也包括了突破種種障礙而獲得國外大學或商業性的學術數據庫的寶貴文獻。我在前兩年曾經概括了“怎樣獲取資料的五條真經”，這里跟大家分享如下：

（1）“ how to find”，就是說平時要多積累多打聽，看看自己需要的資料通常有一些什么網站在提供下載，比如看看哪些地方能夠下載破解軟件，比如看看國外哪些網站提供了免費的碩士博士論文資料，比如看看全世界都有哪些免費的“書庫”和免費的“文章庫”。在這方面，搜索引擎的“高級技巧”和高手們的“心得真經”往往起到了“撥云見日”的效果。平時，如果細心地多多“順藤摸瓜”也是一個不錯的做法，就是說，可以平時經常查一查有些什么跟自己感興趣的專業領域相關的“領軍人物”或“重要團體”，他們的網站往往有很多重要的資料可供下載，這些資料往往是你用搜索引擎也無法“搜出來”的。簡單說下搜索引擎的工作原理：每天， Google 和 Baidu 這些網站會派出一些被稱作spider或 crawler的用于自動搜索的“自動爬蟲”，沿著所有的網絡干線進行“吐故納新”的活動，每到一個分叉路口就會搖身一變，成為“多個爬蟲”而繼續前進，每個爬蟲到了每個網頁都會進行“每個頁面的重要性和必要性”的計算，事實上處于效率和公正的原因（以及確實存在大量垃圾網頁的原因），“自動爬蟲”會放棄大量的被認為無效或低價值的網頁，然后，當某個用戶在 Google或 Baidu 的首頁的“搜索框”輸入一個關鍵詞的時候，搜索引擎并不會在這個瞬間去搜索網頁，而只是搜索那些“自動爬蟲”每隔幾分鐘或幾小時就發送回來的“新信息”所建立起來的“網絡信息的索引的關鍵詞的總庫”。所以呀，搜索引擎的智能化其實是在“搜索結果的有效性”和“搜索結果的窮盡性”之間的“智能化的折中的放棄”，大量的重復性網頁和大量的在多數人看來很可能是低價值的網頁被放棄了！

（2）“ how to download”，是指在上述的“第一條真經”掌握了和積累了之后，所面臨的如何使用工具來“大幅地提高效率”和“頑強地突破種種下載限制”的問題。從簡單的入手，逐步推進，逐步積累對整個信息技術領域的知識（操作系統的，多媒體的，網絡協議的）就能實現“猛增效率”和“破除障礙”的目的。

舉個簡單例子，你發現了“中國翻譯家與中國語言學”這么個好網站，有很多有用文章，那么你最直接的笨辦法就是沿著你需要的欄目逐個打開，然后點右鍵“另存為”，如果你不在乎時間和效率，當然也無所謂了。但是，如果你需要下載幾乎全部或大部分的文章，比如有 500 篇文章，那么每篇文章你需要操作 5秒鐘的話，就需要 41 分鐘的持續手工操作才可以下載 500 篇文章了。更加簡單的方法有不少，這里簡單介紹兩種類型的工具（“離線瀏覽器”和“緩存提取器”）。

Offline Explorer 就是一個優秀的“離線瀏覽器”，利用它可以把整個網站的每個頁面或每個頁面上的某種組成部分統統地下載下來，比如你可以用它來下載某個網站上的所有的 PDF 或 PPT 文件或 JPG 格式圖片或 DOC 文檔，如此等等的無法比擬的“神奇功夫”，你可以立即下載一個破解版，試試看！網址如下：（ http://www./soft/14451.html）

另外一種工具：緩存提取器。這種工具是針對瀏覽器所有的已經瀏覽或打開過的頁面，能夠把已經瀏覽過的頁面全部進行提取，因為每個你瀏覽過的頁面其實都已經靜靜地“躺”在系統的臨時文件夾里了，一般人無法直接查看這些文件因為瀏覽過的頁面都是在一些“秘密而深遠”的 C 盤深層目錄的。總之，下載一份，自己弄弄？（往往比看詳細的說明書和視頻教程還要印象深刻些……）

破解版的網址是： http://www./soft/12199.html

（3）“ how to view”，說出來你可能難以相信，很多人其實下載了各種資料（書籍、論文）之后并不知道如何打開查看。原因很簡單，常見的電子書籍和論文的格式多達 10 余種，例如， pdg, wdl, ceb, nlc, djvu 呀。 Pdg 也許很多人都知道，需要超星閱讀器支持，超星定制的標準，掃描生成，由于是商業軟件，所以收費，但網上能找到不少破解后的版本。 NLC 格式中國國家圖書館的電子圖書格式，它把掃描的圖書圖像以 JBIG 標準壓縮(無損壓縮) 為很小的 NLC 文件，需要軟件 book reader for NLC 閱讀器。更多的知識，大家看看下面的鏈接所在的文章就知道了，總之就是根據文件的后綴名來下載和安裝對應的閱讀器。

http://blog.sina.com.cn/s/blog_5924977e0100g3zv.html

（4）“ how to edit”，在大家開始了自己的閱讀之后，很容易就會出現各種“內容提取”，“格式轉換”，“內容修改與整合”，“限制破除”的需要，這些就是“ edit”的主要涵義啦！“內容提取”就是把 pdf 或其他格式的電子書籍和資料的內部圖片或文字進行批量的提取，以便于集中使用。“格式轉換”就是把整個文件（無論是 chm 或 pdg 之類的），轉換為 txt 或其它格式，或者需要實現“格式的反向轉換”。下面的鏈接，可謂“窺一斑知全豹”……

http://search./search.asp?action=s&sType=ResName&catalog=&keyword=pdf+%D7%AA%BB%BB&Submit=%CB%D1%CB%F7

（5）“ how to manage”，可以想象，當你已經較為成功地運用第一條和第二條的“真經”之后，大量滿足你的個性化和獨特豐富的資料和軟件就會“滾滾而來”，讓你應接不暇！那么，你是簡單地把各種資料進行堆積和粗糙分類，還是能夠更加科學高效地做些什么呢？——“文獻（目錄）管理”就顯得特別重要了。

如果大家到美國的各個大學圖書館的首頁去轉一轉，就會發現“ EndNote”這個軟件的“無所不在”了。 EndNote 是一種文獻目錄管理軟件包，由美國科學信息研究所研制開發， 2009 年 6 月發布的最新版本是 X3（第 13 版）。它可以用來創建個人參考文獻庫，并且可以加入文本、圖像、表格和方程式等內容及鏈接，可以進行當地及遠程檢索。撰寫文章時，可以方便地插入所引用文獻并按照格式進行編排。廣東外語外貿大學的博士生幾乎人人使用這個軟件來進行海量文獻的搜索與集中式管理。