当前位置:首页 > 探索

《數據與人性》:康乃狄克州小鎮「綿羊普查」研究,成為一舉兩得的數據救援

文:傑爾・索普(Jer Thorp)

剪過毛的數據數據成羊數

知識變成程式碼時,狀態就改變了;好比水變成冰時,與人研究就成了新東西,性康小鎮有新的乃狄特質。我們使用它,克州但以人的綿羊角度而言,我們不再了解它。普查——艾倫.鄔曼(Ellen Ullman),成為電腦程式設計師暨作家

數據開始蒐集的舉兩救援那一刻,稱為數據的數據數據創生時刻。這種說法是與人研究貼切的,但不是性康小鎮從聖經的觀點來看,而是乃狄從生物觀點:數據開始蒐集之後,會發生許多混亂分裂、克州冒泡變形的綿羊情況。等我們著手處理數據的片段(或數據對我們起作用),可能已認不出這數據與當初蒐集的簡陋紀錄有何相同之處。大部分的轉變是出於數位化的需求。

這份現實世界的紀錄要經過重新格式化、修剪、語法分析,才能輸入計算機,這時它就會改變,通常會影響到如何訴說故事及如何做決定。同時,由於紀錄會經過清理、重構,放進無數的運算當中,於是這來自現實世界的事物本身可能也改變,使我們和我們的資料庫必須構思決策,以求精準(與及時)表示出來。

別忘了,任何給定事物中能如戲法般變出的數據數量幾乎是無限的。不妨在路邊撿個普通的灰石頭,玩第二章做過的鳥類數據遊戲。你很快會集結出一組描述符及值:大小、重量、顏色、質地、形狀和材料。若把那塊石頭拿到實驗室,可以讓這些數據變得更精準,而運用超出人類感官系統的儀表,還能列出更多紀錄:溫度、化學成分、碳定年。

接下來,資訊會碎形開展,其中每一項紀錄都會依序顯現出本身的數據:測量時間、用來記錄的儀器、執行任務的人、進行分析的地點。每一項新的後設資料紀錄又會帶出本身的數據:任務執行者的年齡、儀器型號、室溫。資料產生資料,又產生後設資料,過程重複、重複、再重複。數據就這樣源源不絕產生。

試著決定究竟要記錄事物的何種層面時,資料和後設資料永無止境的鏡像反射,可能令人疲憊。想像一下,圖書館編目人員正捧著一本別人剛捐贈的舊書,館員在編目時可鍵入的相關條目很多,因為書本身就格外容易產生數據。頁數、裝幀類型、文本使用的字型、書衣——所有這些都是在開始看作者可能要說什麼之前,就會看到的東西。

為了讓編目者保持理性,避免資料庫膨脹和書目卡爆量,圖書館已規定編目者要記錄哪些特定項目:書名、作者、出版者、年分——這些都是我們可能想在書目中找到的資料。編目者無法自行增列允許範圍之外的數據,例如手上那本書聞起來有淡淡的營火煙味;這對資料庫而言是不相干的。

嚴格來說,國會圖書館正如字面所言,宗旨是服務國會議員。美國國會圖書館擁有世界上最大的藏書量、一千四百萬張照片、五百五十萬張地圖、幾英里長的手稿、七把史特拉底瓦里提琴、惠特曼(Walt Whitman)的拐杖、林肯遇刺時口袋裡的東西都存放於此,若國會議員提出需求即可取得(至少理論上如此)。但是這宗旨就像在說,身體的目的是產生唾液,或者布魯克林區康尼島(Coney Island)是熱狗攤。

國會圖書館實際上是美國的國家圖書館,其壯觀的檔案、編目和圖書館員的配備絕大多數是為了服務民眾。過去一百五十年,這些民眾多半是學術研究者,前來圖書館二十一間閱覽室閱讀,用最安靜的鉛筆書寫。2016年起,曾任巴爾的摩公共圖書館館長的卡拉.海登博士(Dr. Carla Hayden)接任國會圖書館館長一職,之後這機構就慢慢朝新航道逆風轉向——遠離安靜的研究,朝向更熱鬧、更愛社交的學習類型前進。

2017年和2018年,我泰半時間都在這間圖書館找東西,構思新搜尋法,與圖書館員、檔案管理員、歷史學家談談他們已發現的東西。我在國會圖書館擔任第一任駐館創新者(他們編出的職稱),任務是要想新方法,提升大眾與圖書館龐大館藏的互動。我刻意不用計算機的思維來處理這個問題,而是盡量多與圖書館職員談話。我以錄製 Podcast節目《檔案庫裡的藝術家》(Artist in the Archive)的名義,當面和圖書館員、檔案管理員、保存者、研究員、技術人員和行政人員聊聊。

不知為何,對話總會回到數據創生時刻,亦即書、地圖或錄音資料產生編目資料的時刻。在這一刻,物件成為可找到之物的生命大致展開。如果編目者有點時間,又做事徹底,這物件就可能得到一份紀錄,有利未來搜尋。如果條目列出的日期準、地點精確,又多一行描述文字,則能大幅提升物件被找到的特殊優勢,更有機會被納入研究,訴說過往的故事。相對地,許多東西變成數據時只有稀少資訊,最後只存在於搜尋結果的最後一頁。

有時候,某項物件會很幸運,從模糊的搜尋結果中被拯救出來。一則1863年的簡報就是這麼幸運。一百五十六年來,這則剪報被誤標成林肯《解放奴隸宣言》的阿拉伯語版。2019年,科威特一名志工抄錄者在國會圖書館群眾外包平台上看到這則剪報,於是寄了訊息給圖書館,指出這文本其實不是阿拉伯文,可能是亞美尼亞文。

圖書館員研究之後,判斷這文本是新亞蘭語(Neo-Aramaic),亦即伊朗烏爾米耶(Urmia)的亞述人與迦勒底基督教徒所說的語言。隔天,這則剪報的編目紀錄就改變了,成為「新亞蘭語」第一項搜尋結果。一個半世紀後,它才剛展開搜尋得到的館藏生命。

接下來,是綿羊普查。

茱莉.米勒(Julie Miller)剛開始在國會圖書館手稿部任職時,就著手調查她專長的檔案領域——早期美國史。這項任務可是很艱鉅的:圖書館手稿部有超過六千萬個物件,分別屬於一萬三千多筆館藏。保守估計,如果每看一份文件花十分鐘,所有手稿館藏可能需要上千年才能完整探索。既然人生只有一回,米勒決定採取調查法,運用圖書館的線上目錄瀏覽館藏。


分享到:

京ICP备19007577号-5