正體  /  简体

【資訊視覺化】文字雲與視覺化

14b8eaeaa153428d29db

工程視覺化專題探討經典視覺化的案例,以及其背後的圖形設計、視覺藝術、程式設計和視覺心理等課題。有興趣參與課程的讀者可以前往:工程視覺化專題網站

本文作者為魏士超,目前就讀臺灣大學博士班一年級,研究土石流和坡地災害,期望透過理論分析或數值模擬對未來災害預警能有一些幫助。

文字雲是網路上一種常見的關鍵字視覺畫呈現方式,透過字體的大小去展現出關鍵字的重要性,一般而言,越大的字體表示在文章中出現的次數越高,也可用來表示網路搜尋率、點擊率的次數等。Jonathan Feinberg 在 Beautiful Visualization 中就針對此類型資料視覺化技術做介紹,並以他發展的 Wordle 文字雲產生器解釋製作的過程與他個人的見解。

在 Wordle 所產生的文字雲中,為了避免展示出不重要或讀者不感興趣的字詞(如:the、it、to 等),首先必須針對所使用的語言選出常用的字詞資料庫(可能 50 個左右或依使用者自行調整),讓這些字詞不會出現在最後的結果中,然後再針對其他字詞出現的數量給予一個權重以調整字詞的字體大小。在呈現文字雲的過程,還必須注意文字雲空間的大小,過大可能使得太多枝微末節的字詞出現在版面中,太小則可能使某些重要的字詞放不下,原則上至少要確保最大的字詞可以放得下。在放置字詞時,可以使用隨機分佈或是按照字母順序分佈,為了避免在放置字詞時有重疊的狀況發生,Feinberg 使用 Hierarchical bounding boxes 的方法,將每個矩形字元轉變成描述文字線條的矩形樹,並依此為不同字詞做碰撞測試,他也提到一些增加演算效率的方法如:暫存會碰撞的字詞或以空間索引的方式減少碰撞測試的次數,其演算方式則可參考 Christer Ericson’s (2005)。

簡單的介紹文字雲產生方式後,Feinberg 也對此資料視覺化方式提出一些看法,其中他認為文字雲也許不是一種好的資料呈現方式,因為它存在許多的缺點,諸如:

  1. 字詞雖然可以透過字體大小顯示重要性,但是同樣大小的字體,卻可能因為字詞長度不同,使得佔據空間的實際大小也不同,進而讓人產生誤解
  2. 文字的顏色可能不具任何意義而只是為了區分與背景間的差異
  3. 在具備可讀性的字型下,不同字型只流於藝術價值
  4. 字體大小所轉達的數量(可能是出現次數、搜尋率、點擊率)可能不具任何科學意義,頂多用來比較同一主題的文章,其不同作者所強調的重點是否相同,或是用來比較不同文章是否是同一作者所寫等

但是在 Viégas, Wattenberg, and Feinberg (2009) 針對使用者對 Wordle 測試後的結果也顯示,使用者在使用後都認為是很有創意且有趣的,從產生的字詞中可以喚起他們在文章或部落格中的某些記憶,或是提醒使用者沒注意到的一些部份。Feinberg 也提到在計算科學領域,其實有許多人都提供不同的演算方法(如:randomized greedy algorithm)將字詞放置於某些區域(bin-packing problems),從傳統的矩形到任意形狀皆可,所以也使得人們可以開始利用文字雲去繪製或創造各種圖像,從另一個輕鬆愉悅的角度去看待此種視覺化的工具,也許我們也可以創造出一些有意思的藝術品。

參考文獻

  • [1] Beautiful Visualization, 2010, O'reilly Media.
  • [2] Wordle, http://www.wordle.net
  • [3] Real-Time Collision Detection, 2005, Christer Ericson
  • [4] Participatory Visualization with Wordle, 2009, Viégas, Wattenberg, and Feinberg
  • [5] Image via preater, CC License.

關於作者

Fed7b3343b797d24a657
台大工程視覺化專題培養工程人員,能處理大量的複雜的資料,且選擇正確的呈現方法。這門課會探討經典視覺化的案例,以及其背後的圖形設計、視覺藝術、程式設計和視覺心理等課題。此課程有一個跨整學期的專題,學生將針對實際工程的問題,將相關資料鍛造成最符合專家的解析角度,以呈現出資料背後隱藏的意義,讓工程決策人員更容易理解、記憶並在複雜的工程條件中,做出正確的決策。

留言與討論