前幾天討論了目前各家網站標籤功能的混亂,即便有這些混亂,「標籤」仍是訊息管理非常重要的一個工具,也是落實真正語義網(semantic web)的一個基礎。

然而正由於目前沒有一致性的標籤標準,人們對於標籤的使用也很隨興,所以會常常看到下面三種情形:
- 同一個概念以不同的詞語組合方式標籤 - 例如一篇文章中同時加入了 - win7,- Windows 7,- MS windows 7,- windows-7等標籤,有縮寫、有全名、有各種不同的連接詞。這種現象在以搜尋流量為主的媒體網站中尤為常見。上面的圖就是一個活生生血淋淋(?)的例子,這組關鍵字取自 Engadget 的這篇文章。
- 同一個概念以不同的單字形式標籤 - 以英文做標籤的網站中很容易發生這種情形,因為一個概念在不同的詞性表現下就是不同的單字,因而成為不同的標籤關鍵字。例如我想要加上「部落格」這個標籤,用英文寫時就可能同時把名詞、動詞、動名詞,還有單數型複數型全部通通填上去,像這樣: - blog,- blogging,- blogs。
- 同一個概念以不同的語言標籤 - 這個就是多語言使用者的苦惱了。例如像我這樣的宅宅就會因為以下 - 動畫,- アニメ,- Anime,- 動画等標籤到底要用哪個好而苦惱,而最後的結果通常就是全部都用。
這三種情形都是用不同的方式去標籤同一個概念,雖然初衷是為了將來方便搜尋,但往往反而導致搜尋時的困難。考慮以下情形:假設我的一篇部落格文章用了 win7 與 Window 7 作為標籤,另一篇主題近似的文章卻是用了 Windows 7 與 win-7 作為標籤。這種不一致性會讓讀者在前篇文章中點下 win7 這個標籤連結時,無法將所有主題相關的文章列出。
另外一個問題則是製造不必要的心力浪費。因為沒有一個標準來選擇用哪個單詞做標籤,因此也不知道自己將來要回頭找資料時,會用哪個單詞來做搜尋,只好想辦法把所有自己想得到的所有相關字一股腦兒全部填入。
為了避免上述問題,雖然目前每個網站的標籤機制如同多頭馬車各行其道,制定一個自己個人使用的標籤習慣(或規範)倒是可行的一個作法。這個問題相信困擾的不只是我,上網找了一下,有兩篇值得參考的文章,第一個是 Calvin C. Yu 所寫的 Taggin Guidelines (在投影片中的第 13 頁),主要原則如下:
- 簡練
- 小寫
- 單數
另一個參考是由 Hutch Carpenter 所提出的,他認為標籤機制應該有個標準,而這個標準就是複數詞組,逗號分隔 (Multi Word, Comma Seperated)。
而我自己所使用標籤的標準如下:
- 簡便性 - 盡量簡單。 
- 方便輸入。所以標籤時會以英文為主,例如用 - browser而不用- 瀏覽器。
- 自己容易想起。通常第一個想到的字詞就是了。 
- 使用容易理解的詞。 
 
- 一致性 - 一個概念一個詞。所以 - 動畫,- アニメ,- Anime,- 動画就只剩下用一個- anime。
- 小寫。同樣是為了方便輸入。 
- 用單數,用名詞。當然,這免不了會遇到例外情況,主要還是要依照使用情境判斷。 
- 人名的標記盡可能從主人。例如使用 - 菅野よう子而非- 菅野洋子,- 韩寒而非- 韓寒。除非該人名的原始拼寫方式我不熟悉,例如我總是想不起來戈巴契夫怎麼拼,那就直接用- 戈巴契夫吧。同樣是以自己方便為最高原則。
- 除非是自己口語常用的縮寫,不然不使用縮寫作標記。 - nds- win7- xbox360都很好理解,可是用- resp- req來做為- response- request標籤的替代,就太過頭了。現在連寫程式都不鼓勵這種縮寫了。
 
- 格式 - 省略單字間空白。也就是說用 - macosx而非- mac os x。不過英文人名是例外;日常用字如- smartphone我們容易斷字,相對的人名如果省略空白有時候就不容易逆推。其他如果空白省略會造成歧異的話,也應該保留空白於關鍵字中。
- 以逗號區隔關鍵字。正確來說應該是以「逗號加空白」區隔關鍵字。 
 
以上便是我個人使用的標籤規則。如果你有不錯的標籤習慣,也歡迎一起討論分享。
