好,那我們就進到了第三個階段,那因爲在評論中其實使用者
他就表達了非常多,有些可能跟品牌聯想不直接
有關,可能有些是有關,所以我們也要透過一個過程去挑選
比較具代表性的詞,當成是 這個品牌的這個品牌聯想。
好,然後所以我們首先就做一個檢查我們叫 consensus
check,consensus check
其實就是用頻率來過濾掉 我們剛剛找到的這個候選聯想,它出現的
頻率不夠高的時候,低于某一個門檻值的時候 我們就將這一個候選聯想就把它去除掉,OK。
好,那接下來我們就要去評估這個
品牌聯想跟這個目標品牌中間的強度,那評估的方式
我們就可以采用在文字處理經常用的比如說詞頻叫做 TF,
或者是 TF×IDF,OK,或者是 TF×ICF
來進行這個強度的評估,然後接下來我們再用一個
門檻,比如說我們把所有的強度的平均值當成門檻,那我們就過濾掉
它的強度低於平均值的所有的聯想,OK,或者是 如果當我們認為這張圖還是用平均值留下太多
可能有一些沒有意義的,你可以拉高這個,比如說用平均值加一個標準差,
那如果你覺得這個太高,你就用平均值減掉一個標準差來當成門檻,你就留下你認為
具代表性的這些品牌聯想。
好,那我們接下來 就來用一個例子來說明剛剛講的詞頻
TF 或 TF×IDF 或 TF×ICF
的 計算,所以我們假設在我們的範例裏頭呢
我們總共有1000篇的產品評論, 然後是評論了10個品牌。
OK,好,然後那我們更進一步假設有某一個聯想 ti
那對於目標品牌 bj
相關的評論中它總共出現了50次,所以也就是它的詞頻
跟這個目標品牌 bj 的詞頻是50。
那 ti 總共出現在3個品牌中
的600篇評論,那我想大家看投影片,你就把這些數字比較清楚的記下來。
所以我們剛剛說在前一個階段,我們要去透過這個權重的衡量來進行
過濾,如果我們權重的衡量選擇的是詞頻,叫做 TF term
frequency 的話,也就是說剛剛講的這個聯想
ti 在目標品牌 bj 它總共出現50次,所以用詞頻的衡量,它就是50。
但是如果用 TF×IDF 的衡量,那我先很快跟 大家解釋什麽叫
IDF,那 IDF 它是一個 inverse document frequency
那它主要想要強度的概念就是說 如果有一個字在大部分文章都出現,其實這個字的
重要性不高,因為它太普及了,它就有可能就像我們常用的
你們,我們,他們,類似這樣在一些的描述裏頭,OK,然後那如果有一個字
它出現在比較少的文章中,它的特定性有可能就比較大,也就是它的 重要性就比較高,所以
TF×IDF 同時考慮了剛剛講的詞頻 以及這個字的一般性或特殊性,OK,好,然後呢
我們形成了一個,所以當這個值比較高,它應該是詞頻
可能比較高,同時它的特殊性是比較大的一個字,那用剛剛這個例子來講就說 ti
這個聯想出現了50次,然後它在1000篇
所有評論裏頭出現在600篇裏頭,所以它的 IDF 就是
log 以2為底,1000除以600,對吧,那我們再乘上它的詞頻就會變成36.85。
OK,好,第三個衡量就說如果我們采用的是 TF×ICF,
這個概念就說我不把我們剛剛講的
一般性或特殊性衡量在文件的
層級,我們把它衡量在所謂的類別的層級,
那在我們現在談的品牌聯想中所謂的類別的層級,就是所謂的品牌的層級。
好,那大家可以再想想看就說如果有一個品牌聯想 出現在這個品牌相關的評論
都出現了,OK,可是它在其他的品牌都沒出現,你會不會覺得
這個字針對於這個品牌的特殊性是比較大的,所以它應該權重要被加大。
如果這個字出現在一些文章,而且橫跨了所有的品牌
那你會覺得這個字針對品牌而言來講它並沒有特殊性,所以它的權重應該 要被下降。
好,所以 TF×ICF,TF 就是詞頻,我們剛剛提到,
那 ICF 就說在所有以這個例子而言10個類別中,
這個字到底出現在幾個類別?那我們剛剛假設它是出現在三個品牌的 評論中,所以它的
ICF 就是 log 以2為底,10除以3,所以它評估出來是86.85。
所以你可以看,如果用 IDF,它的數值是36點多,可是用 ICF 它事實上是非常高的。
好,那所以我想到時候各位如果實質想要用 類似這樣的技術,你就要去評估針對你的
社群媒體,你用 TF 比較好,TF×IDF 比較好還是所謂的
TF×ICF 能夠達到比較好的聯想選擇,那這就完成了我們的
這個步驟,第三個步驟。