国产激情自拍亚洲精品国产精品精_亚洲欧美在线观看视频_国产精品美女久久久久网站_a毛片免费全部在线播放**_精品欧美一区二区在线观看欧美熟_成人久久网国产精品五月天||www.citydiscovery.com.cn,国产裸体美女永久免费无遮挡,国产女人水真多18毛片18精品,国产女人18毛片水真多1,国产农村妇女精品一二区,国产女人18毛片水真多18精品,国产农村妇女毛片精品久久||www.09033.cn ,日韩高清码中文字幕日韩_国产一区二区三区久久精品_在线高清亚洲精品二区_亚洲精品伊人yw尤物狠狠色||www.njsa.cn ,日本在线中文字幕第一视频,亚洲v国产v天堂a无码久久,一本久久a久久精品综合香蕉,无码专区6080yy国产电影,国产一级a毛一级a看免费人娇||www.yuvv.com.cn

您當(dāng)前的位置主頁 > SEO優(yōu)化 > 瀏覽文章

Python無監(jiān)督抽詞

來源:SEO優(yōu)化 2012-10-13

快速提升網(wǎng)站銷量,使用365webcall網(wǎng)站客服系統(tǒng)

如何快速正確分詞,對于SEO來說,是提取tags聚合,信息關(guān)聯(lián)的好幫手。

目前很多分詞工具都是基于一元的分詞法,需要詞庫來輔助。

通過對Google黑板報第一章的學(xué)習(xí),如何利用統(tǒng)計模型進(jìn)行分詞。

本方法考慮了3個維度:

凝聚程度:兩個字連續(xù)出現(xiàn)的概率并不是各自獨(dú)立的程度。例如“上”出現(xiàn)的概率是1×10^-5,”床”出現(xiàn)的概率是1×10^-10,如果這兩個字的凝聚程度低,則”上床”出現(xiàn)的概率應(yīng)該和1×10^-15接近,但是事實(shí)上”上床”出現(xiàn)的概率在1×10^-11次方,遠(yuǎn)高于各自獨(dú)立概率之積。所以我們可以認(rèn)為“上床”是一個詞。

左鄰字聚合熵:分出的詞左邊一個字的信息量,比如”巴掌”,基本只能用于”打巴掌”,“一巴掌”,“拍巴掌”,反之”過去”這個詞,前面可以用“走過去”,“跑過去”,“爬過去”,“打過去”,“混過去”,“睡過去”,“死過去”,“飛過去”等等,信息熵就非常高。

右鄰字聚合熵:分出的詞右邊一個詞的信息量,同上。

下面是一個利用Python實(shí)現(xiàn)的demo(轉(zhuǎn)自:/?p=682

收藏本文

文章編輯: 365webcall在線客服系統(tǒng)(www.365webcall.com)

我的評論

登錄賬號: 密碼: 快速注冊 | 找回密碼

伊宁县| 阿城市| 乐陵市| 巴楚县| 靖远县| 平顶山市| 五河县| 景德镇市| 德兴市| 肃北| 松溪县| 敦化市| 房山区| 交城县| 双鸭山市| 永清县| 达州市| 鹰潭市| 江孜县| 龙岩市| 黄龙县| 连州市| 元氏县| 南澳县| 元谋县| 富民县| 孝昌县| 灵宝市| 民乐县| 敦化市| 尼木县| 阜康市| 公安县| 洛浦县| 额尔古纳市| 兴和县| 满洲里市| 瓦房店市| 桓台县| 波密县| 静乐县|