• <noscript id="ecgc0"><kbd id="ecgc0"></kbd></noscript>
    <menu id="ecgc0"></menu>
  • <tt id="ecgc0"></tt>

    如何用python進行中文分詞

    用python中的第三方庫jieba實現對一段中文進行分詞。

    東西/原料

    • python 3.8.2(其他版本也可以)
    • pycharm 2020.01(其他版本也可以)

    方式/步調

    1. 1

      在本次教程中,我們采用pycharm進行編程。起首領會一下jieba庫,jieba庫是優異的中文分詞第三方庫。

      jeiba庫分詞的道理:jieba分詞依靠中文詞庫,操縱一個中文詞庫,確定中文字符之間的聯系關系概率,中文字符間概率大的構成詞組,形當作分詞成果。

    2. 2

      安裝jieba庫:

      在桌面摁下“win”+“r”,輸入cmd,接著輸入“pip install jieba”,期待號令交運行完當作,當呈現“successful”就申明jieba庫已經安裝當作功了。

    3. 3

      jieba庫有三種分詞模式,切確模式、全模式、搜刮引擎模式。

      切確模式:把文本切確地且分隔,不存在冗余單詞。

      全模式:把文本中所有可能的詞語都掃描出來,詞與詞之間存在反復部門,有冗余。

      搜刮引擎模式:在切確模式根本上,對長詞再次切分。

    4. 4

      jieba庫常用函數:

      1、jieba.lcut(s) 切確模式,返回一個列表類型的分詞成果

      2、jieba.lcut(s, cut_all=True) 全模式,返回一個列表類型的分詞成果,有冗余

      3、jeiba.lcut_for_search(s) 搜刮引擎模式,返回一個列表類型的分詞成果,存在冗余

      (其他函數操作可以參照官方文檔)

    5. 5

      打開pycharm,點擊左上角“File”-“New Project”新建一個項目(圖1),選擇肆意目次,選擇python 3.8詮釋器,點擊“cerate”,在project處右鍵點擊“New”-“Python File”,肆意取一個名字回車

    6. 6

      在新建的py文件中輸入:


      import jieba
      txt = "把文本切確地分隔,不存在冗余單詞"
      # 切確模式
      words_lcut = jieba.lcut(txt)
      print(words_lcut)
      # 全模式
      words_lcut_all = jieba.lcut(txt, cut_all=True)
      print(words_lcut_all)
      # 搜刮引擎模式
      words_lcut_search = jieba.lcut_for_search(txt)
      print(words_lcut_search)


      代碼即可實現對字符串txt的分詞

      END

    注重事項

    • 文章利用pycharm進行編程,也可以利用IDLE進行編程。
    • jieba庫在安裝時,若頻仍呈現timeout,可以過段時候再試,或者運行 pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple/ 利用清華源進行安裝
    • 官網文檔請在pypi搜刮jieba
    • 發表于 2020-04-24 19:00
    • 閱讀 ( 2340 )
    • 分類:其他類型

    你可能感興趣的文章

    相關問題

    0 條評論

    請先 登錄 后評論
    聯系我們:uytrv@hotmail.com 問答工具
  • <noscript id="ecgc0"><kbd id="ecgc0"></kbd></noscript>
    <menu id="ecgc0"></menu>
  • <tt id="ecgc0"></tt>
    久久久久精品国产麻豆