中文、日文和韩文(CJK)及泰语

Manticore 提供对连续书写语言(即不在单词或句子之间使用空格或其他标记的语言)的内置支持。这允许您以两种不同的方式处理这些语言的文本:

  1. 使用 ICU 库进行精确分词。目前仅支持中文。
‹›
  • SQL
  • JSON
  • PHP
  • Python
  • Python-asyncio
  • Javascript
  • Java
  • C#
  • Rust
  • CONFIG
📋
CREATE TABLE products(title text, price float) charset_table = 'cont' morphology = 'icu_chinese'
  1. 使用 Jieba 库进行精确分词。与 ICU 类似,目前仅支持中文。
‹›
  • SQL
  • JSON
  • PHP
  • Python
  • Python-asyncio
  • Javascript
  • Java
  • C#
  • Rust
  • CONFIG
📋
CREATE TABLE products(title text, price float) charset_table = 'cont' morphology = 'jieba_chinese'
  1. 使用 N-gram 选项 ngram_lenngram_chars 进行基础支持 对于每种使用连续书写的语言,都有单独的字符集表(chinesekoreanjapanesethai)可供使用。或者,您可以使用通用的 cont 字符集表来同时支持所有 CJK 和泰语,或者使用 cjk 字符集仅包含所有 CJK 语言。
‹›
  • SQL
  • JSON
  • PHP
  • Python
  • Python-asyncio
  • javascript
  • Java
  • C#
  • Rust
  • CONFIG
📋
CREATE TABLE products(title text, price float) charset_table = 'non_cont' ngram_len = '1' ngram_chars = 'cont'
/* Or, alternatively */
CREATE TABLE products(title text, price float) charset_table = 'non_cont' ngram_len = '1' ngram_chars = 'cjk,thai'

此外,内置支持中文停用词,别名为 zh

‹›
  • SQL
  • JSON
  • PHP
  • Python
  • Python-asyncio
  • javascript
  • Java
  • C#
  • Rust
  • CONFIG
📋
CREATE TABLE products(title text, price float) charset_table = 'chinese' morphology = 'icu_chinese' stopwords = 'zh'
Last modified: August 28, 2025