中文、日文、韩文和泰语语言

Manticore 提供了对使用连续书写的语言(即不使用单词或句子之间分隔符的语言)进行索引的内置支持。这允许您以两种不同的方式处理这些语言的文字:

  1. 使用 ICU 库进行精确分词。目前仅支持中文。
‹›
  • SQL
  • JSON
  • PHP
  • Python
  • Python-asyncio
  • Javascript
  • Java
  • C#
  • Rust
  • CONFIG
📋
CREATE TABLE products(title text, price float) charset_table = 'cont' morphology = 'icu_chinese'
  1. 使用 Jieba 库进行精确分词。与 ICU 类似,它目前仅支持中文。
‹›
  • SQL
  • JSON
  • PHP
  • Python
  • Python-asyncio
  • Javascript
  • Java
  • C#
  • Rust
  • CONFIG
📋
CREATE TABLE products(title text, price float) charset_table = 'cont' morphology = 'jieba_chinese'
  1. 使用 N-gram 选项 ngram_lenngram_chars 进行基本支持。 对于每种使用连续书写的语言,都有单独的字符集表(chinesekoreanjapanesethai),可以使用。或者,您可以使用通用的 cont 字符集表同时支持所有 CJK 和泰语语言,或者使用 cjk 字符集仅包括所有 CJK 语言。
‹›
  • SQL
  • JSON
  • PHP
  • Python
  • Python-asyncio
  • javascript
  • Java
  • C#
  • Rust
  • CONFIG
📋
CREATE TABLE products(title text, price float) charset_table = 'non_cont' ngram_len = '1' ngram_chars = 'cont'
/* Or, alternatively */
CREATE TABLE products(title text, price float) charset_table = 'non_cont' ngram_len = '1' ngram_chars = 'cjk,thai'

此外,还提供了对中文 停用词 的内置支持,别名 zh

‹›
  • SQL
  • JSON
  • PHP
  • Python
  • Python-asyncio
  • javascript
  • Java
  • C#
  • Rust
  • CONFIG
📋
CREATE TABLE products(title text, price float) charset_table = 'chinese' morphology = 'icu_chinese' stopwords = 'zh'
Last modified: August 28, 2025