扩展 > UDF 和插件 > UDF | Manticore Search Manual

使用MySQL的FEDERATED引擎，您可以从MySQL/MariaDB连接到本地或远程的Manticore实例，并执行搜索查询。

实际的Manticore查询不能直接与FEDERATED引擎一起使用，而必须通过“代理”（作为字符串在列中发送）发送，因为FEDERATED引擎的限制以及Manticore实现自定义语法如MATCH子句。

要通过FEDERATED进行搜索，您首先需要创建一个FEDERATED引擎表。Manticore查询将包含在SELECT语句中执行的FEDERATED表的query列中。

创建一个FEDERATED兼容的MySQL表：

‹›

Example

Example

📋

CREATE TABLE t1
(
    id          INTEGER UNSIGNED NOT NULL,
    year        INTEGER NOT NULL,
    rating      FLOAT,
    query       VARCHAR(1024) NOT NULL,
    INDEX(query)
) ENGINE=FEDERATED
DEFAULT CHARSET=utf8
CONNECTION='mysql://FEDERATED@127.0.0.1:9306/DB/movies';

‹›

Response

Query OK, 0 rows affected (0.00 sec)

查询FEDERATED兼容表：

‹›

SQL

SQL

📋

SELECT * FROM t1 WHERE query='SELECT * FROM movies WHERE MATCH (\'pie\')';

‹›

Response

+----+------+--------+------------------------------------------+
| id | year | rating | query                                    |
+----+------+--------+------------------------------------------+
|  1 | 2019 |      5 | SELECT * FROM movies WHERE MATCH ('pie') |
+----+------+--------+------------------------------------------+
1 row in set (0.04 sec)

唯一的固定映射是query列。它是必需的，并且必须是唯一的一个与表关联的列。

通过FEDERATED链接的Manticore表必须是一个物理表（普通或实时）。

FEDERATED表的列名应与远程Manticore表属性相同，因为它们将绑定到Manticore结果集中的属性名称。然而，它可能只映射一些属性，而不是所有属性。

Manticore服务器通过用户名“FEDERATED”识别来自FEDERATED客户端的查询。CONNECTION字符串参数用于指定通过连接发送的查询的Manticore主机、SQL端口和表。CONNECTION字符串的语法如下：

CONNECTION="mysql://FEDERATED@HOST:PORT/DB/TABLENAME"

由于Manticore没有数据库的概念，DB字符串可以是随机的，因为它将被Manticore忽略，但MySQL要求CONNECTION字符串定义中有一个值。如示例所示，完整的SELECTSQL查询应放置在query列的WHERE子句中。

仅支持SELECT语句，不支持INSERT、REPLACE、UPDATE或DELETE。

一个非常重要的注意事项是，允许Manticore执行排序、过滤和切片结果集比在MySQL侧增加最大匹配数并使用WHERE、ORDER BY和LIMIT子句要高效得多。这是有两个原因。首先，Manticore实现了许多优化并在此类任务中表现优于MySQL。其次，Manticore需要传输的数据量更少，因此在Manticore和MySQL之间传输的数据量更少。

可以在FEDERATED表和其他MySQL表之间执行JOIN操作。这可以用于检索未存储在Manticore表中的信息。

‹›

SQL

SQL

📋

SELECT t1.id, t1.year, comments.comment FROM t1 JOIN comments ON t1.id=comments.post_id WHERE query='SELECT * FROM movies WHERE MATCH (\'pie\')';

‹›

Response

+----+------+--------------+
| id | year | comment      |
+----+------+--------------+
|  1 | 2019 | was not good |
+----+------+--------------+
1 row in set (0.00 sec)

UDF 和插件

Last modified: April 13, 2026

Manticore可以通过用户定义函数（简称UDF）进行扩展，如下所示：

SELECT id, attr1, myudf (attr2, attr3+attr4) ...

您可以在不重启服务器的情况下动态加载和卸载UDF到searchd中，并在搜索、排名等操作时使用它们。UDF的一些特点如下：

UDF可以接受整数（32位和64位）、浮点数、字符串、MVA或PACKEDFACTORS()参数。
UDF可以返回整数、浮点数或字符串值。
UDF可以在查询设置阶段检查参数数量、类型和名称，并在必要时抛出错误。

我们尚未支持聚合函数。换句话说，您的UDF将仅针对单个文档调用，并且期望为该文档返回某些值。编写一个可以计算整个具有相同GROUP BY键的文档组的聚合值（如AVG()）的函数目前是不可能的。但是，您可以在内置聚合函数中使用UDF：也就是说，即使MYCUSTOMAVG()尚未支持，AVG(MYCUSTOMFUNC())也应该可以正常工作！

UDF提供了广泛的应用场景，例如：

集成自定义数学或字符串函数；
从Manticore访问数据库或文件；
创建复杂的排名函数。

插件提供了扩展搜索功能的额外机会。它们当前可用于计算自定义排名和分词文档和查询。

以下是插件类型的完整列表：

UDF插件（本质上是UDF，但由于它们是插件，因此也被称为“UDF插件”）
排名插件
索引时分词过滤器插件
查询时分词过滤器插件

本节涵盖了编写和管理插件的一般过程；有关创建不同类型的插件的具体细节将在各自的子节中讨论。

那么，如何编写和使用插件？这里有一个快速的四步指南：

创建一个动态库（可能是.so或.dll），最有可能使用C或C++；
使用CREATE PLUGIN将插件加载到searchd中；
使用插件特定的调用（通常通过特定的OPTIONS）使用插件；
使用DROP PLUGIN卸载或使用RELOAD PLUGINS重新加载插件。

请注意，虽然UDF是一等插件，但它们使用单独的CREATE FUNCTION语句安装。这允许简洁地指定返回类型，而不牺牲向后兼容性或更改语法。

动态插件在多线程和thread_pool工作线程中受支持。一个库文件中可以包含多个插件（和/或UDF）。您可以选择将所有项目特定的插件放在一个大型库中，或者为每个UDF和插件创建单独的库；这取决于您。

与UDF一样，您应该包含src/sphinxudf.h头文件。至少，您需要SPH_UDF_VERSION常量来实现适当版本的函数。根据特定的插件类型，您可能或可能不需要将插件链接到src/sphinxudf.c。但是，sphinxudf.c中实现的所有函数都与PACKEDFACTORS()的解包有关，而没有任何插件类型可以访问这些数据。因此，目前仅链接头文件就足够了。（事实上，如果您复制了UDF版本号，您甚至不需要头文件来实现某些插件类型。）

形式上，插件是一组遵循特定命名模式的C函数。通常，您需要定义一个关键函数来执行主要任务，但也可以定义其他函数。例如，要实现一个名为“myrank”的排名器，您必须定义一个myrank_finalize()函数，该函数返回排名值。但是，您也可以定义myrank_init()、myrank_update()和myrank_deinit()函数。特定的已知后缀集和调用参数根据插件类型而异，但_init()和_deinit()是通用的，每个插件都有它们。提示：要快速参考已知的后缀及其参数类型，请参阅sphinxplugin.h，其中在文件开头定义了调用原型。

尽管公共接口是纯C定义的，但我们的插件实际上遵循一种面向对象模型。确实，每个_init()函数接收一个void ** userdata输出参数，然后将存储在(*userdata)中的指针值作为所有其他插件函数的第一个参数传递。因此，您可以将插件视为每次需要处理请求的对象的类实例化：userdata指针充当this指针；函数作为方法，而_init()和_deinit()函数分别作为构造函数和析构函数。

由于插件运行在多线程环境中，且某些插件需要维护状态，因此这种面向对象的C语言微小复杂性是因为您不能在插件中使用全局变量来存储状态，所以我们传递userdata参数，自然导致面向对象模型。如果您的插件简单且无状态，接口允许您省略_init()、_deinit()和其他任何函数。

总之，这里是一个最简单的完整排名器插件，仅用三行C代码实现：

// gcc -fPIC -shared -o myrank.so myrank.c
#include "sphinxudf.h"
int myrank_ver() { return SPH_UDF_VERSION; }
int myrank_finalize(void *u, int w) { return 123; }

这是如何使用简单的排名器插件：

mysql> CREATE PLUGIN myrank TYPE 'ranker' SONAME 'myrank.dll';
Query OK, 0 rows affected (0.00 sec)
mysql> SELECT id, weight() FROM test1 WHERE MATCH('test') OPTION ranker=myrank('');
+------+----------+
| id   | weight() |
+------+----------+
|    1 |      123 |
|    2 |      123 |
+------+----------+
2 rows in set (0.01 sec)

FEDERATED UDF

Last modified: August 28, 2025

UDF 存储在外部动态库中（UNIX 系统上为 .so 文件，Windows 系统上为 .dll 文件）。出于安全考虑，库文件必须放置在由 plugin_dir 指令指定的受信任文件夹中：保护单个文件夹比允许任何人向 searchd 安装任意代码要容易得多。您可以使用 CREATE FUNCTION 和 DROP FUNCTION SQL 语句动态加载和卸载 searchd 中的 UDF。此外，您还可以使用 RELOAD PLUGINS 语句无缝重新加载 UDF（及其他插件）。Manticore 会跟踪当前加载的函数；每次创建或删除 UDF 时，searchd 会将其状态更新到 sphinxql_state 文件中，作为纯 SQL 脚本。

UDF 是本地的。要在集群中使用它们，必须在所有节点上放置相同的库，并在每个节点上运行 CREATE 语句。此流程在未来版本中可能会有所变化。

一旦成功加载 UDF，您可以像使用任何内置函数一样在 SELECT 或其他语句中使用它：

SELECT id, MYCUSTOMFUNC (groupid, authorname), ... FROM myindex

多个 UDF（及其他插件）可以共存在同一个库中。该库只会被加载一次，并在其内所有 UDF 和插件都被删除后自动卸载。

理论上，您可以使用任何语言编写 UDF，只要其编译器能够导入标准 C 头文件并生成带有正确导出函数的标准动态库。然而，使用 C++ 或纯 C 是最少阻力的路径。我们提供了一个用纯 C 编写的示例 UDF 库，实现在多个函数中展示各种技术，源代码位于 src/udfexample.c。该示例包含头文件 src/sphinxudf.h，其中包含若干 UDF 相关结构和类型的定义。对于大多数 UDF 和插件，只需像示例中那样使用 #include "sphinxudf.h" 即可。然而，如果您编写排名函数且需要在 UDF 内访问排名信号（因素）数据，则还需要编译并链接 src/sphinxudf.c（可在我们的源码中获得），因为允许您从 UDF 内访问信号数据的函数实现位于该文件。

sphinxudf.h 头文件和 sphinxudf.c 是独立的，因此您可以单独复制这些文件；它们不依赖 Manticore 源码的其他部分。

在您的 UDF 中，您必须只实现并导出几个函数。首先，为了 UDF 接口版本控制，您必须定义一个函数 int LIBRARYNAME_ver()，其中 LIBRARYNAME 是您库文件的名字，并且此函数必须返回 SPH_UDF_VERSION（定义在 sphinxudf.h 中）。示例如下。

#include <sphinxudf.h>
// our library will be called udfexample.so, thus, so it must define
// a version function named udfexample_ver()
int udfexample_ver()
{
    return SPH_UDF_VERSION;
}

此预防措施可避免您意外加载与 searchd 的 UDF 接口版本不匹配的库。不论是较新还是较旧版本。其次，您必须实现实际的函数。

sphinx_int64_t testfunc ( SPH_UDF_INIT * init, SPH_UDF_ARGS * args, char * error_flag )
{
    return 123;
}

SQL 中的 UDF 函数名不区分大小写。但对应的 C 函数名区分大小写；它们必须全部为小写，否则 UDF 将无法加载。更重要的是，以下几点至关重要：

调用约定必须是 C（即 __cdecl），
参数列表必须完全符合插件系统的期望，
返回类型必须与您在 CREATE FUNCTION 中指定的类型匹配。

不幸的是，我们无法（轻松地）在加载函数时检查这些错误，它们可能会导致服务器崩溃和/或产生意外结果。最后但同样重要的是，您实现的所有 C 函数都必须是线程安全的。

第一个参数，是指向 SPH_UDF_INIT 结构的指针，本质上是指向我们的函数状态的指针。它是可选的。就如上面示例中，该函数无状态，每次调用都返回 123。因此我们不需要定义初始化函数，可以忽略该参数。此参数还有另一个目的。由于单个查询可以在多个线程上执行（参见 pseudo-sharding），守护进程会通过检查此参数来判断一个 UDF 是有状态还是无状态。如果该参数被初始化，平行执行将被禁用。因此，如果您的 UDF 是有状态的但未使用此参数，则它将由多个线程调用，您的代码需要对此有所意识。

第二个参数，是指向 SPH_UDF_ARGS 结构的指针，是最重要的参数。所有实际调用参数都通过此结构传递；它包含调用参数的数量、名称、类型等信息。所以无论函数是以 SELECT id, testfunc(1) 还是 SELECT id, testfunc('abc', 1000*id+gid, WEIGHT()) 或其他语句调用，它接收到的都是同一个 SPH_UDF_ARGS 结构。但 args 结构中传递的数据会不同。在第一个例子中，args->arg_count 被设置为 1；在第二个例子中被设置为 3，args->arg_types 数组会包含不同的类型数据，依此类推。

最后，第三个参数是错误标志。UDF 可设置此标志以表明发生某种内部错误，UDF 无法继续执行，查询应提前终止。您不应该用此标志进行参数类型检查或用于任何可能在正常使用中发生的错误报告。该标志设计用于报告突然的严重运行时错误，例如内存耗尽。

如果我们想为函数分配临时存储区或预先检查参数是否为支持的类型，则需要添加两个额外函数，分别用于 UDF 初始化和反初始化。

int testfunc_init ( SPH_UDF_INIT * init, SPH_UDF_ARGS * args,
    char * error_message )
{
    // allocate and initialize a little bit of temporary storage
    init->func_data = malloc ( sizeof(int) );
    *(int*)init->func_data = 123;
    // return a success code
    return 0;
}
void testfunc_deinit ( SPH_UDF_INIT * init )
{
    // free up our temporary storage
    free ( init->func_data );
}

注意 testfunc_init() 也接收调用参数结构。在调用时，它不会接收任何实际值，因此 args->arg_values 将为 NULL。但是，参数名称和类型是已知的，并会被传递。你可以在初始化函数中检查它们，如果它们是不支持的类型，则返回错误。

UDFs 可以接收几乎任何有效的内部 Manticore 类型的参数。参见 sphinx_udf_argtype 枚举在 sphinxudf.h 中的完整列表。大多数类型都直接映射到相应的 C 类型。

最值得注意的类型是 SPH_UDF_TYPE_FACTORS 参数类型。当你用 [PACKEDFACTOR()](../../Functions/Searching_and_ranking_functions#PACKEDFACTORS()) 参数调用 UDF 时，你会得到这种类型。它的数据是以某种内部格式的二进制数据块，要从中提取单独的排名信号，你需要使用 sphinx_factors_XXX() 或 sphinx_get_YYY_factor() 家族中的任何一个函数。

这个家族由 3 个函数组成。

sphinx_factors_init() 初始化未打包的 SPH_UDF_FACTORS 结构
sphinx_factors_unpack() 将二进制数据块解包到 SPH_UDF_FACTORS 结构
sphinx_factors_deinit() 清理并释放 SPH_UDF_FACTORS。

首先，你需要调用 init() 和 unpack()，然后你可以使用 SPH_UDF_FACTORS 字段，最后，你需要调用 deinit() 进行清理。

这种方法简单但可能会导致每个处理文档都产生大量内存分配，这可能会很慢。

另一种接口，由多个 sphinx_get_YYY_factor() 函数组成，使用起来稍微繁琐一些，但它直接访问数据块，并保证不会进行分配。为了获得顶级排名 UDF 的最佳性能，你将希望使用这种方法。

至于返回类型，UDFs 目前可以返回单个 INTEGER、BIGINT、FLOAT 或 STRING 值。C 函数返回类型应分别为 sphinx_int64_t、sphinx_int64_t、double 或 char*。在最后一种情况下，你必须使用 args->fn_malloc 函数为返回的字符串值分配空间。在你的 UDF 内部，你可以使用任何你想要的，因此上面的 testfunc_init() 示例是正确的代码，即使它直接使用了 malloc()：你自行管理那个指针，它会在匹配的 free() 调用中被释放，一切都很顺利。但是，返回的字符串值由 Manticore 管理，我们有自己的分配器，因此对于返回值，你需要使用它。

根据你的 UDF 在查询中的使用方式，主要函数调用（例如我们示例中的 testfunc()）可能会以不同的数量和顺序被调用。具体来说，

在 WHERE、ORDER BY 或 GROUP BY 子句中引用的 UDF 必须并且会被为每个匹配的文档评估。它们将以自然匹配顺序被调用。
没有子查询时，可以在最终结果集的最后一个阶段评估 UDF，但在应用 LIMIT 子句之前。它们将以结果集顺序被调用。
有子查询时，这样的 UDF 也会在应用内部的 LIMIT 子句之后进行评估。

其他函数的调用顺序是固定的。具体来说，

testfunc_init() 在初始化查询时被调用一次。它可以返回非零代码以指示失败；在这种情况下，查询将终止，并返回 error_message 缓冲区中的错误消息。
testfunc() 为每个符合条件的行（见上文）被调用，每当 Manticore 需要计算 UDF 值时。它也可以通过将非零字节值写入 error_flag 来指示（内部）失败错误。在这种情况下，它将不会被调用后续行，并将使用默认返回值 0。Manticore 可能或可能不会选择提前终止此类查询；目前没有保证这种行为。
testfunc_deinit() 在查询处理（在给定表分片中）结束时被调用一次。

UDF 和插件出插件

Last modified: August 28, 2025

SHOW PLUGINS

显示所有加载的插件（不包括Buddy插件，详见下方）和UDFs。"Type"列应为udf、ranker、index_token_filter或query_token_filter之一。"Users"列是当前在查询中使用该插件的线程数。"Extra"列用于各种附加的插件类型特定信息；目前，它显示UDFs的返回类型，其他所有插件类型为空。

‹›

Example

Example

📋

SHOW PLUGINS;

‹›

Response

+------+----------+----------------+-------+-------+
| Type | Name     | Library        | Users | Extra |
+------+----------+----------------+-------+-------+
| udf  | sequence | udfexample.dll | 0     | INT   |
+------+----------+----------------+-------+-------+
1 row in set (0.00 sec)

SHOW BUDDY PLUGINS

注意：SHOW BUDDY PLUGINS需要Manticore Buddy。如果不起作用，请确保已安装Buddy。

这将显示所有可用的插件，包括核心和本地插件。要移除一个插件，请使用Package列中列出的名称。

‹›

Example

Example

📋

SHOW BUDDY PLUGINS;

‹›

Response

+------------------------------------------------+-----------------+---------+------+----------------------------------------------------------------------------------------------------------------------------------------------------------+
| Package                                        | Plugin          | Version | Type | Info                                                                                                                                                     |
+------------------------------------------------+-----------------+---------+------+----------------------------------------------------------------------------------------------------------------------------------------------------------+
| manticoresoftware/buddy-plugin-empty-string    | empty-string    | 2.1.5   | core | Handles empty queries, which can occur when trimming comments or dealing with specific SQL protocol instructions in comments that are not supported      |
| manticoresoftware/buddy-plugin-backup          | backup          | 2.1.5   | core | BACKUP sql statement                                                                                                                                     |
| manticoresoftware/buddy-plugin-emulate-elastic | emulate-elastic | 2.1.5   | core | Emulates some Elastic queries and generates responses as if they were made by ES                                                                         |
| manticoresoftware/buddy-plugin-insert          | insert          | 2.1.5   | core | Auto schema support. When an insert operation is performed and the table does not exist, it creates it with data types auto-detection                    |
| manticoresoftware/buddy-plugin-alias           | alias           | 2.1.5   | core |                                                                                                                                                          |
| manticoresoftware/buddy-plugin-select          | select          | 2.1.5   | core | Various SELECTs handlers needed for mysqldump and other software support, mostly aiming to work similarly to MySQL                                       |
| manticoresoftware/buddy-plugin-show            | show            | 2.1.5   | core | Various "show" queries handlers, for example, `show queries`, `show fields`, `show full tables`, etc                                                     |
| manticoresoftware/buddy-plugin-cli-table       | cli-table       | 2.1.5   | core | /cli endpoint based on /cli_json - outputs query result as a table                                                                                       |
| manticoresoftware/buddy-plugin-plugin          | plugin          | 2.1.5   | core | Core logic for plugin support and helpers. Also handles `create buddy plugin`, `delete buddy plugin`, and `show buddy plugins`                           |
| manticoresoftware/buddy-plugin-test            | test            | 2.1.5   | core | Test plugin, used exclusively for tests                                                                                                                  |
| manticoresoftware/buddy-plugin-insert-mva      | insert-mva      | 2.1.5   | core | Manages the restoration of MVA fields with mysqldump                                                                                                     |
| manticoresoftware/buddy-plugin-modify-table    | modify-table    | 2.1.5   | core | Assists in standardizing options in create and alter table statements to show option=1 for integers. Also manages the logic for creating sharded tables. |
| manticoresoftware/buddy-plugin-knn             | knn             | 2.1.5   | core | Enables KNN by document id                                                                                                                               |
| manticoresoftware/buddy-plugin-replace         | replace         | 2.1.5   | core | Enables partial replaces                                                                                                                                 |
+------------------------------------------------+-----------------+---------+------+----------------------------------------------------------------------------------------------------------------------------------------------------------+-----+

UDF UDF

Last modified: August 28, 2025

FEDERATED

使用FEDERATED

FEDERATED提示

查询以JOIN MySQL基于表与由Manticore提供的FEDERATED表：

UDFs和插件

插件

UDF

SPH_UDF_ARGS 类型

sphinx_factors_XXX() 函数

sphinx_get_YYY_factor() 函数

UDF 的返回类型

列出插件

SHOW PLUGINS

SHOW BUDDY PLUGINS