博舍

智能问答系统一些思考——四类方法 人工智能问答系统的结构有哪三步

智能问答系统一些思考——四类方法

智能问答系统是现代信息技术系统不可或缺的一个部分,然因问答系统的复杂性,智能问答系统一直未能取得很好的作用。本文将尝试从问答系统的四个方向做概要性总结。问答系统目前实现的方式主要包括:

1)知识图谱问答:基于语义的方法、基于答案排序的方法

2)表格问答:表格检索、答案生成

3)文本问答:答案句子选择、答案生成

4)社区问答:问题匹配、问题改写、问题自动生成

基于语义的知识图谱问答

思路是,A.通过对问题的转化为机器能理解之行的语义表示,B.使用该语义表示作为结构化查询语句查询知识图谱,将查询得到的实体结合作为答案返回。

语义表示:

A.一阶谓语逻辑:一阶谓词逻辑只允许限量词(正则表示)应用在对象,高阶谓词逻辑允许将限量词用在谓词和函数

B.lambda-算子:陈述句的语义可以采用一阶谓词逻辑表示,问句的语义则常采用lambda-算子形式

C.lambda-DCS:一阶谓语逻辑和lambda-算子为考虑知识图谱特性,lambda-DCS考虑知识图谱特性(忽略了全部未知变量)

基于语义分析的方法:1、基于文法的语义分析方法

A.从带有语义表示的标注数据中抽取符合特定文法的语义分析规则集合。每条规则至少包含自然语言和语义表示两部分

B.采用基于动态规划的解析算法(CYK、Shift-Reduce)产生句子对应语义表示候选集

C.基于标注数据训练排序模型,对不同语义表示候选进行打分,返回得分最高语义表示候选作为结果

基于神经网络的语义分析方法:

采用类似机器翻译的,序列到序列的生成模型(从自然语言到语义表示转化)

基于答案排序的方法

给定输入问题Q和知识图谱KB,通过对KB中实体进行打分和排序,选择得分最高的实体或实体集合作为答案输出。

A.问题实体识别,对问题Q中提到的实体识别

B.答案候选检索,根据识别出的问题实体,从知识图谱中查找与之满足特点约束条件的知识库实体集合,作为候选答案

C.答案候选表示,每个答案无法直接与问题比较,基于答案候选所在知识图谱上下文生成对应向量表示,问题和答案相关度计算转为问题向量和候选向量计算。

D.答案候选排序,使用排序模型对不同答案候选打分排序,返回得分最高的答案候选集作为输出结果

基于特征的答案排序——答案实体识别后,根据问题实体在知识图谱中位置,抽取与之通过不超过两个谓词连接的实体作为答案候选集合,然后使用一个特征向量表示每个候选答案(疑问词特征、问题实体特征、问题类型、问题动词、上下文、谓词特征)

基于问题生成的大啊排序——问题实体识别和答案候选检索后,采用文本生成技术为每一个答案生成一个自然语言问题,作为该答案候选对应的表示,计算输入问题和每个答案候选对应生成问题相似度,对答案打分排序。

基于子图匹配的答案排序——每个答案候选从知识库中抽取一个子图,通过计算输入问题和每个答案候选对应子图之间的相似度,对答案候选集合进行打分和排序。

表格问答

表格检索:

A.表格全集的数目相对有限,可以将每个表格的结构打散并将内容顺序连接构成一个“文档”,然后基于现有文本检索技术找到与输入问题Q最相关的表格子集T。

B.表格全集很大,需要借助现有搜索引擎找到与问题最相关的结构网页集合,抽取该结果网页集合中包含的全部表格作为表格子集

答案生成:

A.基于答案排序的方法,通过对不同表格单元进行打分和排序,选择得分最高表格单元集合作为答案

B.基于语义分析方法,基于表格T生成问题Q对应的语义表示,然后以该语义表示作为结构话查询语句,通过在T上执行得到Q对应答案

C.基于神经网络,训练端到端的神经网络模型,直接生成问题对应的答案

文本问答

问题处理模块:对输入的自然语言问题进行基本自然语言处理操作(分词、命名实体识别、词性标注依存树分析)并输出一系列特定问题语义标签(问题类型、问题关键词、答案类型等)。问题类型——事实类、是非类、定义类、列表类、比较类、意见类、指导类;问题关键词涉及问题实体和对答案限制条件;答案类型——人物、时间、地点等。

文本检索模块:从海量文本集合中检索出与输入问题最相关的文本候选

答案生成模块:从检索回来的文本候选中抽取或生成答案,给定问题Q和答案D,从D中找到对应的答案A。答案A可以是D中的句子,也可以是D中的单词或短语,还可以是基于D推理出的内容。可以分为答案句子选择和阅读理解,答案句子选择是从候选文本D中选取其中一个句子S作为答案,阅读理解,从文本中选择特定问题片段作为问题答案。

社区问答

问题-问题匹配:计算输入问题Q与D中某个已有问题Q之间的语义相似度。

问题-答案匹配:计算输入问题Q和D中某个历史答案A之间的问答相关度。

问题改写:输入问题生成语义相同但表述方式不同的复述形式。 

问答系统学习综述

目录

 

研究意义

QA系统发展历程

QA系统分类

QA系统的处理框架

基于FAQ的问答系统

1、候选问题集的建立

2、问句匹配度相似度计算

3、问题答案集合更新

基于大规模文档集的问答系统

1、问题分析模块

2、检索模块

3、答案抽取模块

 

 

研究意义

搜索引擎系统:1、检索需求的表达不够准确:用户的检索需求往往是非常复杂而特殊的无法以几个关键字的简单逻辑组合来表达用户的检所需求。2、检索结果不够简洁:返回结果太多导致用户很难快速准确地定位到所需信息。3、缺乏语义处理技术的支撑:传统信息检索以关键词为基础的索引、匹配算法尽管简单易行,但毕竟停留在语言的表层而没有触及语义,使得检索效果一般。

问答式信息检索是一种允许用户以自然语言方式询问,系统从单语或多语文档集中查找并返回确切答案或者蕴含答案文本片断的新型信息检索的方式。问答系统允许用户以自然语言的形式查询信息,例如:世界上最大的宫殿是什么宫殿?系统则直接提供用户准确、简洁的答案,例如:紫禁城/故宫。问答系统能够提供用户真正的有用、精确的信息,它将是下一代的搜索引擎的理想选择。

基于自然语言处理技术的问答系统是传统搜索引擎改进的方向之一,自然语言问答系统本身处理的输入就是以自然语言形式表达的问句,通过提取问句中的查询新息,然后解析出用户的查询意图,再根据查询意图从文档中精准定位答案所在,将自然语言形式的答案抽取出来返回给用户,而不仅仅是将问题的答案文档分布返回给用户,这无论是从精确程度还是满足用户的检索需求上都是很大的进步。

智能问答系统涉及的领域很广,其中主要关键技术有知识的抽取和表示,用户问句的语义理解和通过知识推理得到答案。这些领域都需要进行深入研究我们才会得到更好的智能问答系统。而无论我们在任一领域取得重大的突破,不仅仅对于智能问答系统,而且对于其它领域,包括文本分类、推荐系统等都会有相当大的促进作用。

QA系统发展历程

1950年,英国数学家A.M.Turing在其论文《ComputingMachineryandIntelligence》中提到测试机器是否具有智能的问题:“机器能思考吗?”,并提出了判定机器能否思考的方法——图灵测试。其方案为:由测试人A与另一房间中的两个对象B和C对话,E和=中有一个是人,另一个是计算机。如果经过一段时间的对话之后,A不能断定B和C中谁是人,谁是计算机,则认为计算机已经具备了人的智能。图灵测试可以看作是QA系统的蓝图。

早期的两个比较著名的QA系统:BASEBALL(1961年)和LUNAR(1973年)。BASEBALL可用来回答美国一个季度棒球比赛的时间地点成绩等自然语言问题。LUNAR可帮助地质学家方便的了解、比较和苹果股阿波罗登月计划积累的月球突然和岩石的各种化学分析数据。它们的后台有一个数据库,保存系统可提供的各种数据。而在用户提问时,系统把用户的问题转换成SQL查询语句,从数据库中查询到数据提供给用户。

一般认为,第一个QA系统是JasephWeizenbaum在1966年实现”Eliza”。Eliza扮演一个心理学专家的角色,它采用启发式的心理疗法,通过反问来应对精神病人的提问,诱导病人不停地说话,从而达到对病人进行心理治疗的目的。Eliza用的是模式及关键字匹配和置换的方法,没有发展成一套系统的技术。

可进行对话的系统有TerryWinograd在1971年用MACLICP语言开发的SHRDLU(积木游戏)和Bobrow等在1977年前后开发的GUS(旅行信息咨询)。

20世纪70年代,出现了阅读理解系统:耶鲁大学人工智能实验室开发的SAM,SAM的能力限制于必须要有脚本来描述对问题的回答。但脚本不存在时或者尚未准备好时,系统将无法工作。

20世纪90年代,问答系统的研究和开发热点转向基于大规模文档集的问答(TREC于1999年开始了QA技术的评测;2000年10月,ACL以“开放域问答系统”为专题)。研究领域也从初期的限定领域拓展到开放领域,研究对象从当初的固定语料库拓展到互联网,真正的面向Web开放域的QA系统的正确率和精确性都不高,还不能提供良好的商业服务。

Start是世界上第一个基于Web的QA系统,自从1993年12月开始,它持续在线运行至今。现在Start能够回答数百万的多类英语问题,包括“place”类(城市,国家,湖泊,天气,地图,人口统计学,政治和经济等),电影类(片名,演员和导演等),人物类(出生日期,传记等),词典定义类等。

国外目前比较成功的QA系统有START、Watson(IBM)、Siri(iPhone)、MicrosoftCortana…

国内的众多企业和研究团体也推出了很多QA系统,例如微软小冰、小度机器人(百度)、知乎(社区问答平台)……由于中文的特殊性,比如说没有英文天然的分词等,研究起来困难也比较多;相比TREC评测,缺乏一个相对成熟的汉语QA系统评测平台。

QA系统分类

限定域问答系统是指系统所能处理的问题只限定于某个领域或者某个内容范围,比如只限定于医学、化学或者某企业的业务领域等。开放域问答系统不同于限定域问答系统,这类系统可回答的问题不限定于某个特定领域。在回答开放领域的问题时,需要一定的常识知识或者世界知识并具有语义词典,如英文的WordNet在许多英文开放域问答系统中都会使用。FAQ基于常见问题集的问答系统。FAQ自动问答系统把用户常问的问题和相关答案保存起来,使得用户使用系统更加便捷。当用户输入问题时,如果在已有的“问题—答案”对集合中能找到与之相匹配的问句,系统就直接把相应的答案输出给用户,而不需要经过问题理解、信息检索、答案抽取等复杂的处理过程。

结构化文本:按照一定格式严格生成(数据库、票据);自由文本:无格式,文字合乎自然语法规则(新闻报道、科技文献);半结构化文本:介于前两者之间,这类文本有一定格式约束、不完全符合自然语言法则,但又按自然语法组织语言(电报、公告)。

在检索模型中,系统会根据所给的问题从Question-Answer数据库中找寻与该问题语义最相近的问句,然后返回该问句对应的答案,该方法的主要问题有两个:第一个是数据库中Question-Answer对数量有限,有可能检索不到用户提出的问题的答案。第二个问题是Question-Answer对是固定的,可能无法根据用户提出的问题得到完全对应的答案。在生成模型中,对话系统会首先理解用户提出的问题,然后逐字的生成对应于该问题的答案。目前主流的方法是深度学习中Seq2Seq模型,该模型先用encoder端将问句编码为一个向量表示,再由decoder端将该向量表示解码为一个回复,该模型的主要问题是有可能生成的答案很容易是通用的、单调的回复(例如:“我不知道”、“好的”等),这样的回复包含的信息较少,没有实质性的意义。

QA系统的处理框架

不同类型的问答系统对于数据处理的方法存在不同。例如,相对于面向FAQ的问答系统的问句检索直接得到候选答案,面向开放领域的问答系统首先需要根据问题分析的结果进行相关文档、文本片段信息的检索,然后进行候选答案的抽取。虽然不同类型的问答系统对于系统模块的功能分工和具体实现存在差异,但依据数据流在问答系统中的处理流程,一般问答系统的处理框架中都包括问句理解、信息检索、答案生成三个功能组成部分。

对应问答系统的处理流程,问答系统研究包含三个基本问题:如何去分析问题;如何根据问题的分析结果去缩小答案可能存在的范围;如何从可能存在答案的信息块中抽取答案。

提问处理模块:负责对用户的提问进行处理;生成查询关键词(提问关键词,扩展关键词,...);确定提问答案类型(PER,LOC,ORG,TIM,NUM,...)以及提问的句法、语义表示等等。

检索模块:根据提问处理模块生成的查询关键词,使用传统检索方式,检索出和提问相关的信息;返回的信息可以是段落、也可以是句群或者句子。

答案抽取模块:从检索模块检索出的相关段落、或句群、或句子中抽取出和提问答案类型一致的实体,根据某种原则对候选答案进行打分,把概率最大的候选答案返回给用户。

基于FAQ的问答系统

首先,问答系统首先接收用户提出的问题(即用户输入的问句)。然后,根据用户输入的问句,从常用问题库(即FAQ库)中查找并建立与用户问题比较相似的候选问题集。接着,对候选问题集中的句子与用户输入的问句进行相似度计算,从候选问题集中寻找与用户输入的问句最相似的问句。如果在候选问题集中找到了与用户输入的问句相似的问句(即该问句和用户输入的问句的相似度大于某个阈值),就直接把和该问句对应的答案返还给用户;如果没有找到与用户输入的问句相似的问句(即候选问题集中所有问句和用户输入的问句的相似度都小于某个阀值),那么就利用其他的方法,比如答案抽取、信息检索等,来寻找答案,并且将这个新的问题和其对应的答案加入FAQ库,对FAQ库进行更新。

FAQ自动问答系统中需要处理的主要问题是候选问题集的建立、句子相似度计算、FAQ库的更新。

1、候选问题集的建立

候选问题答案集合建立是为了缩小答案的范围。该步骤会选取出可能包含答案的候选问题答案集合。这么做的目的使后续的问句相似性计算等步骤能够缩小范围,以较高的效率进行。在该步骤中,通常会使用信息检索技术。

● 用户输入的目标问句(W1,W2,…,Wn)

● FAQ库中共有m个问句,第i(1≤i≤m)个问句含有ni个词 (Q1,Q2,…,Qni)

● 第i个问句和目标问句之间重叠的词个数记为Numi,即 Numi=|{W1,W2,…,Wn}∩{Q1,Q2,…,Qni}|

● 选择Numi值最大的若干问句,组成候选问题集

2、问句匹配度相似度计算

这一步是将候选集合中的每一个问句分别与用户输入的问句进行匹配并计算相似度得分。得分最高的问句所对应的答案就是最终答案。这一步骤比较关键,它关乎到答案的质量。

两类:

1、不考虑两个句子的语义信息:模式匹配、关键字匹配技术、基于向量空间的TF/IDF方法等计算两个句子的相似度;

2、考虑两个句子的语义信息:利用WordNet、HowNet、同义词词林等语义知识资源计算两个句子的语义相似度。一般的方法的是结合多种特征来计算句子之间的相似性。

3、问题答案集合更新

●计算出用户所输入的目标问句和候选问题集中每个问句的相似度

      ●如果相似度的最大值大于一定的阈值,直接将这个问句对应的答案输出给用户

      ●如果最大相似度的值小于阈值,将用户所问的这个问题和对应的答案加入FAQ库,对其进行自动的更新

 

基于大规模文档集的问答系统

基于大规模文档集的问答系统:信息检索技术和信息抽取技术的结合。

命名实体识别(NamedEntitiesRecognition,NER)是自然语言处理(NaturalLanguageProcessing,NLP)的一个基础任务。其目的是识别语料中人名、地名、组织机构名等命名实体。由于这些命名实体数量不断增加,通常不可能在词典中穷尽列出,且其构成方法具有各自的一些规律性,因而,通常把对这些词的识别从词汇形态处理(如汉语切分)任务中独立处理,称为命名实体识别。命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。  

命名实体是命名实体识别的研究主体,一般包括3大类(实体类、时间类和数字类)和7小类(人名、地名、机构名、时间、日期、货币和百分比)命名实体。评判一个命名实体是否被正确识别包括两个方面:实体的边界是否正确;实体的类型是否标注正确。主要错误类型包括文本正确,类型可能错误;反之,文本边界错误,而其包含的主要实体词和词类标记可能正确。  

命名实体识别的主要技术方法分为:基于规则和词典的方法、基于统计的方法、二者混合的方法等。

命名实体识别技术主要用在QA的:1、段落或句子排列:QA系统首先根据查询关键字进行检索,然后对于检索出来的段落或句子重新进行排序;当某个句子包含所期望的实体时,则给句子适当的加分; 2、答案抽取:只抽取和期望答案类型一致的实体作为答案,而命名实体不参与句子或段落的排序。​​​​​​​​​​​​​​

1、问题分析模块

1)问题种类划分

事实型问题:“谁”、“何时”、“多少”、“哪里”……

定义型问题:“是什么”、“什么是”……

复杂型问题:“为什么”、“如何”……

2)问题分类方法

 ●基于规则的分类方法:

      对每个类别设计大量的规则,一旦问题和一个规则相匹配,则问题就属于改规则对应的类别

      应用规则的方法较简单,但要号飞机大量人力设计规则,另有些问题很难设计规则去覆盖

 ●基于统计机器学习的分类方法:

      形式和文本分类类似。与文本分类不同:相对于文本,问题一般很短,其中包含的词很少,因此可以利用的特征少;

在问题所包含的词中,决定问题类别的特征具有明显的倾向性,即只有若干词才是真正确定问题类别的主要特征。

 

      ● 思路:

            ●人工方式对一批问题的类别进行标注

            ●设计机器学习算法,已标注的这个集合进行分类模型的自动训练

            ●训练得到的模型对测试问题进行自动分类

      ● 特征选择:

           ●疑问词确定问题类型

           ●疑问词+焦点词共同确定问题类别

                疑问词确定问题类型:eg.-西电校长是谁? “谁”就确定类型是“人”。

                疑问词+焦点词共同确定问题类别:焦点词是问题中指示期望答案语义类型的词。

                eg.-哪个国家人口最多? 疑问词“哪个”、焦点词“国家”确定了该答案类型是“国家”。​​​​​​​

2、检索模块

1)相关文档检索

2)句段检索 

● 文档切分方法:

     ●以连续的n个句子作为一个文档句段

     ●以篇章的一个段落(paragraph)为一个文档句段

     ●文档进行子话题(subtopic)分割,把一个子话题作为一个句段

● 检索方法:

     ●句段和问题之间匹配的词的个数

     ●VSM的余弦相似度

向量空间模型(VSM)一种文本相似度算法

判断一篇文章是否是你喜欢的文章,即将文章抽象成一个向量,该向量由n个词Term组成,每个词都有一个权重(TermWeight),不同的词根据自己在文档中的权重来影响文档相关性的重要程度。选取特征词时,需要降维处理选出有代表性的特征词,包括人工选择或自动选择。特征抽取完后,因为每个词语对实体的贡献度不同,所以需要对这些词语赋予不同的权重。计算词项在向量中的权重方法——TF-IDF。TF-IDF计算权重越大表示该词条对这个文本的重要性越大。计算两篇文章间的相似度就通过两个向量的余弦夹角cos来描述。

     ●匹配词之间的间隔的紧密程度

3、答案抽取模块

 ●简单匹配的方法

● 基本思想

    ●在检索到的句段中抽取和问题的语气答案类型相一致的命名实体,作为候选答案

    ● 对候选答案进行排序时,综合其所在文档句段的顺序和在所有文档句段中出现的次数作为排序分值

    ● 排序最高的候选答案,将被选择为最终答案

● 缺点:

     当句段中有多个满足答案语义类型的命名实体时难以判断

 ●基于表层模式匹配的方法

● 基本思想

    ● 利用规则模式,从文档句段中抽取出满足模式的答案

    ● 规则模式描述了问题的主要词汇与候选答案在句段中的出现形式

    ● 不需要太多深层的语言处理

● 规则模式的构造

    ● 手动方式构造

    ● 自动学习得到:训练数据和测试数据:问题、包含答案的文档句段、问题的答案

        过程:1、先从训练数据文档句段中提取出包含问题词和答案的子串;2、将子串中的问题词和答案词替换成变量,得到一个候选规则;3、对候选规则进一步泛化;4、在测试数据中用候选规则抽取答案,以判断候选规则的准确率;5、将准确率高于一定阈值的候选规则选为自动学习到的规则

  ●利用大规模文档集中数据冗余的方法

 ●由于数据集的海量特点,总会存在一些和问题的描述方式相近的答案句子

 ●系统可以不用复杂的语言处理技术,而使用简单的统计方法辅助千层语言技术就可确定问题的答案

 ●基于多特征的统计机器学习

● 构造训练“文档-文档句段-答案”集合,用

   机器学习方法训练得到答案选择模型

● 特征选择

      句子特征:问题和候选答案所在句段间匹配的词和依存弧的分值

      语言特征:候选答案是否是特定动词的主语或宾语等

      词汇模式特征:候选答案所在句段是否匹配某种模式词汇

      候选答案的冗余特征:候选答案在检索结果中出现的次数

      其它特征

 

方法

 

人工智能AI系列

目录:

http://aias.top/

问答系统

问答系统(QuestionAnsweringSystem,QA)是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。问答系统是人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。

文本搜索引擎

本例子基于文本搜索引擎,支持上传csv文件,使用句向量模型提取特征,并基于milvus向量引擎进行后续检索。

主要特性底层使用特征向量相似度搜索单台服务器十亿级数据的毫秒级搜索近实时搜索,支持分布式部署随时对数据进行插入、删除、搜索、更新等操作句向量模型【支持15种语言】

句向量是指将语句映射至固定维度的实数向量。将不定长的句子用定长的向量表示,为NLP下游任务提供服务。支持15种语言:Arabic,Chinese,Dutch,English,French,German,Italian,Korean,Polish,Portuguese,Russian,Spanish,Turkish.

句向量

句向量应用:

语义搜索/问答系统,通过句向量相似性,检索语料库中与query最匹配的文本文本聚类,文本转为定长向量,通过聚类模型可无监督聚集相似文本文本分类,表示成句向量,直接用简单分类器即训练文本分类器1.前端部署1.1安装运行:#安装依赖包npminstall#运行npmrundev1.2构建dist安装包:npmrunbuild:prod1.3nginx部署运行(mac环境为例):cd/usr/local/etc/nginx/vi/usr/local/etc/nginx/nginx.conf#编辑nginx.confserver{listen8080;server_namelocalhost;location/{root/Users/calvin/Documents/qa_system/dist/;indexindex.htmlindex.htm;}......#重新加载配置:sudonginx-sreload#部署应用后,重启:cd/usr/local/Cellar/nginx/1.19.6/bin#快速停止sudonginx-sstop#启动sudonginx2.后端jar部署2.1环境要求:系统JDK1.8+application.yml#文件存储路径file:mac:path:~/file/linux:path:/home/aias/file/windows:path:D:/aias/file/#文件大小/MmaxSize:3000...2.2运行程序:#运行程序java-jarqa-system-0.1.0.jar3.后端向量引擎部署(docker)3.1环境要求:需要安装docker运行环境,Mac环境可以使用DockerDesktop3.2拉取Milvus向量引擎镜像(用于计算特征值向量相似度)

安装文档

最新版本请参考官网Milvus向量引擎参考链接Milvus向量引擎官网Milvus向量引擎Githubsudodockerpullmilvusdb/milvus:0.10.0-cpu-d061620-5f3c003.3下载配置文件

vector_engine.zip

3.4启动Docker容器

/Users/calvin/vector_engine为主机路径,根据需要修改。conf下为引擎所需的配置文件。

dockerrun-d--namemilvus_cpu_0.10.0-p19530:19530-p19121:19121-p9091:9091-v/Users/calvin/vector_engine/db:/var/lib/milvus/db-v/Users/calvin/vector_engine/conf:/var/lib/milvus/conf-v/Users/calvin/vector_engine/logs:/var/lib/milvus/logs-v/Users/calvin/vector_engine/wal:/var/lib/milvus/walmilvusdb/milvus:0.10.0-cpu-d061620-5f3c003.5编辑向量引擎连接配置信息application.yml根据需要编辑向量引擎连接ip地址127.0.0.1为容器所在的主机ip#####################向量引擎###############################search:host:127.0.0.1port:19530indexFileSize:1024#maximumsize(inMB)ofeachindexfilenprobe:256nlist:16384faceDimension:512#dimensionofeachvectorfaceCollectionName:questions#collectionnamecommDimension:512#dimensionofeachvectorcommCollectionName:comm#collectionname4.打开浏览器输入地址:http://localhost:8090上传CSV数据文件1).点击上传按钮上传CSV文件.测试数据

2).点击特征提取按钮.等待CSV文件解析,特征提取,特征存入向量引擎。通过console可以看到进度信息。

文本搜索输入文字,点击查询,可以看到返回的清单,根据相似度排序。

5.帮助信息swagger接口文档:http://localhost:8089/swagger-ui.html

初始化向量引擎(清空数据):me.aias.tools.MilvusInit.javaStringhost="127.0.0.1";intport=19530;finalStringcollectionName="questions";//collectionnameMilvusClientclient=newMilvusGrpcClient();//ConnecttoMilvusserverConnectParamconnectParam=newConnectParam.Builder().withHost(host).withPort(port).build();try{ResponseconnectResponse=client.connect(connectParam);}catch(ConnectFailedExceptione){e.printStackTrace();}//检查collection是否存在HasCollectionResponsehasCollection=hasCollection(client,collectionName);if(hasCollection.hasCollection()){dropIndex(client,collectionName);dropCollection(client,collectionName);}...官网:

官网链接

Git地址:Github链接Gitee链接

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇