Skip to content
/ GKSD Public

This is a "Vector Encyclopedia" project. It transforms knowledge concepts into coordinates in a high-dimensional space, and relationships into directional arrows. This allows the system to associate and reason like a human brain, enabling intelligent Q&A and knowledge discovery that far surpasses traditional keyword search.

License

Notifications You must be signed in to change notification settings

rplague/GKSD

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

GKSD

GKSD 是一个革命性的智能百科系统,它将知识从符号转化为几何结构,构建了一个能够真正"理解"和"推理"的知识大脑。这使得系统能像人脑一样进行联想和推理,实现远超传统关键词搜索的智能问答与知识发现。

项目愿景

我们坚信,一个社会的理论创新与知识应用能力,是其发展的核心引擎。为加速社会主义建设的伟大进程,必须首先革新其底层的知识基础设施。

传统百科是基于词条和分类的静态知识库,而 GKSD 采用基于语义向量的空间关系组织形式。我们旨在将知识表示为高维空间中的几何实体,从而将知识数据库构建从关键词匹配升级为几何空间中的语义计算与推理。

快速开始

当前暂不支持完整部署并快速本地运行,但您可以前往我们的官网尝试检索互动测试界面。

GKSD官网

核心创新

  • 几何化知识表示:每个概念都是一个高维向量,每种关系都定义了一个向量变换。
  • 语义深度理解:基于向量空间中的相对位置和方向来理解概念间的深层语义关系,超越表面文字。
  • 智能推理与联想:原生支持类比推理、关系发现和跨领域知识联想。
  • 知识架构分析:通过分析坐标间几何关系,我们力求数据库自动化丰富知识内容和信息。

项目进程

当前成果

核心知识库:已成功构建包含25,000个高度清洗中文词汇的标准词汇表索引系统,实现了 MariaDB (元数据) 与 Qdrant (向量嵌入) 的双存储架构。

几何推理引擎:实现了对于逻辑关系Hypernym、PartOf、IsA的关系运算。

性能基准测试:通过基于partof数据集的统计评估体系,对 PartOf (部分-整体) 关系进行了量化评估,其推理成功率随返回结果数量的变化如下,证明了几何方法的有效性:

  • 精确模式 (Top 10):56.9078947368421 %

  • 召回模式 (Top 80):83.05921052631578 %

下一步焦点

关系向量验证:深入分析不同关系的统计特性,建立可信度模型以优化搜索策略。

关系自动构建:探索基于LLM与向量推理的自动化知识图谱构建流程。

当前工作重点

  1. 定义核心关系集:我们正在精确界定如 IsA, PartOf, LocatedIn, Causes, Synonym, Antonym 等基础逻辑关系。

  2. 实现自动逻辑关系发现和判断:我们正在基于PartOf逻辑关系进行基于相对几何坐标的逻辑关系发现和验证。

  3. 实现已有逻辑关系图谱验证:我们正在开发基于已有的逻辑关系图谱的脱离llm的自主验证系统。

技术栈

核心基础设施

  • 向量数据库: Qdrant - 用于高维向量相似性搜索与存储

  • 关系型数据库: MariaDB - 用于结构化元数据与词汇表管理

人工智能与语义理解

开发与架构

  • 后端语言: Python 3.x

  • 核心框架: 自定义模块化架构

  • 关键库: NumPy, Sentence-Transformers, tqdm

系统架构

系统架构图片未生成

项目结构

由于时效性,此项目结构仅供参考,详细信息请结合项目更新日志和实际情况。

├── main.py									# 当前数据库操作临时脚本
├── basic_program.py							# 基础程序模块
├── config_operator.py						# 设置操作模块
├── mariadb_operator.py						# mariadb数据库操作模块
├── qdrant_operator.py						# Qdrant 数据库操作模块
├── xml_operator.py							# xml操作模块
├── ai_modules.py							# 人工智能相关操作模块
├── gksd_operator.py							# gksd数据库综合操作模块
├── logicfile_operator.py					# 逻辑关系向量训练文件操作模块
├── log.md									# 运行程序时生成的日志文件	 (不包括在仓库中)
├── config.json								# 设置文件示例				 (不包括在仓库中)
├── module									# 本地大语言模型文件		(不包括在仓库中)
│		 └── bge-large-zh-v1.5				# 本地大语言模型示例
├── data										# 开源的程序运算成果
│		 ├── Hypernym_Boxplot_dimension_1_to_1024.svg	# 逻辑向量运算结果图
│		 ├── Hypernym_data_statistics_summary.txt		# 逻辑向量运算结果
│		 └── ...								# 其他逻辑向量运算结果/结果图
├── oneOffScript								# 一次性脚本存放处(杂项)
│		 ├── backup_strategy.sh				# 用于服务器的存储自动脚本
│		 └── majorParser.py					# 用于将md格式的专业分类转为json格式的专业分类
├── README.md								# 你正在阅读的文档
├── 专业分类.json							# json格式的专业分类
├── 专业分类.md								# md格式的专业分类
├── config_ex.json							# 设置文件示例
└── LICENSE									# 开源许可证

加入我们,共同塑造未来

GKSD 是一个雄心勃勃的开源项目,我们亟需各路英才的加入:

  • NLP工程师:帮助我们设计和训练更好的知识嵌入模型。

  • 数据标注专家:参与构建高质量的关系三元组训练数据集。

  • 前端开发者:未来开发直观的知识探索与可视化界面。

如何贡献

让我们一起,将知识从冰冷的文字,变为更具潜力的结构。

我们正处于奠定基础的阶段,您的任何想法和贡献都至关重要:

  1. 讨论与建议:前往 GitHub Discussions,告诉我们你对"标准词汇表"的看法。

  2. 代码贡献:我们坚持开放核心代码库,未来我们也会开放数据库,欢迎 Star & Watch 本仓库以获取最新动态。

  3. 参与开发工作:主要开发团队目前位于中国大陆,但我们欢迎全球开发者的技术贡献和创意想法,如希望了解更多信息,请前往GKSD官网联系我们。

许可证

本项目完全开源,采用 Apache License 2.0 许可证。

联系我们

  • 参与工程:请前往GKSD官网联系我们

  • 项目讨论:GitHub Discussions

  • 技术规划与Issue:GitHub Issues

About

This is a "Vector Encyclopedia" project. It transforms knowledge concepts into coordinates in a high-dimensional space, and relationships into directional arrows. This allows the system to associate and reason like a human brain, enabling intelligent Q&A and knowledge discovery that far surpasses traditional keyword search.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published