GKSD 是一个革命性的智能百科系统,它将知识从符号转化为几何结构,构建了一个能够真正"理解"和"推理"的知识大脑。这使得系统能像人脑一样进行联想和推理,实现远超传统关键词搜索的智能问答与知识发现。
我们坚信,一个社会的理论创新与知识应用能力,是其发展的核心引擎。为加速社会主义建设的伟大进程,必须首先革新其底层的知识基础设施。
传统百科是基于词条和分类的静态知识库,而 GKSD 采用基于语义向量的空间关系组织形式。我们旨在将知识表示为高维空间中的几何实体,从而将知识数据库构建从关键词匹配升级为几何空间中的语义计算与推理。
当前暂不支持完整部署并快速本地运行,但您可以前往我们的官网尝试检索互动测试界面。
- 几何化知识表示:每个概念都是一个高维向量,每种关系都定义了一个向量变换。
- 语义深度理解:基于向量空间中的相对位置和方向来理解概念间的深层语义关系,超越表面文字。
- 智能推理与联想:原生支持类比推理、关系发现和跨领域知识联想。
- 知识架构分析:通过分析坐标间几何关系,我们力求数据库自动化丰富知识内容和信息。
核心知识库:已成功构建包含25,000个高度清洗中文词汇的标准词汇表索引系统,实现了 MariaDB (元数据) 与 Qdrant (向量嵌入) 的双存储架构。
几何推理引擎:实现了对于逻辑关系Hypernym、PartOf、IsA的关系运算。
性能基准测试:通过基于partof数据集的统计评估体系,对 PartOf (部分-整体) 关系进行了量化评估,其推理成功率随返回结果数量的变化如下,证明了几何方法的有效性:
-
精确模式 (Top 10):56.9078947368421 %
-
召回模式 (Top 80):83.05921052631578 %
关系向量验证:深入分析不同关系的统计特性,建立可信度模型以优化搜索策略。
关系自动构建:探索基于LLM与向量推理的自动化知识图谱构建流程。
-
定义核心关系集:我们正在精确界定如 IsA, PartOf, LocatedIn, Causes, Synonym, Antonym 等基础逻辑关系。
-
实现自动逻辑关系发现和判断:我们正在基于PartOf逻辑关系进行基于相对几何坐标的逻辑关系发现和验证。
-
实现已有逻辑关系图谱验证:我们正在开发基于已有的逻辑关系图谱的脱离llm的自主验证系统。
-
嵌入模型: BAAI/bge-large-zh-v1.5 - 生成768维中文文本向量表示
-
大语言模型: DeepSeek - 用于关系推理与数据清洗
-
后端语言: Python 3.x
-
核心框架: 自定义模块化架构
-
关键库: NumPy, Sentence-Transformers, tqdm
系统架构图片未生成
由于时效性,此项目结构仅供参考,详细信息请结合项目更新日志和实际情况。
├── main.py # 当前数据库操作临时脚本
├── basic_program.py # 基础程序模块
├── config_operator.py # 设置操作模块
├── mariadb_operator.py # mariadb数据库操作模块
├── qdrant_operator.py # Qdrant 数据库操作模块
├── xml_operator.py # xml操作模块
├── ai_modules.py # 人工智能相关操作模块
├── gksd_operator.py # gksd数据库综合操作模块
├── logicfile_operator.py # 逻辑关系向量训练文件操作模块
├── log.md # 运行程序时生成的日志文件 (不包括在仓库中)
├── config.json # 设置文件示例 (不包括在仓库中)
├── module # 本地大语言模型文件 (不包括在仓库中)
│ └── bge-large-zh-v1.5 # 本地大语言模型示例
├── data # 开源的程序运算成果
│ ├── Hypernym_Boxplot_dimension_1_to_1024.svg # 逻辑向量运算结果图
│ ├── Hypernym_data_statistics_summary.txt # 逻辑向量运算结果
│ └── ... # 其他逻辑向量运算结果/结果图
├── oneOffScript # 一次性脚本存放处(杂项)
│ ├── backup_strategy.sh # 用于服务器的存储自动脚本
│ └── majorParser.py # 用于将md格式的专业分类转为json格式的专业分类
├── README.md # 你正在阅读的文档
├── 专业分类.json # json格式的专业分类
├── 专业分类.md # md格式的专业分类
├── config_ex.json # 设置文件示例
└── LICENSE # 开源许可证GKSD 是一个雄心勃勃的开源项目,我们亟需各路英才的加入:
-
NLP工程师:帮助我们设计和训练更好的知识嵌入模型。
-
数据标注专家:参与构建高质量的关系三元组训练数据集。
-
前端开发者:未来开发直观的知识探索与可视化界面。
让我们一起,将知识从冰冷的文字,变为更具潜力的结构。
我们正处于奠定基础的阶段,您的任何想法和贡献都至关重要:
-
讨论与建议:前往 GitHub Discussions,告诉我们你对"标准词汇表"的看法。
-
代码贡献:我们坚持开放核心代码库,未来我们也会开放数据库,欢迎 Star & Watch 本仓库以获取最新动态。
-
参与开发工作:主要开发团队目前位于中国大陆,但我们欢迎全球开发者的技术贡献和创意想法,如希望了解更多信息,请前往GKSD官网联系我们。
本项目完全开源,采用 Apache License 2.0 许可证。
-
参与工程:请前往GKSD官网联系我们
-
项目讨论:GitHub Discussions
-
技术规划与Issue:GitHub Issues