🚀 2025年E2E系统探索者

GenAI端到端系统研究实验室

构建15+开源系统项目,近一年GitHub贡献600+次,专注FDA医疗数据生态的端到端智能处理

15+ 年度新项目
600+ GitHub贡献
70% 开源率
FDA 医疗生态
🤖
GenAI应用
🔄
端到端系统
📊
实验评估
📝

学术研究成果

今年发表3篇端到端系统研究论文

查看论文 →
📦

GitHub开源项目

15+实用系统工具,获得社区认可

查看项目 →
🎓

教育资源

GenAI-From-Zero-to-Hero MIT开源教程

开始学习 →
📅

会议活动

PHITA青年分会2025年会及其他学术活动

查看会议 →

Lei's E2E AI Lab 专注于构建实际可用的GenAI驱动端到端系统。通过AutoQUEST智能评估框架、OpenFDA2PG数据处理工具等15+个开源项目,我们已在FDA医疗数据处理、实验自动化评估、分布式向量计算等领域取得突破性进展。

实验室今年发表3篇专注于端到端系统的研究论文,包括MEDINFO 2025和CHIMA 2025会议论文,在思维链推理、聚类降维、自动化问题生成等技术方向引领行业发展。我们的开源项目在GitHub获得社区认可,GenAI-From-Zero-to-Hero教程已成为业界学习GenAI的重要资源。

最新突破

🏆

MEDINFO 2025发表

AutoQUEST论文被接收

GitHub热门项目

GenAI教程获5星好评

📊

CHIMA 2025论文

DeepSeek聚类研究获奖

15+
开源项目
600+
GitHub贡献
FDA
医疗数据
5★
社区认可

实验室动态

了解我们的研究

研究方向

基于我们的开源项目和发表论文,实验室在以下四个核心方向开展研究,每个方向都有具体的系统实现和学术成果:

GA
GenAI应用

GenAI驱动的系统架构设计

代表项目:LongWriter、Speech2Speech
研究成果:思维链推理的MAUDE数据库自动化分析(医学信息学期刊 2025)
探索如何将生成式AI集成到实际应用中,实现从长文本生成到实时语音交互的智能化系统。

GenAI集成 系统架构 智能管道 工作流设计
E2E
端到端系统

数据科学全栈系统构建

代表项目:OpenFDA2PG、MAUDE-Schema-Compressor、MacM4VecFlow
技术特色:ETL工具、数据压缩、分布式向量化处理
已构建完整的FDA医疗数据处理管道,从数据获取、压缩存储到高性能分布式计算的全流程解决方案。

数据管道 FDA系统 多行业扩展 全栈架构
EXP
实验评估

科研实验设计与评估方法论

代表项目:AutoQUEST
学术成果:AutoQUEST论文在MEDINFO 2025发表
开发了基于THINK/DO链式框架的智能实验评估系统,实现科研流程的自动化和标准化,研究成果已在多个会议上发表。

实验设计 评估指标 可重现性 自动评估
SYS
系统可扩展性

教育与知识传播

代表项目:GenAI-From-Zero-to-Hero (⭐ 5 GitHub Stars)
学术成果:基于聚类算法与DeepSeek协同的数据库结构降维研究(CHIMA 2025)
开发完整的GenAI教程体系,已成为业界学习生成式AI的重要资源,并在多个会议上分享最新研究成果。

跨行业应用 系统扩展 通用基础设施 模式复用

端到端系统技术栈

实验室构建了完整的GenAI驱动数据科学技术栈,支持从数据获取到洞察生成的全流程自动化:

发表论文

我们致力于在学术会议和期刊上发表端到端系统研究成果,推动AI领域的知识创新。

2025年

基于思维链推理的MAUDE数据库自动化分析
华磊, 巩洋, 毋丽丽, 胡国华, 贺国平, 刘晋媛
医学信息学杂志 2025年第8期 - 已正式发表
✅ 已发表 | 2025年8月
查看论文
基于聚类算法与DeepSeek协同的数据库结构降维研究
华磊, 巩洋
CHIMA 2025中国医院信息网络大会
🏆 优秀论文奖
查看详情
AutoQUEST: A Chain-of-Thought Pipeline for Automated Question Generation and Validation in MAUDE Research
Hua, L., & Gong, Y.
MEDINFO 2025 Proceedings, IOS Press - 已发表于2025年8月台北MEDINFO 2025会议
✅ 已发表 | Session: OS32/T2
PubMed链接

端到端系统项目

我们专注开发GenAI驱动的端到端数据分析和科研系统。以FDA数据生态为核心,构建可扩展到多个行业的完整数据科学工具链。

最新项目 2025年7月

LongWriter - 长文本生成系统

基于HTML的长文本生成系统,专注于生成高质量的长篇内容,支持多种文本格式和写作风格,为学术写作和内容创作提供智能化支持。

HTML 长文本生成 智能写作 内容创作
📝 长文本 🎨 多样化风格
查看项目 查看Demo
热门项目 ⭐ 5

GenAI-From-Zero-to-Hero

从零开始学习生成式AI的完整教程,"Learning by Doing"理念,提供实践导向的学习资源。涵盖GenAI基础理论到实际应用的全流程教学。

Jupyter Notebook 教育资源 生成式AI 实践导向
🎓 教育资源 🤖 GenAI学习
查看项目
分布式系统

MacM4VecFlow

基于macA4架构的分布式向量化数据流处理平台,构建高性能的大规模并行计算系统,支持复杂的数据处理和分析工作流。

Python 分布式系统 向量化处理 并行计算
🔄 分布式 📊 向量化
查看项目
实验评估系统 核心项目

AutoQUEST - 智能实验评估框架

面向数据科学研究的任务导向智能评估系统,基于FDA/MAUDE数据实现自动化实验设计、执行和结果评估。支持THINK/DO链式实验框架,确保研究的可重现性和科学性。

Jupyter Notebook 实验评估 FDA数据 科研自动化
📊 智能评估 🔬 科研工具
查看项目
ETL工具

OpenFDA2PG

开源FDA数据到PostgreSQL的ETL工具,实现FDA公开数据的自动化导入和结构化存储,支持大规模医疗数据的高效处理。

Python ETL工具 FDA数据 PostgreSQL
🏥 医疗数据 🗄️ 数据库
查看项目

MAUDE-Schema-Compressor

MAUDE医疗器械数据库的Schema压缩工具,优化数据存储和查询性能,提升医疗器械不良事件数据的处理效率。

Jupyter Notebook 数据压缩 MAUDE数据 性能优化
🏥 医疗器械 📈 数据优化
查看项目
语音系统 ⭐ 2

Speech2Speech

基于ASR+LLM+TTS的语音到语音实时交互系统,专注心理咨询场景。集成FAISS向量检索和心理健康资源推荐,实现智能化语音交互体验。

HTML 语音处理 实时交互 心理健康
🎙️ 实时语音 🧠 心理咨询
查看项目

开源贡献

我们积极参与和贡献各类开源AI项目,包括:

公开课程

实验室提供多种AI相关课程,面向开发者、研究人员和医疗信息化专业人士,涵盖从基础理论到实践应用的完整学习体系。

专业培训工作坊

特色课程 ⭐ 5 | MIT开源
GenAI-Hero

GenAI从零到英雄:核心技术与实战应用

课程目标: 深入探讨生成式人工智能(Generative AI, GenAI)的核心技术、发展趋势和实际应用

学习理念: "Learning by Doing" - 理论与实践并重的渐进式学习

📚 详细课程大纲

🎯 Chapter 0: 课程导览 (Index)

课程整体框架、学习路径规划与先修知识检查

🚀 Chapter 1: GenAI基础概念 (The GenAI "Hello World")
  • Transformer模型原理与架构
  • Token机制与Prompt工程
  • 自然语言生成(NLG)核心技术
🔄 Chapter 2: 技术选型策略 (Open vs. Close and Bot or API)
  • 聊天机器人 vs. API接口模式对比
  • 开源 vs. 闭源模型选择策略
  • 性能指标与成本分析方法
💡 Chapter 3: 实际应用构建 (Use a ChatGPT-like application)
  • 类ChatGPT应用的完整构建流程
  • 用户界面设计与交互优化
  • 模型集成与部署实践
🔬 Chapter 4: 高级方法与技术
  • 检索增强生成(RAG)技术深入
  • 推理技术:CoT(思维链)、ToT(思维树)
  • 多模态生成与AI智能体构建
  • 工具集成与隐私保护最佳实践
架构 Prompt工程 RAG技术 多模态AI AI智能体 成本优化

学习时长: 40-60小时 | 难度: 初级到高级 | 语言: 中文 | 许可: MIT开源

适用人群: 开发者 • 研究人员 • 业务用户 • AI从业者

课程特色: 实战导向 • 渐进式学习 • 开源免费 • 持续更新

GitHub仓库 在线学习

行业会议与工作坊

权威会议 CHIMA2025
CHIMA

中国医院协会信息专业委员会年会

中国最大的医疗卫生信息化专业学术聚会,汇聚医疗信息化领域的最新研究成果、技术趋势和最佳实践案例。包含优秀论文分享、技术展示和专家访谈。

医疗信息化 AI应用 数字化医院 互联互通 数据安全

会议时间: 年度举办 | 参会对象: 医疗IT专业人员 | 形式: 现场+在线

核心价值: 技术更新 • 案例学习 • 行业网络 • 标准掌握

会议材料(即将发布) 报名参会

研究生工作坊

Workshop-G1

生成式AI系统工作坊:原理与应用

深入研究GenAI的理论基础与系统实现,包括大语言模型、多模态AI、智能评估系统等。结合AutoQUEST智能评估框架等实际项目案例的实战工作坊。

形式: 密集培训 | 时长: 3-5天 | 实践项目: 基于AutoQUEST的智能评估系统

项目案例 报名参加
Workshop-G2

分布式AI系统架构工作坊

学习分布式AI系统的设计模式、向量化处理技术和大规模并行计算。结合MacM4VecFlow分布式系统项目,掌握现代AI基础设施构建。

形式: 密集培训 | 时长: 3-5天 | 实践项目: 分布式向量处理系统

项目案例 报名参加

本科生毕业设计

毕业设计

医学命名实体识别(Medical NER)研究方向

医学命名实体识别是医疗人工智能的核心任务之一,通过识别医疗文本中的疾病、症状、药物、检查等实体,为智能医疗系统提供基础支撑。

推荐数据集:

  • CBLUE-CMeEE数据集:阿里天池发布,包含504种医疗实体类型,涵盖疾病、症状、检查、治疗等
  • YiDu-S4K数据集:医渡云基于真实病历标注,来自CCKS 2019评测任务,包含疾病诊断、检查、检验、手术等实体类型

推荐的10个毕业设计题目(适合本科生):

1. 基于Python的医疗实体识别系统实现

使用Python和现有的NLP库(如jieba、HanLP),实现一个基础的医疗实体识别系统,重点掌握数据预处理和基本NER流程

Python编程 基础NER 数据处理
2. 基于规则和词典的医疗实体识别

构建医疗词典,使用正则表达式和规则匹配方法识别常见医疗实体,适合初学者理解NER基本概念

规则方法 词典构建 正则表达式
3. 使用CRF的简单医疗实体识别

学习条件随机场(CRF)的基本原理,使用sklearn-crfsuite等工具包实现简单的序列标注

机器学习 CRF入门 特征工程
4. 基于BERT的医疗实体识别入门实践

使用预训练的中文BERT模型,通过简单的微调实现医疗实体识别,学习深度学习基础应用

预训练模型 微调入门 Transformers库
5. 医疗实体识别数据标注工具开发

开发一个简单的Web界面,帮助用户标注医疗文本中的实体,了解数据标注流程

Web开发 标注工具 用户界面
6. 医疗实体识别结果可视化系统

构建一个可视化系统,展示NER识别结果,包括实体高亮、统计分析等功能

数据可视化 前端开发 结果展示
7. 基于统计的医疗实体识别性能分析

对比不同方法的识别效果,学习评价指标(精确率、召回率、F1值)的计算和分析

性能评估 数据分析 对比实验
8. 特定疾病领域的实体识别应用

选择一个特定疾病(如糖尿病),构建该领域的实体识别系统,深入了解领域知识的重要性

领域应用 疾病专项 知识整合
9. 医疗实体识别错误分析与改进

分析现有模型的常见错误类型,提出简单的改进方案,培养问题分析能力

错误分析 案例研究 改进策略
10. 医疗实体识别API服务搭建

将训练好的模型部署为Web API服务,学习模型部署和服务化的基本流程

API开发 模型部署 Flask/FastAPI

指导教师: 华磊博士 | 研究支持: 实验室提供GPU计算资源

申请指导 下载详细大纲

本科生工作坊

Workshop-U1

语音交互系统设计工作坊

介绍语音识别、自然语言处理、语音合成等核心技术,学习构建完整的语音交互系统。结合Speech2Speech项目学习实时语音处理技术。

形式: 实践工作坊 | 时长: 2-3天 | 实验项目: Speech2Speech语音交互系统

项目案例 报名参加
Workshop-U2

医疗数据处理与分析工作坊

学习医疗数据的特点、处理方法和分析技术。使用OpenFDA2PG和MAUDE-Schema-Compressor项目,掌握大规模医疗数据的ETL和优化技术。

形式: 实践工作坊 | 时长: 2-3天 | 项目实践: FDA数据处理工具开发

项目案例 报名参加
Workshop-U3

智能内容生成系统工作坊

学习长文本生成、智能写作等内容创作技术。通过LongWriter项目学习如何构建高质量的文本生成系统和多样化写作风格实现。

形式: 实践工作坊 | 时长: 2-3天 | 项目实践: 智能写作助手开发

项目案例 报名参加

在线学习资源

Tutorial

端到端系统设计教程

基于GenAI-From-Zero-to-Hero项目的系统设计在线教程,包含完整的系统架构、数据管道设计和实验评估案例。专注于可扩展数据科学系统的构建方法。

系统设计 架构模式 实验评估

形式: 在线教程 | 难度: 中高级 | 时长: 自定义进度

开始学习
Workshop

数据科学系统实践工作坊

结合AutoQUEST、OpenDBFlow等实际项目的实战培训,专为数据科学从业人员设计。涵盖系统架构设计、数据管道构建、实验评估等核心技能。

实战导向 系统设计 FDA数据

形式: 线下工作坊 | 周期: 季度举办 | 时长: 2-3天

报名参加

实验室成员

Lei's E2E AI Lab 专注于GenAI驱动的端到端应用和科研,探寻GenAI潜力边界,推动人机交互演化。

核心成员

HL
华磊 博士
主要成员

GenAI应用 | 端到端系统 | 医疗大数据 | 人机交互演化

团队精选博文

探索我们的研究洞察、技术分享和系统设计思考。这里汇集了团队成员的精选文章,涵盖GenAI应用、端到端系统设计和实验评估方法论。

正在加载博文列表...

联系我们

欢迎就合作研究、学位项目或其他事宜与我们联系。

联系方式

📧
lhua0420@gmail.com
📱
微信: ut-health
📍
北京市顺义区后沙峪

社交媒体

Twitter LinkedIn GitHub YouTube

© 2025 Lei's E2E AI Lab. All rights reserved.

🎨 数字艺术作品展示

探索我们的交互式数字艺术作品,体验创新的数字媒体表现形式。

📱 算法投喂

数字白痴化批判 - 体验社交媒体算法如何劫持注意力

社会批判

🌑 吃不饱

数字吞噬实验 - 探讨现代人对信息的病态渴求

心理探索

🖼️ 交互艺术生成器

移动端创作工具 - 数字艺术创作的无限可能

创意工具

🚀 宇宙探索

星系演化与引力波 - 3D宇宙模拟器

科学可视化

😤 老板消消乐

员工解气神器 - 黑色幽默的消除游戏

互动游戏

🌟 终极星座体验

3D星空交互 - 沉浸式星座探索之旅

沉浸体验
🚀 探索所有作品

共 6 个交互作品,涵盖 5 个艺术类别

🎯 会议通知

主办与协办的学术会议、研讨会和培训活动

主办

PHITA青年分会2025年会

青年工程师职业发展与创新交流大会

📅 2025年10月25日
📍 北京大学第一医院大兴院区
👥 预计参会人数:200+
正在报名
青年发展 医疗信息化 创新交流 职业规划
协办

医疗AI创新论坛

探索人工智能在医疗领域的应用

📅 2025年12月15日-16日
📍 北京国际会议中心
👥 预计参会人数:500+
即将开始
人工智能 医疗创新 技术论坛
主办

数字健康管理研讨会

2024年度总结与展望

📅 2024年12月20日
📍 线上会议
👥 参会人数:300+
已结束
数字健康 年度总结 线上会议

🚀 AI资讯聚合

实时汇聚全球AI研究机构和科技公司的最新资讯,包括论文发布、技术突破、产品动态等。

📖

研究论文

来自arXiv、Google Research等顶级机构的最新AI/ML论文

arXiv AI
Google AI Blog
OpenAI Research
🏢

行业动态

AI产业更新、产品发布、公司公告等行业资讯

MIT Technology Review
VentureBeat AI
The Verge AI

最新AI资讯

🚀 打开完整页面 最后更新:加载中...
🔄

加载AI资讯中...

正在从各大研究机构和科技公司获取最新资讯

申请加入实验室

欢迎加入Lei's E2E AI Lab!请填写以下信息,我们将尽快与您联系。

-
队列中申请
-
总申请人数
可以是电话号码、微信号或邮箱地址