GenAI端到端系统研究实验室
构建15+开源系统项目,近一年GitHub贡献600+次,专注FDA医疗数据生态的端到端智能处理
Lei's E2E AI Lab 专注于构建实际可用的GenAI驱动端到端系统。通过AutoQUEST智能评估框架、OpenFDA2PG数据处理工具等15+个开源项目,我们已在FDA医疗数据处理、实验自动化评估、分布式向量计算等领域取得突破性进展。
实验室今年发表3篇专注于端到端系统的研究论文,包括MEDINFO 2025和CHIMA 2025会议论文,在思维链推理、聚类降维、自动化问题生成等技术方向引领行业发展。我们的开源项目在GitHub获得社区认可,GenAI-From-Zero-to-Hero教程已成为业界学习GenAI的重要资源。
最新突破
MEDINFO 2025发表
AutoQUEST论文被接收
GitHub热门项目
GenAI教程获5星好评
CHIMA 2025论文
DeepSeek聚类研究获奖
实验室动态
- 2025年9月:DHMC2025南京数字医疗会议讲座发布,分享医疗AI与数据处理技术完整技术栈
- 2025年8月:AutoQUEST论文正式发表于MEDINFO 2025会议,PubMed收录
- 2025年7月:推出LongWriter长文本生成系统,支持智能化学术写作和内容创作
- 2025年:CHIMA会议论文获优秀论文奖,基于DeepSeek协同的数据库结构降维研究
- 2025年:《医学信息学杂志》论文已接收排版,基于思维链推理的MAUDE数据库自动化分析
研究方向
基于我们的开源项目和发表论文,实验室在以下四个核心方向开展研究,每个方向都有具体的系统实现和学术成果:
GenAI驱动的系统架构设计
代表项目:LongWriter、Speech2Speech
研究成果:思维链推理的MAUDE数据库自动化分析(医学信息学期刊 2025)
探索如何将生成式AI集成到实际应用中,实现从长文本生成到实时语音交互的智能化系统。
数据科学全栈系统构建
代表项目:OpenFDA2PG、MAUDE-Schema-Compressor、MacM4VecFlow
技术特色:ETL工具、数据压缩、分布式向量化处理
已构建完整的FDA医疗数据处理管道,从数据获取、压缩存储到高性能分布式计算的全流程解决方案。
科研实验设计与评估方法论
代表项目:AutoQUEST
学术成果:AutoQUEST论文在MEDINFO 2025发表
开发了基于THINK/DO链式框架的智能实验评估系统,实现科研流程的自动化和标准化,研究成果已在多个会议上发表。
教育与知识传播
代表项目:GenAI-From-Zero-to-Hero (⭐ 5 GitHub Stars)
学术成果:基于聚类算法与DeepSeek协同的数据库结构降维研究(CHIMA 2025)
开发完整的GenAI教程体系,已成为业界学习生成式AI的重要资源,并在多个会议上分享最新研究成果。
端到端系统技术栈
实验室构建了完整的GenAI驱动数据科学技术栈,支持从数据获取到洞察生成的全流程自动化:
- 数据获取层:FDA开放API集成、多源数据爬取、实时数据流处理,支持TB级数据自动化采集
- 数据处理引擎:基于Python、PostgreSQL、Spark的分布式数据处理管道,支持复杂ETL操作
- GenAI分析层:集成GPT-4、Claude、DeepSeek等模型的智能分析工具链,自动生成洞察和报告
- 实验管理平台:版本控制、实验跟踪、结果对比的科研全生命周期管理系统
- 可视化与部署:交互式仪表板、自动化报告生成、跨平台部署的完整解决方案
发表论文
我们致力于在学术会议和期刊上发表端到端系统研究成果,推动AI领域的知识创新。
2025年
端到端系统项目
我们专注开发GenAI驱动的端到端数据分析和科研系统。以FDA数据生态为核心,构建可扩展到多个行业的完整数据科学工具链。
GenAI-From-Zero-to-Hero
从零开始学习生成式AI的完整教程,"Learning by Doing"理念,提供实践导向的学习资源。涵盖GenAI基础理论到实际应用的全流程教学。
MacM4VecFlow
基于macA4架构的分布式向量化数据流处理平台,构建高性能的大规模并行计算系统,支持复杂的数据处理和分析工作流。
AutoQUEST - 智能实验评估框架
面向数据科学研究的任务导向智能评估系统,基于FDA/MAUDE数据实现自动化实验设计、执行和结果评估。支持THINK/DO链式实验框架,确保研究的可重现性和科学性。
OpenFDA2PG
开源FDA数据到PostgreSQL的ETL工具,实现FDA公开数据的自动化导入和结构化存储,支持大规模医疗数据的高效处理。
MAUDE-Schema-Compressor
MAUDE医疗器械数据库的Schema压缩工具,优化数据存储和查询性能,提升医疗器械不良事件数据的处理效率。
Speech2Speech
基于ASR+LLM+TTS的语音到语音实时交互系统,专注心理咨询场景。集成FAISS向量检索和心理健康资源推荐,实现智能化语音交互体验。
开源贡献
我们积极参与和贡献各类开源AI项目,包括:
- Hugging Face Transformers - 贡献专业领域模型与数据集
- PyTorch - 优化深度学习框架在医疗领域的应用
- TensorFlow - 开发多模态模型训练工具
公开课程
实验室提供多种AI相关课程,面向开发者、研究人员和医疗信息化专业人士,涵盖从基础理论到实践应用的完整学习体系。
专业培训工作坊
GenAI从零到英雄:核心技术与实战应用
课程目标: 深入探讨生成式人工智能(Generative AI, GenAI)的核心技术、发展趋势和实际应用
学习理念: "Learning by Doing" - 理论与实践并重的渐进式学习
📚 详细课程大纲
课程整体框架、学习路径规划与先修知识检查
- Transformer模型原理与架构
- Token机制与Prompt工程
- 自然语言生成(NLG)核心技术
- 聊天机器人 vs. API接口模式对比
- 开源 vs. 闭源模型选择策略
- 性能指标与成本分析方法
- 类ChatGPT应用的完整构建流程
- 用户界面设计与交互优化
- 模型集成与部署实践
- 检索增强生成(RAG)技术深入
- 推理技术:CoT(思维链)、ToT(思维树)
- 多模态生成与AI智能体构建
- 工具集成与隐私保护最佳实践
学习时长: 40-60小时 | 难度: 初级到高级 | 语言: 中文 | 许可: MIT开源
适用人群: 开发者 • 研究人员 • 业务用户 • AI从业者
课程特色: 实战导向 • 渐进式学习 • 开源免费 • 持续更新
GitHub仓库 在线学习行业会议与工作坊
中国医院协会信息专业委员会年会
中国最大的医疗卫生信息化专业学术聚会,汇聚医疗信息化领域的最新研究成果、技术趋势和最佳实践案例。包含优秀论文分享、技术展示和专家访谈。
会议时间: 年度举办 | 参会对象: 医疗IT专业人员 | 形式: 现场+在线
核心价值: 技术更新 • 案例学习 • 行业网络 • 标准掌握
会议材料(即将发布) 报名参会研究生工作坊
生成式AI系统工作坊:原理与应用
深入研究GenAI的理论基础与系统实现,包括大语言模型、多模态AI、智能评估系统等。结合AutoQUEST智能评估框架等实际项目案例的实战工作坊。
形式: 密集培训 | 时长: 3-5天 | 实践项目: 基于AutoQUEST的智能评估系统
项目案例 报名参加分布式AI系统架构工作坊
学习分布式AI系统的设计模式、向量化处理技术和大规模并行计算。结合MacM4VecFlow分布式系统项目,掌握现代AI基础设施构建。
形式: 密集培训 | 时长: 3-5天 | 实践项目: 分布式向量处理系统
项目案例 报名参加本科生毕业设计
医学命名实体识别(Medical NER)研究方向
医学命名实体识别是医疗人工智能的核心任务之一,通过识别医疗文本中的疾病、症状、药物、检查等实体,为智能医疗系统提供基础支撑。
推荐数据集:
- CBLUE-CMeEE数据集:阿里天池发布,包含504种医疗实体类型,涵盖疾病、症状、检查、治疗等
- YiDu-S4K数据集:医渡云基于真实病历标注,来自CCKS 2019评测任务,包含疾病诊断、检查、检验、手术等实体类型
推荐的10个毕业设计题目(适合本科生):
使用Python和现有的NLP库(如jieba、HanLP),实现一个基础的医疗实体识别系统,重点掌握数据预处理和基本NER流程
构建医疗词典,使用正则表达式和规则匹配方法识别常见医疗实体,适合初学者理解NER基本概念
学习条件随机场(CRF)的基本原理,使用sklearn-crfsuite等工具包实现简单的序列标注
使用预训练的中文BERT模型,通过简单的微调实现医疗实体识别,学习深度学习基础应用
开发一个简单的Web界面,帮助用户标注医疗文本中的实体,了解数据标注流程
构建一个可视化系统,展示NER识别结果,包括实体高亮、统计分析等功能
对比不同方法的识别效果,学习评价指标(精确率、召回率、F1值)的计算和分析
选择一个特定疾病(如糖尿病),构建该领域的实体识别系统,深入了解领域知识的重要性
分析现有模型的常见错误类型,提出简单的改进方案,培养问题分析能力
将训练好的模型部署为Web API服务,学习模型部署和服务化的基本流程
指导教师: 华磊博士 | 研究支持: 实验室提供GPU计算资源
申请指导 下载详细大纲本科生工作坊
语音交互系统设计工作坊
介绍语音识别、自然语言处理、语音合成等核心技术,学习构建完整的语音交互系统。结合Speech2Speech项目学习实时语音处理技术。
形式: 实践工作坊 | 时长: 2-3天 | 实验项目: Speech2Speech语音交互系统
项目案例 报名参加医疗数据处理与分析工作坊
学习医疗数据的特点、处理方法和分析技术。使用OpenFDA2PG和MAUDE-Schema-Compressor项目,掌握大规模医疗数据的ETL和优化技术。
形式: 实践工作坊 | 时长: 2-3天 | 项目实践: FDA数据处理工具开发
项目案例 报名参加智能内容生成系统工作坊
学习长文本生成、智能写作等内容创作技术。通过LongWriter项目学习如何构建高质量的文本生成系统和多样化写作风格实现。
形式: 实践工作坊 | 时长: 2-3天 | 项目实践: 智能写作助手开发
项目案例 报名参加在线学习资源
端到端系统设计教程
基于GenAI-From-Zero-to-Hero项目的系统设计在线教程,包含完整的系统架构、数据管道设计和实验评估案例。专注于可扩展数据科学系统的构建方法。
形式: 在线教程 | 难度: 中高级 | 时长: 自定义进度
开始学习数据科学系统实践工作坊
结合AutoQUEST、OpenDBFlow等实际项目的实战培训,专为数据科学从业人员设计。涵盖系统架构设计、数据管道构建、实验评估等核心技能。
形式: 线下工作坊 | 周期: 季度举办 | 时长: 2-3天
报名参加实验室成员
Lei's E2E AI Lab 专注于GenAI驱动的端到端应用和科研,探寻GenAI潜力边界,推动人机交互演化。
核心成员
GenAI应用 | 端到端系统 | 医疗大数据 | 人机交互演化
团队精选博文
探索我们的研究洞察、技术分享和系统设计思考。这里汇集了团队成员的精选文章,涵盖GenAI应用、端到端系统设计和实验评估方法论。
正在加载博文列表...
联系我们
欢迎就合作研究、学位项目或其他事宜与我们联系。
🎨 数字艺术作品展示
探索我们的交互式数字艺术作品,体验创新的数字媒体表现形式。
📱 算法投喂
数字白痴化批判 - 体验社交媒体算法如何劫持注意力
社会批判🌑 吃不饱
数字吞噬实验 - 探讨现代人对信息的病态渴求
心理探索🖼️ 交互艺术生成器
移动端创作工具 - 数字艺术创作的无限可能
创意工具🚀 宇宙探索
星系演化与引力波 - 3D宇宙模拟器
科学可视化😤 老板消消乐
员工解气神器 - 黑色幽默的消除游戏
互动游戏🌟 终极星座体验
3D星空交互 - 沉浸式星座探索之旅
沉浸体验共 6 个交互作品,涵盖 5 个艺术类别
🎯 会议通知
主办与协办的学术会议、研讨会和培训活动
🚀 AI资讯聚合
实时汇聚全球AI研究机构和科技公司的最新资讯,包括论文发布、技术突破、产品动态等。
研究论文
来自arXiv、Google Research等顶级机构的最新AI/ML论文
行业动态
AI产业更新、产品发布、公司公告等行业资讯
申请加入实验室
欢迎加入Lei's E2E AI Lab!请填写以下信息,我们将尽快与您联系。