个人简历
有计算机视觉与医学人工智能基础的研究生 | 学习具身智能
教育背景
人工智能与自适应系统硕士
萨塞克斯人工智能学院,浙江工商大学
中国杭州 | 2024-至今
- 核心课程:动物与机器中的智能,智能系统技术,图像处理,自然语言处理,机器学习
- 导师:Peter Wijeratne助理教授(萨塞克斯大学)和谢满德教授(浙江工商大学)
- 研究方向:将物理模型整合到VAE框架中,提高潜在空间的可解释性。
- 预计毕业时间:2026年3月
计算机科学与技术学士
温州商学院
中国温州 | 2019-2023
- GPA: 3.41/5.0 (84.7/100)
- 毕业论文: "基于深度学习和骨架框架的吸烟行为检测"
- 相关课程: 数据结构与算法,Python编程,数据分析,机器学习
- 论文指导教师: 匡芳君教授
- 校内经历: 本科期间担任学生会干事、校级社团社长;硕士期间担任班委、党支部委员
项目与实习经历
实习学生
温州医科大学附属第一医院 - 肝胆胰外科实验室
中国温州 | 2022年9月 - 2023年1月
- 协助开发临床应用的医学图像预处理软件,获得软件著作权登记(2022SR0252378)
- 参与基于舌象分析的白血病诊断深度学习模型开发
- 协助创建肝细胞癌研究中的外泌体特征分析机器学习算法
- 技术: PyTorch, TensorFlow, OpenCV
学生团队负责人,国家级大学生创新训练项目
温州商学院
2022年6月 - 2023年6月
- 作为团队负责人与其他4名同学合作,探索使用注意力机制增强YOLO模型
- 尝试实现并测试自注意力模块修改方案,探索提高检测准确性的方法
- 在团队合作下获得了3项软件著作权和递交1项发明专利申请
- 技术: PyTorch, YOLO, 计算机视觉, OpenCV
- 指导教师: 张思扬教授
实习生
浙江大学城乡规划设计研究院有限公司
中国杭州 | 2025年9月 - 2025年12月
- 面向政企场景的智能文档处理与多智能体工作流项目,受保密协议约束
- 引入MCP工具与可插拔工具链,实现多Agent协作与可观测性
- 设计用户中断与断点继续机制,推动方案在生产环境稳定运行
参与政企项目
企业合作
2025年
- 将基于CUDA的YOLOv8训练/推理链路迁移至8×华为昇腾910B(NPU),完成CANN/ACL适配与HCCL多卡训练
- 修复关键算子差异并对齐精度;在保持mAP基本不降前提下优化数据流水与图模式执行
- 支持容器化上线与稳定运行
已发表论文
Machine Learning Identifies Exosome Features Related to Hepatocellular Carcinoma
期刊: Frontiers in Cell and Developmental Biology (2022年9月)
作者: Kai Zhu, Qiqi Tao, Jiatao Yan, Zhichao Lang, Xinmiao Li, Yifei Li, Congcong Fan, Zhengping Yu
DOI: 10.3389/fcell.2022.1020415
影响因子: 5.8
共同第一作者(位次第三):负责机器学习分析流程的设计与实现。应用并比较了多种算法(随机森林、SVM‑RFE、LASSO),从高维外泌体蛋白质组数据中筛选并验证出具有高预测价值的关键生物标志物。
Multi-omics and Machine Learning-driven CD8+ T Cell Heterogeneity Score for Prognosis
期刊: Molecular Therapy Nucleic Acids (2024年12月)
作者: Di He, Zhan Yang, Tian Zhang, Yaxian Luo, Lianjie Peng, Jiatao Yan, Tao Qiu, Jingyu Zhang, Luying Qin, Zhichao Liu, Xiaoting Zhang, Lining Lin, Mouyuan Sun
DOI: 10.1016/j.omtn.2024.102413
影响因子: 6.4
贡献:作为机器学习技术支持,实现包括LASSO回归在内的多种算法,从多组学数据中识别与头颈鳞癌(HNSCC)预后相关的关键基因,为构建CD8+T细胞异质性评分提供计算支持与特征输入。
Using Multiomics and Machine Learning: Insights into Improving the Outcomes of Clear Cell Renal Cell Carcinoma via the SRD5A3-AS1/hsa-let-7e-5p/RRM2 Axis
期刊: ACS Omega (2025年6月)
作者: Mouyuan Sun, Zhan Yang, Yaxian Luo, Luying Qin, Lianjie Peng, Chaoran Pan, Jiatao Yan, Tao Qiu, Yan Zhang
影响因子: 3.7
贡献:实现完整的机器学习分析流程,识别并量化SRD5A3-AS1/hsa-let-7e-5p/RRM2信号轴在透明细胞肾细胞癌(ccRCC)中的预后价值;参与单细胞与空间转录组分析验证。
A multi-data fusion deep learning model for prognostic prediction in upper tract urothelial carcinoma
期刊: Frontiers in Oncology (2025年8月)
作者: Hongdi Sun, Siping Chen, Yongxing Bao, Fengyan You, Honghui Zhu, Xin Yao, Lianguo Chen, Jiangwei Miao, Fanggui Shao, Xiaomin Gao, Binwei Lin
DOI: 10.3389/fonc.2025.1644250
贡献:设计并实现用于分析多相位CT图像的深度学习架构;将影像特征与临床数据整合以构建综合预测模型;参与模型验证与性能优化,为论文产出提供关键技术支持。
准备中的论文
YOLOv11-LCDFS: Enhanced Smoking Detection With Low-light Enhancement
修订中
作者: Jiatao Yan, Zhuzikai Zheng, Zhengtan Yang, Hao Jiang, Peichen Wang, Fangjun Kuang, Siyang Zhang
第一作者:开发一种基于YOLO的架构,集成低光照增强功能、损失函数、注意力机制和优化的上采样技术,来提高在不同光照条件下的检测能力。
A Spatio-Temporal Graph Transformer for Decoding Motor Imagery from fNIRS in Post-Stroke Patients
准备中
第一作者:提出用于fNIRS运动想象解码的时空图Transformer(STGT),在真实卒中患者数据上完成统一协议评估(LOSO平均准确率约79.8%),并进行注意力与特征归因的可解释分析。
Validating the TCM Kidney–Brain Co‑Treatment Theory for Post‑Stroke Dysphagia via Explainable Multimodal AI
准备中
第一作者:融合3D脑病灶影像与临床特征,引入“肾虚代理组”以操作化理论,并结合SHAP与Grad‑CAM进行可解释分析,验证“肾→脑→吞咽”的因果链条。
A Deep Learning Model for Automated Sonographic Assessment of Diastasis Recti Abdominis
准备中
第一作者:提出面向腹直肌分离(DRA)的超声自动评估模型,实现分割、关键点估计与像素-厘米标定,支持近实时推理以降低人工测量负担。
软件著作权与发明专利
专利申请
名称: 吸烟行为识别摄像头及判定方法
申请号: 202310277784.1
状态: 申请流程已完成 - 因学历要求而非技术原因撤回
发明人: 严佳涛, 张思扬, 匡芳君, 王培臣, 郑朱子恺, 蒋昊, 杨政潭, 包瀚文, 夏春秋
简介: 结合姿态估计的公共场所吸烟行为实时检测方法。
软件著作权
- 医学图像计算软件 (2022SR0252378)
授权时间: 2022年4月 - 人体骨架识别软件 (2022SR1258998)
授权时间: 2022年10月 - 香烟识别软件 (2022SR1277520)
授权时间: 2022年10月 - 吸烟行为检测软件 (2022SR1277521)
授权时间: 2022年10月
学术成果与奖项
耶鲁/北卡罗来纳州大学教堂山分校 - 地球物理波形反演
排名 255/1365 | 前19% | Kaggle全球竞赛 | 2025.07.01
BYU - 细菌鞭毛马达定位 2025
排名 315/1136 | 前28% | Kaggle全球竞赛 | 2025.06.05
预测卡路里消耗竞赛
排名 178/4316 | 前5% | Kaggle全球竞赛 | 2025.06.01
斯坦福RNA 3D折叠竞赛
铜牌 | 排名 144/1516 | 前10% | Kaggle全球竞赛 | 截止时间2025.5.23
预测播客收听时间竞赛
排名 116/3310 | 前4% | Kaggle全球竞赛 | 2025.05.01
HuBMAP + HPA 竞赛
排名 441/1174 | 前38% | Kaggle全球竞赛 | 2022年9月
第18届"挑战杯"大学生竞赛
铜牌 | 浙江省级 | 2023年5月
第4届全国"传智杯"IT技能竞赛
省级优秀奖 | 浙江省 | 2021年12月
2023年温州计算机学会学生会员创新创业奖
三等奖 | 温州 | 2024年4月
项目经历
YOLOv11-LCDFS:结合低光照增强的吸烟检测探索
在本科吸烟检测研究基础上,学习如何提高在复杂光照条件下的目标检测能力。尝试探索基于YOLO架构的改进方法,学习针对低光照环境的特殊处理技术。 GitHub
- 探索针对低光照目标检测场景的改进损失函数
- 学习在不同光照条件下关注关键视觉特征的注意力机制实现方法
- 尝试优化上采样技术以在黑暗环境中保留细节信息
- 探索将轻量级低光照增强模块集成到检测流程中的方法
使用的技术: PyTorch, YOLO, 计算机视觉, CUDA, 注意力机制
状态: 进行中(2025年4月)
相关成果: 准备中的论文:YOLOv11‑LCDFS: Enhanced Smoking Detection With Low‑light Enhancement(第一作者)
多模态3D医学图像分割
开发多模态3D医学图像分割系统,整合T2加权成像和扩散加权成像(DWI)数据,实现多种深度学习架构对比研究。 GitHub
- 实现多模态医学影像数据处理,包括NIfTI格式处理、强度归一化和多掩码合并
- 开发实现3D分割架构:3D U-Net、Swin-UNETR(基于Transformer)、TransUNet和DeepLabV3Plus
- 建立数据匹配系统,处理T2和DWI影像的时间和空间对齐
- 设计3D体积到2D切片的转换流程,支持不同深度学习框架的数据格式要求
使用的技术: Python, PyTorch, NiBabel, MONAI, 3D分割, Transformer架构, 多模态融合, NumPy
状态: 进行中(2025年4月)
相关成果: 准备中的论文(多模态医学影像分割与融合方向)
基于深度学习的疾病检测系统
开发针对医学影像的目标检测系统,关注糖尿病足溃疡检测,实现不同的YOLOv8架构变体进行系统性对比研究。 GitHub
- 实现多种注意力机制(GAM、CBAM、ECA、CoordAtt、TripletAttention)增强YOLOv8架构的特征提取能力
- 集成上采样技术(CARAFE、DySample)和动态卷积,提高小目标检测精度和特征图分辨率
- 设计基于三元组损失、Inner-CIoU和Focus Loss的自定义损失函数,优化医学图像中的目标检测性能
- 建立实验框架,通过模型变体的比较,验证不同技术组合在临床场景中的有效性
使用的技术: PyTorch, YOLOv8, 注意力机制, 动态卷积, 自定义损失函数, 上采样技术, 医学图像处理
时间: 2024年8月
Twitter质量与垃圾信息检测系统
开发机器学习系统用于Twitter内容质量评估和垃圾信息检测,实现传统机器学习和深度学习两种方法对比。 GitHub
- 处理包含11,968条推文的数据集,进行文本预处理和特征工程
- 创建复合特征:关注者关注比率、每关注者行动数等用户行为指标,结合TF-IDF文本特征
- 实现朴素贝叶斯分类器(网格搜索优化)和双层LSTM深度学习模型进行垃圾信息检测
- 使用ROC曲线、混淆矩阵、交叉验证等多种评估方法优化模型性能和阈值选择
使用的技术: Python, TensorFlow/Keras, LSTM, TF-IDF, NLTK, scikit-learn, Pandas, Matplotlib, Seaborn, WordCloud
时间: 2024年8月
Airbnb价格分析与预测系统
基于各种物业特征和位置数据预测纽约市Airbnb房源价格,实现传统机器学习和深度学习两种价格预测方法。 GitHub
- 对包含49,000个房源的纽约市Airbnb数据集进行探索性分析,创建热力图和地理空间可视化查看价格分布模式
- 使用GeoPandas和Contextily进行地理空间分析,结合NYC社区边界数据可视化房源分布和价格热点区域
- 实现两种预测方法:RandomForest回归模型和Keras深度神经网络(双隐层架构)进行价格预测
- 通过特征工程和数据预处理提升模型性能,使用RMSE和MAE评估模型准确性
使用的技术: Python, Pandas, Scikit-learn, Keras/TensorFlow, GeoPandas, Contextily, Matplotlib, Seaborn, RandomForest
时间: 2024年1月
航空公司情感分析系统
为航空相关推文开发情感分析系统,将客户反馈分类为积极、消极或中性,实现传统机器学习和深度学习两种方法对比。 GitHub
- 为Twitter数据设计文本预处理流程(去除标签、提及、表情符号、URL,词元化处理)
- 实现两种不同的方法:基于CountVectorizer的朴素贝叶斯分类器和基于LSTM的深度学习模型
- 构建双层LSTM网络架构,包含300维词嵌入层、128和64神经元的LSTM层、Dropout正则化和早停机制
- 使用词云、ROC曲线、混淆矩阵等可视化技术分析情感分布和模型性能
使用的技术: Python, TensorFlow/Keras, LSTM, 词嵌入, scikit-learn, NLTK, Pandas, Matplotlib, Seaborn, Plotly, WordCloud
时间: 2023年12月
吸烟行为检测系统
本科毕业论文项目,在导师指导下学习结合YOLO目标检测与MediaPipe骨架跟踪技术,识别视频流中的吸烟动作。 GitHub
- 使用YOLO目标检测技术在视频中识别香烟和相关物体
- 使用MediaPipe进行实时骨架跟踪和姿态估计
- 在指导下设计算法识别特征吸烟手到嘴动作模式
使用的技术: YOLO, MediaPipe, 姿态估计, 动作识别, PyTorch, OpenCV
时间: 2023年4月
成果: 专利申请(202310277784.1),3项软件著作权,论文获得优秀毕业论文
心脏病预测系统
基于患者数据和健康指标预测心脏病的可能性 GitHub
- 对包含各种健康指标和人口统计信息的数据集进行探索性分析
- 通过特征选择和工程方法,识别心脏病的关键预测因素
- 实现和比较多种分类算法,包括K-近邻、支持向量机、随机森林和朴素贝叶斯
- 使用交叉验证技术优化模型参数提高预测性能
- 创建可视化来理解健康因素之间的关系
使用的技术: Python, TensorFlow 2.11.0, scikit-learn, Pandas, NumPy, Matplotlib, Seaborn
时间: 2022年5月
研究兴趣
医学人工智能
- 学习用于医学图像分析和疾病诊断的深度学习
- 多模态临床数据整合和特征提取
- 探索临床应用的计算机辅助诊断系统
具身智能
- 研究机器人如何通过与世界的物理交互产生智能
- 探索具身智能体中感知与行动的联系
- 学习机器人应用中的强化学习
计算机视觉
- 基于注意力的目标检测架构
- 人体姿态估计和行为识别
- 实际应用的视觉特征提取
多智能体系统
- 理解多个智能体如何协同工作
- 对智能体群体中的涌现行为和集体智能好奇
- 想要学习多智能体人工智能系统的基础知识
技术技能
编程语言
- Python
- C, Java, SQL
- C#, JavaScript, Vue
人工智能与机器学习
- 框架: PyTorch, TensorFlow
- 领域: 计算机视觉, 深度学习, 强化学习
- 技术: CNN, 注意力机制, 迁移学习
开发工具
- 版本控制: Git, GitHub
- 文档: LaTeX, Markdown
- 环境: Linux, Jupyter, Docker
数据分析
- 库: NumPy, Pandas, SciPy
- 可视化: Matplotlib, Seaborn, Plotly
语言
- 中文: 母语
- 英语: 雅思 6.0(听力 6.5 / 阅读 6.5 / 写作 5.5 / 口语 6.0);CET-6 467
证书
- DevCloud夏令营培训(华为)
- 人工智能基础Python(山东大学)
- 深度学习基础(山东大学)
专业发展与学习方向
当前学习重点
具身智能和机器人学方向的自主学习,关注以下领域:
- 具身人工智能核心算法: 学习强化学习、模仿学习、模型预测控制和适用于机器人的扩散模型等基础知识
- 视觉-语言-动作模型: 了解将感知、语言理解和动作生成集成用于机器人控制的基础模型
- 机器人学习: 探索各种环境中的操作和导航技术,关注仿真到现实的迁移学习
- 多智能体系统: 初步接触多智能体强化学习场景中的协调机制和涌现行为
- 仿真环境: 开始学习MuJoCo、Isaac Gym或Habitat等具身人工智能研究和开发环境
关键学习资源
- GitHub资源:
- Embodied-AI-Guide (github.com/tianxingchen/Embodied-AI-Guide):具身智能研究综合指南(4.6k+星),这个仓库涵盖:
- 核心算法,包括强化学习、模仿学习、模型预测控制和扩散模型
- 用于机器人控制的视觉-语言-动作(VLA)模型
- 硬件平台和模拟器环境,如MuJoCo、Isaac Gym和Habitat
- 适用于具身智能体的计算机视觉和3D感知技术
- 用于操作和导航任务的机器人学习方法
- Embodied-AI-Paper-List (github.com/Lumina-EAI/Embodied-AI-Paper-List):按主题分类的重要研究论文精选集
- Awesome-Embodied-AI-Job (github.com/StarCycle/Awesome-Embodied-AI-Job):跟踪具身智能研究机会的资源
- Embodied-AI-Guide (github.com/tianxingchen/Embodied-AI-Guide):具身智能研究综合指南(4.6k+星),这个仓库涵盖:
- 研究文献:
- 关注来自ICRA、CoRL、NeurIPS、CVPR和ICLR会议聚焦于具身人工智能的最新论文
- 学习机器人学习的基础模型,特别是视觉-语言-动作模型的研究
- 跟踪基于大语言模型的机器人规划和控制发展
- 探索机器人操作的仿真到现实迁移技术
我感兴趣的研究问题
- 机器人如何通过与环境互动发展智能?
- 什么机制能让多个智能体自组织并发展专门角色?
- 人工智能系统如何自动分解复杂任务并协作使用专门工具?
- 物理具身在发展稳健和可泛化智能中扮演什么角色?
参考信息
可根据需要提供专业和学术参考信息。
