本地方言中的植物

包括植物在内的各种物产名称是方言中具有强烈地域特性的一部分。同一植物在相邻的村镇也可能有不同的的称呼。我在这篇笔记里主要记录一些我自己村内通行的,具有明确对应的植物名称,用以备忘。

2022年12月微博疫情相关数据分析 ——以关键词“阳了”为切入点

2022年11月底至12月初,国内防疫政策调整后,各地都在经历这一特殊的过渡阶段,各地居民在2022年12月内经历新冠病毒感染结果阳性的情况十分普遍。通过分析微博这里社交媒体相关数据,有助于了解疫情在空间上和时间上的发展趋势,有助于关切社会舆论热点信息,对个人防疫卫生和政府决策都有一定帮助。

可视化并度量 BERT 的几何结构

这篇文章的发现:• BERT 在单独的句法和语义子空间中存储语言特征的证据 ◦ 已发现 2 个表示句法和语义子空间的线性变换 ◦ 这些应该是彼此正交的 ◦ 注意力矩阵似乎包含相当数量的句法信息• 休伊特和曼宁发现的表示几何的数学论证 ◦ 毕达哥拉斯嵌入(平方 嵌入)很可能是对观察到的距离的解释 ◦ 可视化• BERT 具有细粒度的词义几何表示 ◦ 不同的词义构建分离良好的集群 ◦ 在这些集群中,上下文嵌入似乎编码了额外的细粒度含义

深度矩阵分解与合成致死数据集的关系预测

本次实验参考了开源项目deep_matrix_factorization的实现,该开源项目和现有论文大都是将深度矩阵分解用作推荐系统,所使用数据集矩阵以用户为行,以电影编号/商品编号为列,以该用户对电影/商品的评分作为矩阵值。本次作业中老师提供的数据集又一次不做说明,严重影响了实验工作的开展。参考相关论文信息,我大致了解到:

癌症病人组织样本RNA表达量数据集的决策树建立

本代码文档使用ID3,C4.5算法实现了对给定癌症病人组织样本RNA表达量数据集的决策树建立。

TCGA癌症数据的主成分分析和概念描述

本代码文档实现了对给定癌症病人组织样本RNA表达量数据集的导入和主成分分析,并对结果进行了交互式可视化,核心类PCAcomponent可用于计算指定维度数或指定累计方差贡献率的主成分。