nlp-4-基于深度学习的文本分类

前言

与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。

Data_analysis

前言

自从进入信息时代以来,数据分析变得越来越重要,现在数据分析工作已经融合到了各个行业和领域,是我们了解领域、行业、公司、组织、个人的发展现状及趋势的必要工具,借助数据分析,我们可以更好的了解事件本身的内在规律和发展趋势,因此学习并掌握数据分析技能对于提升个人的竞争力非常有意义。

nlp-3-基于机器学习的文本分类

1. 前言

文本型数据的读取与训练与图片等其他格式较为一致的数据不同,文本数据一般不定长,所以如果要进行机器学习的矩阵训练,需要先对文本数据进行归一化处理,把文本转换成可以进行运算的shape相同的向量,然后输入算法进行学习。转换的方法有几种,下面的文本表示方法引用自Datawhale零基础入门NLP赛事 - Task3 基于机器学习的文本分类

nlp-2-数据读取与数据分析

前言

昨天我们了解了比赛的基本内容以及一些思路,下载了比赛的数据,今天我们就来探索一下我们现有的数据。

nlp_天池_01

一、前言

NLP是机器学习当中的掌上明珠,只有通过nlp才可能真正的达到“知情达意”的AI。这是一个从零开始学习NLP的项目,通过对项目的探索来达到了解、掌握基本nlp知识的目的。此项目来源于阿里云天池竞赛中的一个新闻文本分类的nlp赛题。

正则学习笔记

前言

正则表达式,也可以称之为“标准表达式”,是通用的字符匹配工具,在各种文本中,采用正则都可以匹配自己想要的内容,即使不同文本的编写格式各异。这也是正则的强大之处。正则由普通字符、非打印字符、特殊字符、限定符、定位符5部分构成,通过这5部分的排列组合,可以用于匹配各种特征的字符,在我们需要动态查找、匹配、替换时,意义重大。

pandas

1. 前言

Numpy和pandas是python当中两个非常重要的库,用于配合科学运算和矩阵处理。程序是算法与数据的结合,二者缺一不可,而numpy和pandas就是python中用于处理数据的利器,因此学习这两个package的使用非常重要。在使用matplotlib和seaborn进行数据可视化的时候,就会发现,所有作图的关键在于数据格式的把控,这两个package所提供的API就像是图表的模具,而整理好相应格式的数据就是原料,numpy和pandas就是整理数据的工具。接下来让我们开始学习这两个package吧。在这上一篇博客中我们学习了numpy,这一篇博客中我们来学习pandas。

python-packages
这是一幅python_package的总览图,由此我们可以大概了解,有哪些很值得我们学习的package。

numpy

1. 前言

Numpy和pandas是python当中两个非常重要的库,用于配合科学运算和矩阵处理。程序是算法与数据的结合,二者缺一不可,而numpy和pandas就是python中用于处理数据的利器,因此学习这两个package的使用非常重要。在使用matplotlib和seaborn进行数据可视化的时候,就会发现,所有作图的关键在于数据格式的把控,这两个package所提供的API就像是图表的模具,而整理好相应格式的数据就是原料,numpy和pandas就是整理数据的工具。接下来让我们开始学习这两个package吧。在这一篇博客中我们先学习numpy。

python-packages
这是一幅python_package的总览图,由此我们可以大概了解,有哪些很值得我们学习的package。

Yellowseabream-record

前言

这是实验室的一个新项目,探讨的是Yellowseabream在生长发育中雄转雌现象的调控基因,这个项目有两个部分,取的样品有脑组织和普通组织,普通组织部分的分析结果已经完成,我负责完成脑组织转录组的分析。因此我将在这篇博客中记录下我在整个项目的过程中的操作,方便以后进行结果整理以及纠错。

fastqc_multiqc结果解读

1. 前言

在得到了测序结果之后,我们需要评估一下测序的质量,因此我们需要对测序的数据进行统计评价,这里采用的软件组合就是fastqc和multiqc,fastqc用于对每一组的测序结果进行评价并且输出html结果文件,但是当同时有比较多组的测序数据时,一份份html文件去翻阅是非常麻烦的,此时multiqc就派上用场了,multiqc可以对这些结果进行整合,生成一份html文件,方便查阅。

为什么要进行质量评价呢?因为我们后期的所有分析都是基于测序数据展开的,测序数据质量的高低直接影响了我们分析的结果,因此在所有分析步骤之前,我们必须要对测序的数据的质量进行评价,只有达到我们的要求的测序数据才能用于下一步分析。