人文社科研究生如何开始进行数据挖掘和文本分析

1.人文社科研究生为什么学习文本分析?

人文社科的本质上是研究人的行为和后果。文本分析对我们而言,是一个新型的有力的研究人的行为特点的工具。

打破空间和时间的限制,帮助我们去观察那些离我们很远的人,有哪些特点、或者他们的文本传递了哪些信息。

情绪、文本相似性、复杂度、主题分类是最常用的分析侧重点。

2.完全没有编程基础的外行如何实现文本分析(思路)?

2.1 数据的获取方式

完全自助:自行编写代码制作爬虫程序

自己编程,抓取数据。优点是完全定制,充分满足你的需求;缺点是学习成本较高,完成数据收集任务可能会花费较长时间。

半包:第三方数据采集器抓取。

火车数据采集器、八爪鱼数据集器(https://www.bazhuayu.com)、后裔采集器(http://www.houyicaiji.com/)为我们提供了傻瓜化的网页数据采集工具,将复杂的网页数据抓取过程包装成易懂的按钮,简单易学好上手。

缺点是,虽然采集器都说自己免费,但可能会限制你搜集的数据量、导出的数据量。例如,八爪鱼的普通用户导出数据需要积分,而积分需要人民币购买。

(后裔采集器的广告说自己是完全免费,比八爪鱼更加智能,大家可以详细了解)

全包:找人(淘宝,闲鱼、各种论坛、同学朋友)帮你搜集数据 &  利用现成的文本数据库。

作为甲方,尽管提出诉求,将数据搜集这个工作外包出去。优点是无学习成本,且较为快速。但诉求能否被充分理解并满足、外包价格是否可以接受是最大的问题。

结论:半包优先。

        以采集器为主,优先尝试用采集器抓取你想要的网页信息;采集器无法抓取的任务,再尝试更加个性化的编程,我认为这样比较适合无基础的人开始数据采集。

2.2 数据的获取

2.2.1 研究你想要抓取的网页的结构(无论全包、半包、自己编程都需要了解)

网页呈现:我们在网页上看到的这些东西,图形、文字、字体、颜色等等都是网页源码的作用结果。

chrome 浏览器里按下F12,Elements 可以帮我们看到网页真实的模样。

注:部分电脑打开F12是需要组合键:FN + F12  或者将浏览器调成 开发者模式

网页响应(用采集器抓取可以不用了解):当你搜索某一关键词,或者点击网页上的某一按钮,其实是通过向该网站 服务器发送请求,服务器对该请求响应,本机收到响应结果的结果。

(因此当我们需要更换检索关键词或者是点击某一按钮跳转到指定页面时,其实我们是在向服务器发送请求,这些请求都是有固定的格式,通过研究目标网页的结构,我们可以了解,这个网站所用的请求发送和接受语句的格式)

F12之后,我们在network这一栏下面,可以看到每点击左侧页面,都会在右侧看到变化。

XHR这一栏下面展示的就是你实际上在进行的操作。

Hearders 下面可以看到你的点击具体向服务器发送了什么请求,以及服务器返回的结果。

知道网页的结构,和他自己独特的传话方式后,你便可以利用python里的各种库,来对请求内容进行构造,并对相应结果进行保存。

2.2.2 进行数据抓取

  • 利用数据采集器,参看采集器官网大量的教程视频,能够帮助你快速的学会如何使用这一款采集器。

  • 自己编程,安装python,开始学习python的基础知识,构建属于你自己的爬虫程序。(3.1)

3. 数据的分析

3.1 工具选择与安装

3.1.1 语言的选择

在数据的分析过程中,我用到的是python。但其实,你并不是只有这一种选择,R\C语言都可以帮你完成文本分析。只不过python最好上手。

在网站上有大量的图文教程、视频教程,教你如何在不同操作系统下进行安装。

https://www.bilibili.com/video/av37078044?from=search&seid=12713234178821402801

python在不断更新,不同版本间的规则改变可能会导致上一代中成功运行的代码,在最新版里报错。考虑到我们小白常常需要抄别人的代码,所以不推荐下载最新的,下载安装较新版本即可。

3.1.2 集成开发环境

在安装好python后你会看到,自己电脑上多了一个IDLE,在这个里面就可开始编写你自己的代码。

初次之外,还可以下载安装一些别的编译器,让你写代码的界面更加美观,编写过程更加流畅。

Jupyter Notebooks、Sublime text、Pycharm都是编译器,网上搜索python入门时,看到眼花缭乱的英文不要被搞糊涂了。他们都是编译器,不同编译器可能会有不同的输入规则或者功能,选择一款你喜欢的就好。

集成开发环境介绍:https://www.runoob.com/python/python-ide.html

3.2 使用python前需要了解的极基础的事项

https://www.runoob.com/python3/python3-tutorial.html

菜鸟教程提供了系统的基础教程,基本上用两天时间就可以学习+练习一遍基础知识。

3.3 开始进行文本分析

为什么毫无衔接的跳到了文本分析?因为在下载好工具、摸索清基础知识之后,我们就可以开始抄写改造别人的代码,为我所用了。

为什么?因为python里面有大量优秀的库,这些库能够帮我们实现很多功能。例如我们在文本分析中,对词语进行分词的jieba,我用过的LDA等,这些库,已经帮我们写好了实现目标功能的代码,而我们只需要了解调用这些库的规则、以及这些库的功能,对其进行调用即可。

思路:

  • 针对自己想要实现的功能,搜索网友分享的代码。(抄)
  • 理解代码的意思,学习过程中用##对代码进行备注
  • 梳理事情的流程。
    (有时候你需要实现多个功能,而网友分享的案例不一定和你自己的任务目标完全契合,所以需要梳理流程后,自行整合)

版权声明:本文为weixin_41158001原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
THE END
< <上一篇
下一篇>>