资讯频道 - 财经资源共享平台

15

12月

中文诗歌数据集

这是最全的中华古典文集数据库，包含 5.5 万首唐诗、26 万首宋诗、2.1 万首宋词和其他古典文集。诗人包括唐宋两朝近 1.4 万古诗人，和两宋时期 1.5 千古词人。数据来源于互联网。查看数据库需要科学上网。来源网址：https://github.com/chinese-poetry/chine...

15

12月

通识教育

什么是资源描述框架

资源描述框架(Resource Description Framework，RDF)是一个使用XML语法来表示的资料模型(Data model)，用来描述Web资源的特性，及资源与资源之间的关系。RDF是W3C在1999年2月22日所颁布的一个建议(Recommendation)，制定的目的主要是为...

15

12月

通识教育

中国宗教在线用户关键词及用户关系

【数据名称】 1. Keywords List； 2. Religion Network。【数据说明】Keywords List是中国宗教用户关键词列表，Religion Network是宗教用户构成的社交网络。【使用说明】需引用 J. Hu, Q.-M. Zhang, T. Zhou. ...

15

12月

通识教育

什么是本体（ontology）

本体（ontology）的几个代表性定义：(1)本体是对于“概念化”的某一部分的明确的总结或表达。(2)本体在不同的场合分别指“概念化”或“本体理论”。(3)本体是对于“概念化”的明确表达。(4)本体是用于描述或表达某一领域知识的一组概念或术语。它可以用来组织知识库较高层次的知识抽象，也可以用来描述...

15

12月

通识教育

中文突发事件语料库

中文突发事件语料库是由上海大学（语义智能实验室）所构建。根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系，从互联网上收集了5类（地震、火灾、交通事故、恐怖袭击和食物中毒）突发事件的新闻报道作为生语料，然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理，最后将标注结果保存到...

15

12月

通识教育

什么是知识库

知识库的概念来自两个不同的领域，一个是人工智能及其分支-知识工程领域，另一个是传统的数据库领域。由人工智能（AI）和数据库（DB）两项计算机技术的有机结合，促成了知识库系统的产生和发展。知识库是基于知识且具有智能性的系统（或专家系统）。并不是所有具有智能的程序都拥有知识库，只有基于知识的系统才拥有知...

15

12月

通识教育

中国股市信息数据集

该项目通过python脚本从巨潮网络的服务器获取中国股市公告(上市公司和监管机构),公告信息存入数据库，公告文件下载到本地。查看数据集需要科学上网。来源网址：https://github.com/startprogress/China_stock_announcement

15

12月

通识教育

什么是知识图谱

知识图谱（Knowledge Graph），在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱，是通过将应用数学、图形学、信息可视化技术、信息科学等学科的...

15

12月

通识教育

数据分析

数据分析就是从数据的角度出发，对问题进行拆解，找到业务中的痛点和痒点，通过分析原因提出解决问题的策略，并推动策略落地，从而提升业务的质量。

15

12月

通识教育

知识图谱的主要特点

（1）用户搜索次数越多，范围越广，搜索引擎就能获取越多信息和内容。（2）赋予字串新的意义，而不只是单纯的字串。（3）融合了所有的学科，以便于用户搜索时的连贯性。（4）为用户找出更加准确的信息，作出更全面的总结并提供更有深度相关的信息。（5）把与关键词相关的知识体系系统化地展示给用户。（6）从整个互联...

15

12月

通识教育

数据分析必备技能

数据处理能力：python、sql、excel；数据可视化能力：Python、PPT；良好的沟通能力。

15

12月

通识教育

可视化的意义

（1）展现全貌：很多讨论所涉及的主题都是包括多个元素，其中一个元素会影响到多个其他元素，如果不采取可视化，则无法看到全貌、也无法进行真正的讨论。（2）增强理解、便于对话、探索、交流。（3）简化复杂性，增强审视。（4）处理异议：在讨论过程中，出现观点不同时，争论的双方看到自己的观点得以记录并展现于众时...

15

12月

通识教育

缺失值处理方法——删除法

删除法，若数据集中某行记录或某一列特征的数据缺失比率大于指定阅值时，可以认为该行数据或该列特征为无效数据或无效特征，直接删除含缺失数据的记录即可。作者：名字太长显得比较长来源：CSDN

15

12月

通识教育

什么是可视化

可视化（Visualization）是利用计算机图形学和图像处理技术，将数据转换成图形或图像在屏幕上显示出来，并进行交互处理的理论、方法和技术。它涉及到计算机图形学、图像处理、计算机视觉、 [1] 计算机辅助设计等多个领域，成为研究数据表示、数据处理、决策分析等一系列问题的综合技术。目前正在飞速发...

15

12月

通识教育

缺失值处理方法——基于统计学变量的填充法

基于统计学变量的填充法，这类方法需要根据特征的类型和分布情况决定采用哪种统计学变量进行填充。例如：特征是离散型的，可以直接通过众数对缺失值进行填充；特征是连续数值型并且数据分布比较均匀，可以采用平均数对缺失值进行填充，用全局变量或是属性的平均值来代替所有缺失数据；特征是连续数值型但分布倾斜，可以采用...

15

12月

通识教育

可视化的应用领域

可视化技术最早运用于计算机科学中，并形成了可视化技术的一个重要分支——科学计算可视化(Visualization in Scientific Computing)。科学计算可视化能够把科学数据，包括测量获得的数值、图像或是计算中涉及、产生的数字信息变为直观的、以图形图像信息表示的、随时间和空间变化的...

15

12月

通识教育

缺失值处理方法——基于插值的填充法

这类方法主要是通过随机插值、拉格朗日插值、多项式插值等方法对缺失的变量值进行填充。例如：多项式插值法是通过构建多项式来拟合现有的数据，使得所有的样本数据都符合该多项式的分布，需要获取某个样本的缺失值时，通过求解该多项式来获得。作者：名字太长显得比较长来源：CSDN

15

12月

通识教育

可视化的注意事项

（1）大多使用大白纸记录（或A1幅面的大白纸，或称海报纸，或专用的56cm×85cm白板纸，注意，是用于白板的“白板-纸”，不是印刷行业专用的“白色-板纸”，后者因为是板纸，厚度惊人、重量不菲，使用不便）。（2）视不同情形，会结合使用报事贴（post-it，或称“便利贴”），尤其是需要将讨论内容移动...

15

12月

通识教育

缺失值处理方法——基于模型的填充法

这类方法是利用有监督的模型或者无监督的模型来实现缺失值的填充。例如：K近邻填充是利用聚类的方式来获得某个缺失样本邻近的若干个样本点，通过对这些样本点计算均值或加权平均来进行缺失值填充。作者：名字太长显得比较长来源：CSDN

15

12月

通识教育

数据分析的分类

在统计学领域，有些学者将数据分析划分为描述性数据分析、探索性数据分析以及验证性数据分析。描述性数据分析属于初级数据分析，常见的分析方法有对比分析法、平均分析法、交叉分析法等；而探索性数据分析以及验证性数据分析属于高级数据分析，常见的分析方法有相关分析、因子分析、回归分析等，探索性数据分析侧重于在数据...