Dataset Search发布，让你更容易找到想要的数据集what-s-google-dataset-search

Linux系统技术交流QQ群（2650582）验证问题答案：刘遄

导读	昨天，谷歌发布了一款重磅产品 Google Dataset Search，谷歌表示其宗旨是“Making it easier to discover datasets”，让用户更容易找到想要的数据集。

当下，许多学科的科学家和越来越多的写手需要与数据打交道，网上有成千上万的数据存储库，可以访问数百万个数据集，同时世界各个国家与地区政府也在网上公布他们的数据。谷歌表示，Dataset Search 的初衷正是为了能够让人们更加轻松地访问这些数据。

此次发布的 Dataset Search 其实也是 Google 将数据集更进一步纳入产品中的一系列举措之一，上个月我们报导过 Google 该系列举措的另一项，也就是 Google 与 30 位顶级数据记者合作，希望找到以表格形式改进信息呈现的方法，最终在通力合作之下，他们确定了在搜索返回结果中直接直观显示数据表格的方法，使用户更容易找到他们想要的信息。

Google 介绍，Dataset Search 的工作方式与 Google Scholar 类似，首先需要数据集提供者使用 schema.org 标准来描述其数据集，当用户在 Dataset Search 上搜索时，它将在任何托管位置查找相应数据集，包括发布者的网站、数字图书馆与作者的个人网页等。

关于如何将数据集录入 Dataset Search，Google 解释，“基于描述数据集信息的开放标准 schema.org，我们为数据集提供商制定了指南，以 Google（和其它搜索引擎）可以更好地理解页面内容的方式描述其数据。这些指南包括有关数据集的重要信息：数据集创建者、发布时间、数据收集方式、使用数据的条款等。然后我们收集并链接此信息，分析其中同一数据集的不同版本可能在哪里，并找到可能描述或讨论数据集的出版物。”

目前 Dataset Search 属于 beta 版，而且刚刚起步，收录的数据集还不够多，但是按耐不住搜了一下“开源中国”，返回：

又搜了一下“码云”，返回结果同上。下次再来试试。

自然而然地又搜了一下 “Linus Torvalds”，发现还真有结果，而且返回的是让人哭笑不得的内容：

搜索结果是一个来自 data.world 的数据集，“Linus Torvalds Rants”是“Linus Torvalds 发飙”的意思，嗯，这很 Linus。

兴奋地点进去（嗯？为什么我要兴奋），果然发现了宝藏：

原来这个数据集收集了 Linus 从 2012 年到 2015 年间在邮件列表上发过的飙。这里顺便提一下今年 6 月份 Linus 也发了一次大飙：有时候标准就是一坨屎。

按照指示，把该“Linus 发飙合集”在工作区打开后是下边这样的，大概感受一下：

试了一下，数据集中的条目确实可以访问到原始邮件，佩服 Linus 的高产，也为 Dataset Search 点赞，真的太方便了。如果哪天想以 Linus 的发怒为基线来写一个 Linux 内核的发展历程，那这样的搜索神器就帮大忙了。

Google 在国内素有“谷人希”（谷歌，人类的希望）的美誉，此次发布的 Dataset Search 又造福了人类。

原文来自：

本文地址：//q13zd.cn/dataset-search-google.html
编辑：韩江雪，审核员：逄增宝

本文原创地址：//q13zd.cn/dataset-search-google.html编辑：韩江雪，审核员：暂无

转载必需保留本文链接: //q13zd.cn/dataset-search-google.html

红帽RHCE认证：

Linux命令大全：

Linux系统大全：

本文依据CC-BY-NC-SA 3.0协议发布,竭诚为读者提供Linux视频教程、Linux学习资料以及红帽考试资料等优质学习资源。

刘遄老师

学员顾问

刘遄老师

咨询反馈

root@q13zd.cn

bst365最新正规买球

Dataset Search发布，让你更容易找到想要的数据集what-s-google-dataset-search

Dataset Search发布，让你更容易找到想要的数据集what-s-google-dataset-search

为您推荐一些与本文相关的文章：

Dataset Search发布，让你更容易找到想要的数据集what-s-google-dataset-search

Dataset Search发布，让你更容易找到想要的数据集what-s-google-dataset-search