转载

谷歌BigQuery增加了新的公开数据集

  英文原文:Google BigQuery Adds New Public Datasets

  Stack Overflow 近日宣布,通过谷歌 BigQuery 提供它的数据集。开发人员可以使用平常的 SQL 语句查询完整的 Stack Overflow 数据集,包括帖子、投票、标签和徽章。使用 BigQuery 的 REST API,开发人员可以根据需要使用他们自选的工具导出数据。BigQuery 上的数据集支持联合查询,开发人员使用普通的 SQL 就可以跨领域获得有用的见解。

  除了 Stack Overflow 的数据集以外,BigQuery 还支持对 Hacker News数据集和 GitHub 数据集的访问,这两个数据集连同 Stack Overflow 数据集可以提供有用的见解。BigQuery 近日还围绕纽约市的数据增加了三个数据集,分别是关于机动车碰撞、城市自行车旅行及 311 非紧急市政服务电话请求。BigQuery 之前已经有一个数据集,其中包含 2009 年到 2015 年纽约市的每一次出租车和豪华轿车旅行,上述三个数据集对此是一个补充。

  当前,BigQuery 还有其他可用的数据集,其中包括气象信息(部分数据远至 1763 年)、医疗数据、350 万数字化图书、一个包含元数据并标注了 900 万 URL 的图像数据集、美国国税局及美国职棒大联盟的数据。还有一个数据集包含了世界各地的新闻和事件,每 15 分钟更新一次。该数据集是由 GDELT 项目提供的。此外,BigQuery 还包含 Personal Genome 项目提供的 Genomics 数据集、Wikipedia 页面访问量数据以及将近 20 亿条 Reddit 评论。

  感兴趣的读者可以通过 BigQuery 控制台获取 Stack Overflow 数据集,也可以通过 reddit 社区参与进一步的讨论。

正文到此结束
Loading...