从 Web 数据源和 API 获取数据

开始前的准备工作

从 API 获取数据

打开你的 Kotlin Notebook 文件 (.ipynb).
导入 Kotlin DataFrame 库, 数据处理任务需要使用它. 在一个代码单元(Code Cell)中运行以下命令:
```
%use dataframe
```
在一个新的代码单元中安全的添加你的 API Key, 这个 Key 用来对 YouTube 数据 API 请求进行认证. 你可以从 credentials 页面得到你的 API Key:
```
val apiKey = "YOUR-API_KEY"
```
创建一个 load 函数, 参数是一个表示 path 的字符串, 并使用 DataFrame 的 .read() 函数, 从 YouTube 数据 API 获取数据:
```
fun load(path: String): AnyRow = DataRow.read("https://www.googleapis.com/youtube/v3/$path&key=$apiKey")
```

将获取的数据组织为行, 并通过 nextPageToken 处理 YouTube API 的分页. 这可以保证你能够得到跨越多页的数据:

fun load(path: String, maxPages: Int): AnyFrame {
    // 初始化一个可变的 List, 保存数据的行.
    val rows = mutableListOf<AnyRow>()

    // 设置初始页的 path, 用于载入数据.
    var pagePath = path
    do {
        // 从当前页的 path 载入数据.
        val row = load(pagePath)
        // 将载入的数据作为行, 添加到 List.
        rows.add(row)

        // 如果存在, 获得下一页的 token.
        val next = row.getValueOrNull<String>("nextPageToken")
        // 更新页的 path, 用于取得下一页, 其中包含新的 token.
        pagePath = path + "&pageToken=" + next

        // 继续装载, 直到不存在下一页.
    } while (next != null && rows.size < maxPages)

    // 拼接已装载的所有行, 并作为 DataFrame 返回.
    return rows.concat()
}

在一个新的代码单元中, 使用前面定义的 load() 函数, 获取数据并创建一个 DataFrame. 这个示例会获取数据, 这里是关于 Kotlin 的视频, 每页最大 50 条结果, 最大 5 页. 结果保存在 df 变量中:
```
val df = load("search?q=kotlin&maxResults=50&part=snippet", 5)
df
```
最后, 从 DataFrame 抽取元素, 并拼接在一起:
```
val items = df.items.concat()
items
```

清理和优化(Refine)数据

你可以首先重整并清理你的数据. 包括将某些列移动到新标题下, 以及删除不需要的列, 以提高清晰度:

val videos = items.dropNulls { id.videoId }
    .select { id.videoId named "id" and snippet }
    .distinct()
videos

从清理后的数据获取分块 ID (Chunk ID), 并装载对应的视频统计数据. 包括将数据分为较小的批次, 并获取更多详细信息:

val statPages = clean.id.chunked(50).map {
    val ids = it.joinToString("%2C")
    load("videos?part=statistics&id=$ids")
}
statPages

将获取的统计数据拼接起来, 并选择相关的列:

val stats = statPages.items.concat().select { id and statistics.all() }.parse()
stats

将已有的清理后的数据, 与新获取统计数据结合起来. 这一步会将 2 组数据合并为一个综合的 DataFrame:
```
val joined = clean.join(stats)
joined
```

在 Kotlin Notebook 中分析数据

我们来看一个示例, 使用 groupBy 对视频按照 channel 进行分组, 使用 sum 计算每个分组的总计观看次数, 使用 maxBy 查找每个组中最新的或最多观看次数的视频:

设置引用, 简化对特定列的访问:
```
val view by column<Int>()
```
使用 groupBy 方法, 根据 channel 列分组数据, 并排序.
```
val channels = joined.groupBy { channel }.sortByCount()
```
在结果表中, 你可以交互式的浏览数据. 每行对应一个 channel, 点击一行的 group 字段, 会展开这个行, 显示这个 channel 的视频的更多细节.
你可以点击左下方的表格图标, 返回分组的数据集.

使用 aggregate, sum, maxBy, 和 flatten, 创建一个 DataFrame, 汇总每个 channel 的总计观看次数, 以及它的最新或最多观看次数的视频的详细信息:

val aggregated = channels.aggregate {
    viewCount.sum() into view

    val last = maxBy { publishedAt }
    last.title into "last title"
    last.publishedAt into "time"
    last.viewCount into "viewCount"
    // 对 DataFrame 根据观看次数逆序排序, 并转换为扁平结构.
}.sortByDesc(view).flatten()
aggregated

从 Web 数据源和 API 获取数据﻿

tip

开始前的准备工作﻿

从 API 获取数据﻿

清理和优化(Refine)数据﻿

在 Kotlin Notebook 中分析数据﻿

下一步做什么﻿

开始前的准备工作

从 API 获取数据

清理和优化(Refine)数据

在 Kotlin Notebook 中分析数据

下一步做什么