scala 如何读取 csv 文件

scala 读取 csv 文件

smile-yan

10749人浏览 · 2022-09-15 19:26:56

smile-yan · 2022-09-15 19:26:56 发布

编写目的

scala 相关的博客比较少，并且查询总总跳转到 spark 相关的内容，这里记录一下 scala 读取 csv 文件的操作过程（未找到合适的依赖库，自己实现同样简单）。

代码实现

需要注意自己需要知道 csv 文件有几列，然后再使用 split 方法将其划分成两个对象。

导入依赖

import scala.collection.mutable.ArrayBuffer
import scala.io.Source

/**
 * 读取 csv 文件
 * @param filename
 */
def read_csv(filename: String) : Seq[(Long, Double)] = {
  val src = Source.fromFile(filename)
  val timestamp_value: ArrayBuffer[String] = ArrayBuffer()

  for (line <- src.getLines()) {
    if (line.nonEmpty && line.contains(",")) {
      timestamp_value.append(line.trim)
    }
  }
  
  // 这里已知 csv 文件只有两列。
  // 请根据实际情况设置
  
  // 去掉第一个并转换格式
  val series = timestamp_value.tail.map(str => {
    val pair = str.split(",")
    (formatted.parse(pair(0)).getTime, java.lang.Double.parseDouble(pair(1)))
  })

  src.close()
  series
}