Create Machine Learning aus CSV Files

Swiffer · 1. August 2018, 23:30

Hallo allerseits!

ich versuche hier aus einigen CSV files mir ein Machine Learning model zu erstellen. Das scheint zu klappen, aber ob das so richtig gemacht wurde glaube ich nicht so ganz und brauche deswegen hier Hilfe.

Was habe ich vor:

Ich möchte Mithilfe von Machine Learning die Position im Raum an Hand Bluetooth Signalen ermitteln können.

Was habe ich gemacht:

Ich erstelle ein Fingerprint, an Hand Bluetoothdaten die ich im Raum so empfange.
Diese Daten werden im CSV-Format abgespeichert.
Jedes CSV file ist ein Fingerprint von einem festen Ort (Quadrant) im Raum.

Ich hab jetzt Testhalber 5 Fingerprints von einem Raum gemacht. A.csv, B.csv, C.csv, D.csv. E.csv jeder jeweils in einem eigenen Ordner im TrainingDataSet. Das selbe gilt auch für das TestingDataSet.

Wie mache ich das nun richtig?

Ich hab hier folgenden Code geschrieben:

Python-Quellcode

import Foundation
import CreateML
let trainSetCSV = URL(fileURLWithPath: "/Users/Swiffer/Downloads/Machine_Learning/Data/Training_Data/")
let testSetCSV = URL(fileURLWithPath: "/Users/Swiffer/Downloads/Machine_Learning/Data/Testing_Data/")
let model = try MLTextClassifier(trainingData: .labeledDirectories(at: trainSetCSV))
model.trainingMetrics
let res = model.evaluation(on: .labeledDirectories(at: testSetCSV))
let writeToUrl = URL(fileURLWithPath: "/Users/Swiffer/Downloads/Machine_Learning/Data/Result/")
try model.write(to: writeToUrl)

Alles anzeigen

Raus bekomme ich das:

Quellcode

Skipping automatic creation of validation set; training set has fewer than 50 points.
Tokenizing data and extracting features
Starting MaxEnt training with 5 samples
Iteration 1 training accuracy 0.200000
Iteration 2 training accuracy 0.800000
Iteration 3 training accuracy 1.000000
Finished MaxEnt training in 0.00 seconds
No file name specified for saving the model, using default name 'TextClassifier.mlmodel'
Trained model successfully saved at /Users/Swiffer/Downloads/Machine_Learning/Data/Result/TextClassifier.mlmodel.

Ist mein Vorhaben so wie ich den model erstellt habe richtig? Denn, ich hab hier die Vermutung, dass hier nicht wirklich in jedes einzelne CSV file eingegangen wird. Außerdem ging mir das sogar zu schnell.

Ich bin für jede Hilfe dankbar!

- Swiffer

marcoo · 6. August 2018, 09:34

Hallo Swiffer!

Zugegebenermaßen kann ich nur Vermutungen äußern, aber "5 samples" passt doch zu fünf Dateien.
Wenn in den Dateien jeweils nur wenige Kilobyte Daten drin stecken, sind die super schnell gelesen und
vermutlich auch superschnell verarbeitet. TestingData wird gar nicht verwendet.

CreateML weist auch schon darauf hin, dass es sehr wenig Daten bekommt. Falls die Dateien selbst
doch größer sind, vermute ich, dass der gewählte initializer nicht der richtige ist.

Wieviele Zeilen stehen denn jeweils in den CSV-Dateien?

Grüße
Marco