!*rm -f go.work && go work init && go work use . "${HOME}/Projects/gomlx"
%goworkfix

	- Added replace rule for module "github.com/gomlx/gomlx" to local directory "/home/janpf/Projects/gomlx".

import (
    "github.com/gomlx/gomlx/ml/data"
    "github.com/gomlx/gomlx/ml/context"
    "github.com/gomlx/gomlx/examples/dogsvscats"
    "github.com/janpfeifer/must"
)

var (
    flagDataDir   = flag.String("data", "~/work/dogs_vs_cats", "Directory to cache downloaded and generated dataset files.")
    flagCheckpoint = flag.String("checkpoint", "", "Directory save and load checkpoints from. If left empty, no checkpoints are created.")
    contextSettings *string
)

// init_contextSettings is executed at initialization and sets the flag "set" to accept the default context setting flags.
// Use --help to see all options one can set.
func init_contextSettings() {
	ctx := dogsvscats.CreateDefaultContext()
	contextSettings = commandline.CreateContextSettingsFlag(ctx, "set")
}

// ContextFromSettings returns the default context merged with values parsed from -set flag.
// It also returns the list of parameters set with -set flag.
func ContextFromSettings() (ctx *context.Context, paramsSet []string) {
    ctx = dogsvscats.CreateDefaultContext()
    paramsSet = must.M1(commandline.ParseContextSettings(ctx, *contextSettings))
    return
}
%% 
ctx, _ := ContextFromSettings()
config := dogsvscats.NewPreprocessingConfigurationFromContext(ctx, *flagDataDir)
// Download dataset, if not yet downloaded.
must.M(dogsvscats.Download(config.DataDir))
fmt.Println("Dogs vs Cats dataset downloaded.")

Dogs vs Cats dataset downloaded.

import(
    timage "github.com/gomlx/gomlx/types/tensors/images"
    "github.com/gomlx/gomlx/types/tensor"
    "github.com/gomlx/gomlx/ml/data"
    "github.com/gomlx/gopjrt/dtypes"

    "github.com/janpfeifer/gonb/gonbui"
)

// sample some random augmented images and display them in the Notebook.
func sample(config *dogsvscats.PreprocessingConfiguration, numRows, numPerRow int) {
    var images []image.Image
    var labels []dogsvscats.DogOrCat

    // Create datasets with batch size equals 2*numPerRow.
    var configForSample dogsvscats.PreprocessingConfiguration
    configForSample = *config
    configForSample.BatchSize = numRows*numPerRow  // Sample only what we need, in one batch.
    configForSample.ModelImageSize = 256
    configForSample.ForceOriginal = true
    configForSample.UseParallelism = true
    configForSample.DType = dtypes.Uint8
    
    // Sample the images.
    ds, _, _ := dogsvscats.CreateDatasets(&configForSample)
    _, inputsT, labelsT := must.M3(ds.Yield())
    
    // Get indices and labels of the images.
    indices := inputsT[1].Value().([]int64)
    labelsFloat := labelsT[0].Value().([]uint8)
    labels = make([]dogsvscats.DogOrCat, 0, numRows*numPerRow)
    for _, labelFloat := range labelsFloat {
        labels = append(labels, dogsvscats.DogOrCat(labelFloat))
    }
    
    // Convert images from tensor to Go images.
    images = timage.ToImage().Batch(inputsT[0])
    htmlRows := make([]string, 0, numRows)
    count := 0
    for row := 0; row < numRows; row++ {
        cells := make([]string, 0, numPerRow)
        for col := 0; col < numPerRow; col++ {
            imgIdx := indices[count]
            cells = append(cells, embedImageInHTML(images[count], labels[count].String(), imgIdx, 256))
            count++
        }
        htmlRows = append(htmlRows, fmt.Sprintf("<tr>\n\t<td>%s</td>\n</tr>", strings.Join(cells, "</td>\n\t<td>")))
    }
    htmlTable := fmt.Sprintf("<h3>%s</h3><table>%s</table>\n", "Sample Dogs vs Cats", strings.Join(htmlRows, ""))
    gonbui.DisplayHTML(htmlTable)
}

// embedImageInHTML, with a label.
func embedImageInHTML(img image.Image, label string, imgIdx int64, size int) string {
    imgSrc := must.M1(gonbui.EmbedImageAsPNGSrc(img))   // Generate image in-html (in the src filed), as opposed to a separate file.
    return fmt.Sprintf(`<figure style="padding:4px;text-align: center; background-color: lightgray; color: black;"><img src="%s" width="%dpx" height="%dpx"><figcaption style="text-align: center;">%s (%d)</figcaption></figure>`,
                       imgSrc, size, size, label, imgIdx)
}

%%
ctx, _ := ContextFromSettings()
config := dogsvscats.NewPreprocessingConfigurationFromContext(ctx, *flagDataDir)
sample(config, 2, 8)

import (
    "time"
    "github.com/gomlx/gomlx/ml/data"
    "github.com/gomlx/gomlx/ml/train"
)

// We increase the size of the batch for the generation of images -- it makes it a bit faster.
%% --set="batch_size=100"
repeats := 50
ctx, _ := ContextFromSettings()
config := dogsvscats.NewPreprocessingConfigurationFromContext(ctx, *flagDataDir)
dogsvscats.PreGenerate(config, repeats, false)

// Report on number of records from each dataset -- we need to read through them.
fmt.Println("")
for dsIdx, dsName := range []string{dogsvscats.PreGeneratedTrainFileName, dogsvscats.PreGeneratedTrainEvalFileName, dogsvscats.PreGeneratedValidationFileName} {
    fmt.Printf("Dataset %q: ... \r", dsName)
    dsPath := path.Join(config.DataDir, dsName)
    ds := dogsvscats.NewPreGeneratedDataset(dsName, dsPath, 1, false, config.ModelImageSize, config.ModelImageSize, config.DType)
    parallelDS := data.Parallel(ds)  // We want to parallelize reading from disk and parsing images to tensors.
    count := 0
    countReport := 1000
    start := time.Now()
    for {
        _, _, _, err := parallelDS.Yield()  // We are simply counting, we don't need the actual values.
        if err == io.EOF { break }
        must.M(err)  // Panic if an error.
        count++
        if count % countReport == 0 {
            fmt.Printf("Dataset %q: %d... \r", dsName, count)
        }
    }
    elapsed := time.Since(start)
    if dsIdx == 0 { // For train data, where we generate multiple augmented versions of the original image.
        fmt.Printf("Dataset %q: %d images (== %d x %d)\n", dsName, count, repeats, count/repeats)    
        fmt.Printf("\tElapsed time: %s (%s /image)\n", elapsed, elapsed/time.Duration(count))
    } else {
        fmt.Printf("Dataset %q: %d images\n", dsName, count)    
    }
}

Validation data for evaluation already generated in "/home/janpf/work/dogs_vs_cats/validation_eval_data.bin"
Training data for evaluation already generated in "/home/janpf/work/dogs_vs_cats/train_eval_data.bin"
Training data for training already generated in "/home/janpf/work/dogs_vs_cats/train_data.bin"

Dataset "train_data.bin": 1009400 images (== 50 x 20188)
	Elapsed time: 13.55934882s (13.433µs /image)
Dataset "train_eval_data.bin": 20188 images
Dataset "validation_eval_data.bin": 4798 images

%%
ctx, _ := ContextFromSettings()
fmt.Println(commandline.SprintContextSettings(ctx))

Context hyperparameters:
	"activation": (string) 
	"adam_dtype": (string) 
	"adam_epsilon": (float64) 1e-07
	"augmentation_angle_stddev": (float64) 20
	"augmentation_force_original": (bool) false
	"augmentation_random_flips": (bool) true
	"batch_size": (int) 16
	"byol_finetune": (bool) false
	"byol_hidden_nodes": (int) 4096
	"byol_inception": (bool) false
	"byol_pretrain": (bool) false
	"byol_projection_nodes": (int) 256
	"byol_reg_len1": (float64) 0.01
	"byol_regularization_rate": (float64) 1
	"byol_target_update_ratio": (float64) 0.99
	"cnn_dropout_rate": (float64) -1
	"cnn_embeddings_size": (int) 128
	"cnn_num_layers": (float64) 5
	"cosine_schedule_steps": (int) 0
	"dropout_rate": (float64) 0.1
	"eval_batch_size": (int) 100
	"fnn_dropout_rate": (float64) -1
	"fnn_normalization": (string) 
	"fnn_num_hidden_layers": (int) 3
	"fnn_num_hidden_nodes": (int) 128
	"fnn_residual": (bool) true
	"inception_finetuning": (bool) true
	"inception_pretrained": (bool) true
	"kan_bspline_degree": (int) 2
	"kan_bspline_magnitude_l1": (float64) 1e-05
	"kan_bspline_magnitude_l2": (float64) 0
	"kan_discrete": (bool) false
	"kan_discrete_softness": (float64) 0.1
	"kan_num_hidden_layers": (int) 4
	"kan_num_hidden_nodes": (int) 64
	"kan_num_points": (int) 10
	"l1_regularization": (float64) 0
	"l2_regularization": (float64) 0
	"learning_rate": (float64) 0.0001
	"model": (string) cnn
	"nan_logger": (bool) false
	"normalization": (string) batch
	"num_checkpoints": (int) 3
	"optimizer": (string) adamw
	"plots": (bool) true
	"train_steps": (int) 2000

type ModelFn func(ctx *context.Context, spec any, inputs []*graph.Node) (predictions []*graph.Node)

import (
    . "github.com/gomlx/gomlx/graph"
    "github.com/gomlx/gomlx/backends"

    _ "github.com/gomlx/gomlx/backends/xla"
)

var _ = NewGraph

%%
ctx, _ := ContextFromSettings()
config := dogsvscats.NewPreprocessingConfigurationFromContext(ctx, *flagDataDir)

// Let's just check that we get the right shape from the model function, wihtout any real data.
g := NewGraph(backends.New(), "test")
inputs := []*Node{
    // Images: create a graph parameter node shaped [batch_size, width, heigh, depth=4]:
    Parameter(g, "images", shapes.Make(config.DType, config.BatchSize, config.ModelImageSize, config.ModelImageSize, 4)),
}
outputs := dogsvscats.CnnModelGraph(ctx, nil, inputs)
fmt.Printf("Logits shape for batch_size=%d: %s\n", config.BatchSize, outputs[0].Shape())
outputs[0].AssertDims(config.BatchSize, 1)

Logits shape for batch_size=16: (Float32)[16 1]

%% --set="model=cnn;plots=false;train_steps=50"
ctx, paramsSet := ContextFromSettings()
dogsvscats.TrainModel(ctx, *flagDataDir, *flagCheckpoint, /* eval */ false, paramsSet)

Model: "cnn"
Training (50 steps):  100% [========================================] (10 steps/s) [step=49] [loss+=0.674] [~loss+=0.683] [~loss=0.683] [~acc=55.87%]         
	[Step 50] median train step: 3870 microseconds
	Updated batch normalization mean/variances averages.
Training done (global_step=50).

!rm -rf ~/work/dogs_vs_cats/cnn_base

%% --checkpoint=cnn_base --set="model=cnn;plots=true;train_steps=10000"
ctx, paramsSet := ContextFromSettings()
dogsvscats.TrainModel(ctx, *flagDataDir, *flagCheckpoint, true, paramsSet)

Model: "cnn"

Training (10000 steps):    7% [=>......................................] (201 steps/s) [10s:46s] [step=719] [loss+=0.522] [~loss+=0.660] [~loss=0.660] [~acc=60.52%]

Training (10000 steps):  100% [========================================] (195 steps/s) [step=9999] [loss+=0.864] [~loss+=0.474] [~loss=0.474] [~acc=78.34%]

	[Step 10000] median train step: 2402 microseconds
	Updated batch normalization mean/variances averages.
Training done (global_step=10000).

Results on train-eval [Pre]:
	Mean Loss+Regularization (#loss+): 0.468
	Mean Loss (#loss): 0.468
	Mean Accuracy (#acc): 77.95%
Results on valid-eval [Pre]:
	Mean Loss+Regularization (#loss+): 0.486
	Mean Loss (#loss): 0.486
	Mean Accuracy (#acc): 77.79%

!gomlx_checkpoints -summary -scope=/model ~/work/dogs_vs_cats/cnn_base

               
    Summary    
               
┌────────────────┬────────────────────────────────────────┐
│     checkpoint │ /home/janpf/work/dogs_vs_cats/cnn_base │
│          scope │ /model                                 │
│ global_step(/) │ 10,000                                 │
│    # variables │ 45                                     │
│   # parameters │ 239,073                                │
│        # bytes │ 956 kB                                 │
└────────────────┴────────────────────────────────────────┘

func InceptionV3ModelGraph(ctx *context.Context, spec any, inputs []*Node) []*Node {
	_ = spec            // Not needed.
	images := inputs[0] // Images scaled from 0.0 to 1.0
	channelsConfig := timage.ChannelsLast
	images = inceptionv3.PreprocessImage(images, 1.0, channelsConfig) // Adjust image to format used by Inception.
	dataDir := context.GetParamOr(ctx, "data_dir", ".")
	var preTrainedPath string
	if context.GetParamOr(ctx, "inception_pretrained", true) {
		// Use pre-trained
		preTrainedPath = dataDir
	}
	logits := inceptionv3.BuildGraph(ctx, images).
		PreTrained(preTrainedPath).
		SetPooling(inceptionv3.MaxPooling).
		Trainable(context.GetParamOr(ctx, "inception_finetuning", false)).
		Done()
	logits = fnn.New(ctx.In("fnn"), logits, 1).Done()
	return []*Node{logits}
}

!rm -rf ~/work/dogs_vs_cats/inceptionv3_base

%% --checkpoint=inceptionv3_base --set="model=inception;inception_pretrained=true;inception_finetuning=false;plots=true;train_steps=2000"
ctx, paramsSet := ContextFromSettings()
dogsvscats.TrainModel(ctx, *flagDataDir, *flagCheckpoint, /* eval */ true, paramsSet)

Model: "inception"

Training (2000 steps):   36% [=============>..........................] (135 steps/s) [25s:9s] [step=727] [loss+=0.446] [~loss+=0.567] [~loss=0.567] [~acc=70.81%]

Training (2000 steps):  100% [========================================] (33 steps/s) [step=1999] [loss+=0.600] [~loss+=0.549] [~loss=0.549] [~acc=71.95%]

	[Step 2000] median train step: 5802 microseconds
	Updated batch normalization mean/variances averages.
Training done (global_step=2000).

Results on train-eval [Pre]:
	Mean Loss+Regularization (#loss+): 0.492
	Mean Loss (#loss): 0.492
	Mean Accuracy (#acc): 76.14%
Results on valid-eval [Pre]:
	Mean Loss+Regularization (#loss+): 0.514
	Mean Loss (#loss): 0.514
	Mean Accuracy (#acc): 74.72%

!gomlx_checkpoints -summary -scope=/model  ~/work/dogs_vs_cats/inceptionv3_base

               
    Summary    
               
┌────────────────┬────────────────────────────────────────────────┐
│     checkpoint │ /home/janpf/work/dogs_vs_cats/inceptionv3_base │
│          scope │ /model                                         │
│ global_step(/) │ 2,000                                          │
│    # variables │ 493                                            │
│   # parameters │ 22,117,345                                     │
│        # bytes │ 88 MB                                          │
└────────────────┴────────────────────────────────────────────────┘

!rm -rf ~/work/dogs_vs_cats/inceptionv3_finetuned

%% --checkpoint=inceptionv3_finetuned --set="model=inception;inception_pretrained=true;inception_finetuning=true;plots=true;train_steps=2000"
ctx, paramsSet := ContextFromSettings()
dogsvscats.TrainModel(ctx, *flagDataDir, *flagCheckpoint, true, paramsSet)

Model: "inception"

Training (2000 steps):   36% [=============>..........................] (53 steps/s) [37s:23s] [step=727] [loss+=0.158] [~loss+=0.312] [~loss=0.312] [~acc=86.58%]

Training (2000 steps):  100% [========================================] (23 steps/s) [step=1999] [loss+=0.388] [~loss+=0.230] [~loss=0.230] [~acc=90.32%]

	[Step 2000] median train step: 16055 microseconds
	Updated batch normalization mean/variances averages.
Training done (global_step=2000).

Results on train-eval [Pre]:
	Mean Loss+Regularization (#loss+): 0.203
	Mean Loss (#loss): 0.203
	Mean Accuracy (#acc): 91.66%
Results on valid-eval [Pre]:
	Mean Loss+Regularization (#loss+): 0.236
	Mean Loss (#loss): 0.236
	Mean Accuracy (#acc): 90.02%

!gomlx_checkpoints -summary -scope=/model ~/work/dogs_vs_cats/inceptionv3_finetuned

               
    Summary    
               
┌────────────────┬─────────────────────────────────────────────────────┐
│     checkpoint │ /home/janpf/work/dogs_vs_cats/inceptionv3_finetuned │
│          scope │ /model                                              │
│ global_step(/) │ 2,000                                               │
│    # variables │ 493                                                 │
│   # parameters │ 22,117,345                                          │
│        # bytes │ 88 MB                                               │
└────────────────┴─────────────────────────────────────────────────────┘

!rm -rf ~/work/dogs_vs_cats/inceptionv3_no_weights

%% --checkpoint=inceptionv3_no_weights --set="model=inception;inception_pretrained=false;inception_finetuning=true;plots=true;train_steps=2000"
ctx, paramsSet := ContextFromSettings()
dogsvscats.TrainModel(ctx, *flagDataDir, *flagCheckpoint, true, paramsSet)

Model: "inception"

Training (2000 steps):   36% [=============>..........................] (50 steps/s) [56s:25s] [step=727] [loss+=0.687] [~loss+=0.653] [~loss=0.653] [~acc=62.94%]

Training (2000 steps):  100% [========================================] (16 steps/s) [step=1999] [loss+=1.002] [~loss+=0.608] [~loss=0.608] [~acc=67.00%]

	[Step 2000] median train step: 19835 microseconds
	Updated batch normalization mean/variances averages.
Training done (global_step=2000).

Results on train-eval [Pre]:
	Mean Loss+Regularization (#loss+): 0.613
	Mean Loss (#loss): 0.613
	Mean Accuracy (#acc): 67.48%
Results on valid-eval [Pre]:
	Mean Loss+Regularization (#loss+): 0.620
	Mean Loss (#loss): 0.620
	Mean Accuracy (#acc): 66.00%

Dog (3454)	Dog (7637)	Dog (3578)	Dog (7535)	Dog (7854)	Dog (7326)	Dog (6816)	Dog (8981)
Cat (12127)	Cat (9797)	Cat (1311)	Cat (4712)	Cat (1164)	Cat (10313)	Cat (8193)	Cat (8645)

Try	Train Loss	Train Accuracy	Validation Loss	Validation Accuracy
1	0.171	93.19%	0.255	89.79%
2	0.195	92.02%	0.272	88.60%
3	0.196	92.00%	0.296	87.64%
4	0.188	92.40%	0.269	88.85%
5	0.172	92.90%	0.264	88.98%
6	0.172	93.00%	0.255	89.49%
7	0.197	91.92%	0.278	88.17%
8	0.174	92.98%	0.240	90.60%
9	0.185	92.66%	0.284	88.17%
10	0.179	92.60%	0.270	89.15%

Try	Train Loss	Train Accuracy	Validation Loss	Validation Accuracy
1	0.035	98.83%	0.202	93.60%
2	0.029	98.95%	0.220	93.17%
3	0.018	99.39%	0.225	93.49%
4	0.021	99.27%	0.235	93.49%
5	0.029	99.06%	0.240	93.28%
6	0.039	98.57%	0.257	92.96%
7	0.035	98.81%	0.223	93.13%
8	0.055	98.02%	0.281	92.04%
9	0.041	98.50%	0.257	92.49%
10	0.025	99.21%	0.219	94.09%
11	0.039	98.60%	0.230	93.36%

Kaggle Dogs vs Cats Library and Demo¶

Environment Set Up¶

Data Preparation¶

Sample Dogs vs Cats

Pre-Generating Agumented and Scaled Images¶

Training a CNN model¶

Model Hyperparameters¶

Model Definitions¶

Training Loop¶

Training Session: CNN with 10K steps (~8 epochs)¶

Results from multiple runs with 120K steps (~100 epochs):¶

Transfer Learning from Inception V3¶

Use pre-trained InceptionV3 weights, no-finetuning¶

InceptionV3 pre-trained and fine-tuned, 2K steps¶

Results from multiple runs:¶

InceptionV3 Model Architecture, but no transfer learning (not using the pre-trained weights)¶