Transformer forward changes

Now forward is like that

```python
def forward(self, x, value_residual = None):
    first_values = None
    for attn, ff in self.layers:
        x, next_values = attn(x, value_residual = value_residual)
        first_values = default(first_values, next_values)
        x = ff(x)

    return self.norm(x), first_values
```

vs before:

```python
def forward(self, x):

        for attn, ff in self.layers:
            x = attn(x) + x
            x = ff(x) + x

        return self.norm(x)
```

It broke compatibility with old weights. Was it made intentionally? Is it needed for value residual learning and hyper connections?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Transformer forward changes #43

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Transformer forward changes #43

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions