scl/src/lexer.c

#include <ctype.h>
#include <stdio.h>
#include <string.h>
#include <limits.h>

#include "include/lexer.h"
#include "include/dstr.h"
#include "include/util.h"

Lexer* lexer_init(char* src) {
    Lexer* lexer = malloc(sizeof(Lexer));

    lexer->src = src;
    lexer->srcln = strlen(src);
    lexer->cchar = lexer->src;

    lexer->tokens = calloc(TOKENS_MAX, sizeof(Token*));
    lexer->ntokens = 0;
    lexer->state = LEXER_STATE_CONFUSED;

    log_dbgf("created new lexer @ %p", lexer);

    return lexer;
}

void lexer_destroy(Lexer* lexer) {
    free(lexer->src);

    for (int i = 0; i < lexer->ntokens; i++) token_destroy(lexer->tokens[i]);
}

void lexer_lex(Lexer* lexer) {
    while (*lexer->cchar) {
        switch (lexer->state) {
        case LEXER_STATE_CONFUSED: lexer_do_confused(lexer); break;
        case LEXER_STATE_NUM:      lexer_do_number(lexer); break;
        case LEXER_STATE_CALL:     lexer_do_call(lexer); break;
        default:                   break;
        }
    }
}

void lexer_do_confused(Lexer* lexer) {
    log_dbgf("lexer @ %p entered confused mode @ char '%c' (%d)", lexer, *lexer->cchar, (int)*lexer->cchar);

    if (isdigit(*lexer->cchar)) {
        lexer->state = LEXER_STATE_NUM;
        lexer_do_number(lexer);
    } else {
        lexer->state = LEXER_STATE_CALL;
        lexer_do_call(lexer);
    }
}

void lexer_do_number(Lexer* lexer) {
    log_dbgf("lexer @ %p entered number mode @ char '%c' (%d)", lexer, *lexer->cchar, (int)*lexer->cchar);

    // Size of the number string.
    size_t numsz;

    // Where the number string starts.
    char* start = lexer->cchar;

    for (numsz = 0; *lexer->cchar && isdigit(*lexer->cchar); numsz++)
        lexer_inc(lexer);

    char* num = malloc(numsz + 1);
    memcpy(num, start, numsz);
    num[numsz] = '\0';

    lexer_add_token(lexer, token_init(TOKEN_TYPE_NUMBER, num, 1));
    lexer->state = LEXER_STATE_CONFUSED;
}

void lexer_do_call(Lexer* lexer) {
    log_dbgf("lexer @ %p entered call mode @ char '%c' (%d)", lexer, *lexer->cchar, (int)*lexer->cchar);

    // Size of the call string.
    size_t callsz;

    // Where the call string starts.
    char* start = lexer->cchar;

    for (callsz = 0; *lexer->cchar && (!isdigit(*lexer->cchar)); callsz++)
        lexer_inc(lexer);

    char* call = malloc(callsz + 1);
    memcpy(call, start, callsz);
    call[callsz] = '\0';

    lexer_add_token(lexer, token_init(TOKEN_TYPE_CALL, call, 1));

    lexer->state = LEXER_STATE_CONFUSED;
}

void lexer_inc(Lexer* lexer) {
    lexer->cchar += sizeof(char);
}

void lexer_add_token(Lexer* lexer, Token* token) {
    assert(lexer->ntokens < TOKENS_MAX);

    if (lexer->ntokens < TOKENS_MAX - 1) {
        lexer->tokens[lexer->ntokens] = token;
        lexer->ntokens++;
    }
}

Dstr* lexer_to_dstr(Lexer* lexer) {
    Dstr* str = dstr_init();

    size_t titlesz = sizeof("Lexer @ 0x00000000");
    char title[titlesz];
    sprintf(title, "Lexer @ %p", lexer);
    dstr_append(str, title, titlesz - 1);

    size_t ln = snprintf(NULL, 0, "srcln: %ld", lexer->srcln); 
    char src_sz[ln + 1];
    snprintf(src_sz, ln + 1, "srcln: %ld", lexer->srcln);
    dstr_append(str, src_sz, ln - 1);

    dstr_append(str, "\nsrc: ", 5);
    dstr_append(str, lexer->src, lexer->srcln);

    return str;
}

char* lexer_state_to_str(LexerState s) {
    switch (s) {
    case LEXER_STATE_NUM:      return "NUM";
    case LEXER_STATE_CALL:     return "CALL";
    case LEXER_STATE_CONFUSED: return "CONFUSED";
    default:                   return "UNKNOWN";
    }
}
Fixed some things, broke others. 2024-10-13 23:46:03 -04:00			`#include <ctype.h>`
Something. 2024-10-19 09:09:37 -04:00			`#include <stdio.h>`
Fixed some things, broke others. 2024-10-13 23:46:03 -04:00			`#include <string.h>`
Something. 2024-10-19 09:09:37 -04:00			`#include <limits.h>`
Fixed some things, broke others. 2024-10-13 23:46:03 -04:00
Beginnings of the lexer. 2024-10-02 17:57:04 -04:00			`#include "include/lexer.h"`
Something. 2024-10-19 09:09:37 -04:00			`#include "include/dstr.h"`
Added dynamic strings. They do not yet work. 2024-10-10 16:09:25 -04:00			`#include "include/util.h"`
Beginnings of the lexer. 2024-10-02 17:57:04 -04:00
			`Lexer* lexer_init(char* src) {`
			`Lexer* lexer = malloc(sizeof(Lexer));`

			`lexer->src = src;`
Something. 2024-10-19 09:09:37 -04:00			`lexer->srcln = strlen(src);`
Beginnings of the lexer. 2024-10-02 17:57:04 -04:00			`lexer->cchar = lexer->src;`
Added .clang-format. 2024-10-02 21:04:54 -04:00
Added dynamic strings. They do not yet work. 2024-10-10 16:09:25 -04:00			`lexer->tokens = calloc(TOKENS_MAX, sizeof(Token*));`
Beginnings of the lexer. 2024-10-02 17:57:04 -04:00			`lexer->ntokens = 0;`
			`lexer->state = LEXER_STATE_CONFUSED;`

Fixed some things, broke others. 2024-10-13 23:46:03 -04:00			`log_dbgf("created new lexer @ %p", lexer);`

Beginnings of the lexer. 2024-10-02 17:57:04 -04:00			`return lexer;`
			`}`

Added .clang-format. 2024-10-02 21:04:54 -04:00			`void lexer_destroy(Lexer* lexer) {`
Beginnings of the lexer. 2024-10-02 17:57:04 -04:00			`free(lexer->src);`

Added dynamic strings. They do not yet work. 2024-10-10 16:09:25 -04:00			`for (int i = 0; i < lexer->ntokens; i++) token_destroy(lexer->tokens[i]);`
Beginnings of the lexer. 2024-10-02 17:57:04 -04:00			`}`

			`void lexer_lex(Lexer* lexer) {`
			`while (*lexer->cchar) {`
			`switch (lexer->state) {`
Added .clang-format. 2024-10-02 21:04:54 -04:00			`case LEXER_STATE_CONFUSED: lexer_do_confused(lexer); break;`
			`case LEXER_STATE_NUM: lexer_do_number(lexer); break;`
			`case LEXER_STATE_CALL: lexer_do_call(lexer); break;`
			`default: break;`
Beginnings of the lexer. 2024-10-02 17:57:04 -04:00			`}`
			`}`
			`}`
Tests are slightly not. 2024-10-05 09:24:12 -04:00
Changed things. 2024-10-07 11:48:53 -04:00			`void lexer_do_confused(Lexer* lexer) {`
Fixed some things, broke others. 2024-10-13 23:46:03 -04:00			`log_dbgf("lexer @ %p entered confused mode @ char '%c' (%d)", lexer, lexer->cchar, (int)lexer->cchar);`

Something. 2024-10-19 09:09:37 -04:00			`if (isdigit(*lexer->cchar)) {`
			`lexer->state = LEXER_STATE_NUM;`
			`lexer_do_number(lexer);`
			`} else {`
			`lexer->state = LEXER_STATE_CALL;`
			`lexer_do_call(lexer);`
			`}`
Changed things. 2024-10-07 11:48:53 -04:00			`}`

			`void lexer_do_number(Lexer* lexer) {`
Fixed some things, broke others. 2024-10-13 23:46:03 -04:00			`log_dbgf("lexer @ %p entered number mode @ char '%c' (%d)", lexer, lexer->cchar, (int)lexer->cchar);`

Changed things. 2024-10-07 11:48:53 -04:00			`// Size of the number string.`
			`size_t numsz;`

			`// Where the number string starts.`
			`char* start = lexer->cchar;`

			`for (numsz = 0; lexer->cchar && isdigit(lexer->cchar); numsz++)`
			`lexer_inc(lexer);`

			`char* num = malloc(numsz + 1);`
			`memcpy(num, start, numsz);`
			`num[numsz] = '\0';`

Fixed some things, broke others. 2024-10-13 23:46:03 -04:00			`lexer_add_token(lexer, token_init(TOKEN_TYPE_NUMBER, num, 1));`
Something. 2024-10-19 09:09:37 -04:00			`lexer->state = LEXER_STATE_CONFUSED;`
Changed things. 2024-10-07 11:48:53 -04:00			`}`

			`void lexer_do_call(Lexer* lexer) {`
Fixed some things, broke others. 2024-10-13 23:46:03 -04:00			`log_dbgf("lexer @ %p entered call mode @ char '%c' (%d)", lexer, lexer->cchar, (int)lexer->cchar);`

Changed things. 2024-10-07 11:48:53 -04:00			`// Size of the call string.`
			`size_t callsz;`

			`// Where the call string starts.`
			`char* start = lexer->cchar;`

Numbers work. Calls do not work. 2024-10-16 08:13:32 -04:00			`for (callsz = 0; lexer->cchar && (!isdigit(lexer->cchar)); callsz++)`
Changed things. 2024-10-07 11:48:53 -04:00			`lexer_inc(lexer);`

			`char* call = malloc(callsz + 1);`
			`memcpy(call, start, callsz);`
			`call[callsz] = '\0';`
Added dynamic strings. They do not yet work. 2024-10-10 16:09:25 -04:00
Fixed some things, broke others. 2024-10-13 23:46:03 -04:00			`lexer_add_token(lexer, token_init(TOKEN_TYPE_CALL, call, 1));`
Something. 2024-10-19 09:09:37 -04:00
			`lexer->state = LEXER_STATE_CONFUSED;`
Changed things. 2024-10-07 11:48:53 -04:00			`}`

			`void lexer_inc(Lexer* lexer) {`
			`lexer->cchar += sizeof(char);`
			`}`

Tests are slightly not. 2024-10-05 09:24:12 -04:00			`void lexer_add_token(Lexer* lexer, Token* token) {`
Changed things. 2024-10-07 11:48:53 -04:00			`assert(lexer->ntokens < TOKENS_MAX);`

			`if (lexer->ntokens < TOKENS_MAX - 1) {`
Added dynamic strings. They do not yet work. 2024-10-10 16:09:25 -04:00			`lexer->tokens[lexer->ntokens] = token;`
Changed things. 2024-10-07 11:48:53 -04:00			`lexer->ntokens++;`
			`}`
			`}`

Something. 2024-10-19 09:09:37 -04:00			`Dstr* lexer_to_dstr(Lexer* lexer) {`
			`Dstr* str = dstr_init();`

			`size_t titlesz = sizeof("Lexer @ 0x00000000");`
			`char title[titlesz];`
			`sprintf(title, "Lexer @ %p", lexer);`
			`dstr_append(str, title, titlesz - 1);`

			`size_t ln = snprintf(NULL, 0, "srcln: %ld", lexer->srcln);`
			`char src_sz[ln + 1];`
			`snprintf(src_sz, ln + 1, "srcln: %ld", lexer->srcln);`
			`dstr_append(str, src_sz, ln - 1);`

			`dstr_append(str, "\nsrc: ", 5);`
			`dstr_append(str, lexer->src, lexer->srcln);`

			`return str;`
			`}`

			`char* lexer_state_to_str(LexerState s) {`
			`switch (s) {`
			`case LEXER_STATE_NUM: return "NUM";`
			`case LEXER_STATE_CALL: return "CALL";`
			`case LEXER_STATE_CONFUSED: return "CONFUSED";`
			`default: return "UNKNOWN";`
			`}`
			`}`