servo
diff --git a/‎html5ever/Cargo.toml‎
Lines changed: 3 additions & 0 deletions b/‎html5ever/Cargo.toml‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎html5ever/examples/noop-tokenize.rs‎
Lines changed: 2 additions & 1 deletion b/‎html5ever/examples/noop-tokenize.rs‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎html5ever/examples/tokenize.rs‎
Lines changed: 1 addition & 1 deletion b/‎html5ever/examples/tokenize.rs‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎html5ever/src/tokenizer/char_ref/mod.rs‎
Lines changed: 1 addition & 1 deletion b/‎html5ever/src/tokenizer/char_ref/mod.rs‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎html5ever/src/tokenizer/interface.rs‎
Lines changed: 2 additions & 0 deletions b/‎html5ever/src/tokenizer/interface.rs‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎html5ever/src/tokenizer/mod.rs‎
Lines changed: 35 additions & 8 deletions b/‎html5ever/src/tokenizer/mod.rs‎
Lines changed: 35 additions & 8 deletions
diff --git a/‎html5ever/src/tree_builder/mod.rs‎
Lines changed: 4 additions & 0 deletions b/‎html5ever/src/tree_builder/mod.rs‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎html5ever/src/tree_builder/rules.rs‎
Lines changed: 25 additions & 9 deletions b/‎html5ever/src/tree_builder/rules.rs‎
Lines changed: 25 additions & 9 deletions
diff --git a/‎html5ever/src/tree_builder/types.rs‎
Lines changed: 2 additions & 0 deletions b/‎html5ever/src/tree_builder/types.rs‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎markup5ever/Cargo.toml‎
Lines changed: 4 additions & 0 deletions b/‎markup5ever/Cargo.toml‎
Lines changed: 4 additions & 0 deletions
@@ -13,13 +13,16 @@ readme = "../README.md"
 rust-version.workspace = true
 
 [features]
+default = ["encoding"]
 trace_tokenizer = []
+encoding = ["dep:encoding_rs", "markup5ever/encoding"]
 
 [dependencies]
 log = "0.4"
 mac = "0.1"
 markup5ever = { version = "0.15", path = "../markup5ever" }
 match_token = { workspace = true }
+encoding_rs = { version = "0.8", optional = true }
 
 [dev-dependencies]
 criterion = "0.5"
 
@@ -15,7 +15,8 @@ use std::cell::RefCell;
 use std::io;
 
 use html5ever::tendril::*;
-use html5ever::tokenizer::{BufferQueue, Token, TokenSink, TokenSinkResult, Tokenizer};
+use html5ever::tokenizer::{Token, TokenSink, TokenSinkResult, Tokenizer};
+use markup5ever::buffer_queue::BufferQueue;
 
 /// In our case, our sink only contains a tokens vector
 struct Sink(RefCell<Vec<Token>>);
 
@@ -13,11 +13,11 @@ use std::cell::Cell;
 use std::io;
 
 use html5ever::tendril::*;
-use html5ever::tokenizer::BufferQueue;
 use html5ever::tokenizer::{CharacterTokens, EndTag, NullCharacterToken, StartTag, TagToken};
 use html5ever::tokenizer::{
     ParseError, Token, TokenSink, TokenSinkResult, Tokenizer, TokenizerOpts,
 };
+use markup5ever::buffer_queue::BufferQueue;
 
 #[derive(Clone)]
 struct TokenPrinter {
 
@@ -8,12 +8,12 @@
 // except according to those terms.
 
 use super::{TokenSink, Tokenizer};
-use crate::buffer_queue::BufferQueue;
 use crate::data;
 use crate::tendril::StrTendril;
 
 use log::debug;
 use mac::format_if;
+use markup5ever::buffer_queue::BufferQueue;
 use std::borrow::Cow::Borrowed;
 use std::char::from_u32;
 
 
@@ -77,6 +77,8 @@ pub enum TokenSinkResult<Handle> {
     Script(Handle),
     Plaintext,
     RawData(states::RawKind),
+    #[cfg(feature = "encoding")]
+    MaybeChangeEncodingAndStartOver(&'static encoding_rs::Encoding),
 }
 
 /// Types which can receive tokens from the tokenizer.
 
@@ -22,16 +22,18 @@ use self::states::{Rawtext, Rcdata, ScriptData, ScriptDataEscaped};
 use self::char_ref::{CharRef, CharRefTokenizer};
 
 use crate::util::str::lower_ascii_letter;
-
 use log::{debug, trace};
 use mac::format_if;
-use markup5ever::{namespace_url, ns, small_char_set, TokenizerResult};
+use markup5ever::{
+    buffer_queue::BufferQueue, namespace_url, ns, small_char_set, InputSink, InputSinkResult,
+    TokenizerResult,
+};
 use std::borrow::Cow::{self, Borrowed};
 use std::cell::{Cell, RefCell, RefMut};
 use std::collections::BTreeMap;
-use std::mem;
+use std::{iter, mem};
 
-pub use crate::buffer_queue::{BufferQueue, FromSet, NotFromSet, SetResult};
+pub use crate::buffer_queue::{FromSet, NotFromSet, SetResult};
 use crate::tendril::StrTendril;
 use crate::{Attribute, LocalName, QualName, SmallCharSet};
 
@@ -43,6 +45,8 @@ pub enum ProcessResult<Handle> {
     Continue,
     Suspend,
     Script(Handle),
+    #[cfg(feature = "encoding")]
+    MaybeChangeEncodingAndStartOver(&'static encoding_rs::Encoding),
 }
 
 fn option_push(opt_str: &mut Option<StrTendril>, c: char) {
@@ -357,6 +361,10 @@ impl<Sink: TokenSink> Tokenizer<Sink> {
                     ProcessResult::Continue => (),
                     ProcessResult::Suspend => break,
                     ProcessResult::Script(node) => return TokenizerResult::Script(node),
+                    #[cfg(feature = "encoding")]
+                    ProcessResult::MaybeChangeEncodingAndStartOver(encoding) => {
+                        return TokenizerResult::MaybeChangeEncodingAndStartOver(encoding)
+                    },
                 }
             }
         } else {
@@ -365,6 +373,10 @@ impl<Sink: TokenSink> Tokenizer<Sink> {
                     ProcessResult::Continue => (),
                     ProcessResult::Suspend => break,
                     ProcessResult::Script(node) => return TokenizerResult::Script(node),
+                    #[cfg(feature = "encoding")]
+                    ProcessResult::MaybeChangeEncodingAndStartOver(encoding) => {
+                        return TokenizerResult::MaybeChangeEncodingAndStartOver(encoding)
+                    },
                 }
             }
         }
@@ -445,6 +457,10 @@ impl<Sink: TokenSink> Tokenizer<Sink> {
                 self.state.set(states::RawData(kind));
                 ProcessResult::Continue
             },
+            #[cfg(feature = "encoding")]
+            TokenSinkResult::MaybeChangeEncodingAndStartOver(encoding) => {
+                ProcessResult::MaybeChangeEncodingAndStartOver(encoding)
+            },
         }
     }
 
@@ -1448,6 +1464,8 @@ impl<Sink: TokenSink> Tokenizer<Sink> {
                 ProcessResult::Continue => (),
                 ProcessResult::Suspend => break,
                 ProcessResult::Script(_) => unreachable!(),
+                #[cfg(feature = "encoding")]
+                ProcessResult::MaybeChangeEncodingAndStartOver(_) => unreachable!(),
             }
         }
 
@@ -1575,13 +1593,24 @@ impl<Sink: TokenSink> Tokenizer<Sink> {
     }
 }
 
+impl<Sink> InputSink for Tokenizer<Sink>
+where
+    Sink: TokenSink,
+{
+    type Handle = Sink::Handle;
+
+    fn feed(&self, input: &BufferQueue) -> impl Iterator<Item = InputSinkResult<Self::Handle>> {
+        iter::from_fn(|| self.feed(input).into())
+    }
+}
+
 #[cfg(test)]
 #[allow(non_snake_case)]
 mod test {
     use super::option_push; // private items
-    use crate::tendril::{SliceExt, StrTendril};
-
     use super::{TokenSink, TokenSinkResult, Tokenizer, TokenizerOpts};
+    use crate::tendril::{SliceExt, StrTendril};
+    use crate::LocalName;
 
     use super::interface::{CharacterTokens, EOFToken, NullCharacterToken, ParseError};
     use super::interface::{EndTag, StartTag, Tag, TagKind};
@@ -1590,8 +1619,6 @@ mod test {
     use markup5ever::buffer_queue::BufferQueue;
     use std::cell::RefCell;
 
-    use crate::LocalName;
-
     // LinesMatch implements the TokenSink trait. It is used for testing to see
     // if current_line is being updated when process_token is called. The lines
     // vector is a collection of the line numbers that each token is on.
 
@@ -392,6 +392,10 @@ where
                     assert!(more_tokens.is_empty());
                     return tokenizer::TokenSinkResult::RawData(k);
                 },
+                #[cfg(feature = "encoding")]
+                MaybeChangeEncodingAndStartOver(encoding) => {
+                    return tokenizer::TokenSinkResult::MaybeChangeEncodingAndStartOver(encoding);
+                },
             }
         }
     }
 
@@ -10,21 +10,24 @@
 // The tree builder rules, as a single, enormous nested match expression.
 
 use crate::interface::Quirks;
-use crate::tokenizer::states::{Rawtext, Rcdata, ScriptData};
+use crate::tokenizer::states::{Rawtext, Rcdata};
 use crate::tokenizer::TagKind::{EndTag, StartTag};
 use crate::tree_builder::tag_sets::*;
 use crate::tree_builder::types::*;
-use crate::tree_builder::{
-    create_element, html_elem, ElemName, NodeOrText::AppendNode, StrTendril, Tag, TreeBuilder,
-    TreeSink,
-};
-use crate::QualName;
-use markup5ever::{expanded_name, local_name, namespace_url, ns};
+use crate::tree_builder::RawKind::ScriptData;
+use crate::tree_builder::{html_elem, ElemName, StrTendril, Tag, TreeBuilder, TreeSink};
+
+use markup5ever::interface::create_element;
+use markup5ever::interface::NodeOrText::AppendNode;
+use markup5ever::{expanded_name, local_name, namespace_url, ns, QualName};
 use std::borrow::Cow::Borrowed;
 
 use crate::tendril::SliceExt;
 use match_token::match_token;
 
+#[cfg(feature = "encoding")]
+use encoding_rs::Encoding;
+
 fn any_not_whitespace(x: &StrTendril) -> bool {
     // FIXME: this might be much faster as a byte scan
     x.chars().any(|c| !c.is_ascii_whitespace())
@@ -113,8 +116,21 @@ where
 
                 <html> => self.step(InBody, token),
 
-                tag @ <base> <basefont> <bgsound> <link> <meta> => {
-                    // FIXME: handle <meta charset=...> and <meta http-equiv="Content-Type">
+                tag @ <meta> => {
+                    // FIXME: handle  <meta http-equiv="Content-Type">
+                    #[cfg(feature = "encoding")]
+                    if let Some(charset) = tag.attrs.iter().find(|a| a.name == QualName::new(None, ns!(html), local_name!("charset"))) {
+                        if let Some(encoding) = Encoding::for_label(charset.value.as_bytes()) {
+                            self.insert_and_pop_element_for(tag);
+                            return MaybeChangeEncodingAndStartOver(encoding);
+                        }
+                    }
+
+                    self.insert_and_pop_element_for(tag);
+                    DoneAckSelfClosing
+                },
+
+                tag @ <base> <basefont> <bgsound> <link>  => {
                     self.insert_and_pop_element_for(tag);
                     DoneAckSelfClosing
                 }
 
@@ -77,6 +77,8 @@ pub(crate) enum ProcessResult<Handle> {
     Script(Handle),
     ToPlaintext,
     ToRawData(RawKind),
+    #[cfg(feature = "encoding")]
+    MaybeChangeEncodingAndStartOver(&'static encoding_rs::Encoding),
 }
 
 pub(crate) enum FormatEntry<Handle> {
 
@@ -14,11 +14,15 @@ rust-version.workspace = true
 [lib]
 path = "lib.rs"
 
+[features]
+encoding = ["dep:encoding_rs"]
+
 [dependencies]
 string_cache = "0.8"
 phf = "0.11"
 tendril = "0.4"
 log = "0.4"
+encoding_rs = { version = "0.8", optional = true }
 
 [build-dependencies]
 string_cache_codegen = "0.5.4"
Original file line number	Diff line number	Diff line change
`@@ -77,6 +77,8 @@ pub enum TokenSinkResult<Handle> {`
`77`	`77`	`Script(Handle),`
`78`	`78`	`Plaintext,`
`79`	`79`	`RawData(states::RawKind),`
	`80`	`+ #[cfg(feature = "encoding")]`
	`81`	`+ MaybeChangeEncodingAndStartOver(&'static encoding_rs::Encoding),`
`80`	`82`	`}`
`81`	`83`
`82`	`84`	`/// Types which can receive tokens from the tokenizer.`
Original file line number	Diff line number	Diff line change
`@@ -392,6 +392,10 @@ where`
`392`	`392`	`assert!(more_tokens.is_empty());`
`393`	`393`	`return tokenizer::TokenSinkResult::RawData(k);`
`394`	`394`	`},`
	`395`	`+ #[cfg(feature = "encoding")]`
	`396`	`+ MaybeChangeEncodingAndStartOver(encoding) => {`
	`397`	`+ return tokenizer::TokenSinkResult::MaybeChangeEncodingAndStartOver(encoding);`
	`398`	`+ },`
`395`	`399`	`}`
`396`	`400`	`}`
`397`	`401`	`}`
Original file line number	Diff line number	Diff line change
`@@ -77,6 +77,8 @@ pub(crate) enum ProcessResult<Handle> {`
`77`	`77`	`Script(Handle),`
`78`	`78`	`ToPlaintext,`
`79`	`79`	`ToRawData(RawKind),`
	`80`	`+ #[cfg(feature = "encoding")]`
	`81`	`+ MaybeChangeEncodingAndStartOver(&'static encoding_rs::Encoding),`
`80`	`82`	`}`
`81`	`83`
`82`	`84`	`pub(crate) enum FormatEntry<Handle> {`